Twitterでは基本的にファイルはLZO圧縮しているようで, 3,4倍のストレージの節約 分割可能 CPUは少ししか使わない IOバウンドのジョブは3,4倍の性能向上 などのメリットがあると言っています.これは使わない手はないということで試してみました. clouderaのこのブログ記事を参考にして進めます. code.google.com/p/hadoop-gpl-compressionもありますが,Twitterが公開している分割可能なのを使います. http://github.com/kevinweil/hadoop-lzo 今回の環境はclouderaのamiをベースにしました. cloudera-ec2-hadoop-images/cloudera-hadoop-fedora-20090623-x86_64 ami-2359bf4 CDH3で,hadopoのバージョンは
最近圧縮ファイルの速度について気になるので、いろいろ調べてみると、圧縮率は低いが、速度は爆速だと言われているLZOと言うのがあるみたいだ。 HTTPの圧縮にも使われているGZIPは結構オーバーヘッド小さいと思っていたのだが、実際にLZOをJavaのJNI経由で呼び出すJava実装をSeabassNativeIOに追加して、それぞれの速度を量ってみる。 ちなみにGZIP圧縮解凍は、java.util.zip.GZIPInputStream,java.util.zip.GZIPOutputStreamで処理する。 これらをそれぞれ、java.io.ByteArrayInputStream,java.io.ByteArrayOutputSteamをかまして処理する。 private static final int LEN = 20 ; /** * @param args */ public s
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く