タグ

hadoopに関するCLSmoothのブックマーク (35)

  • 「Hadoopの時代は終わった」の意味を正しく理解する - 科学と非科学の迷宮

    Hadoopの時代は終わった、という言説をたまに見かけるようになりました。 もちろん終わってなどいません。しかし、Hadoopとその取り巻く環境が変化したのは事実です。 記事では、この変化が何なのかを明らかにし、その上で、なぜHadoopの時代は終わったという主張が実態を正しく表していないのかを説明していきます。 DISCLAIMER 私はHadoopを中心としたデータ基盤を取り扱うベンダー、Clouderaの社員です。 中立的に書くよう努めますが、所属組織によって発生するバイアスの完全な排除を保証することはできません。 以上をご了承の上、読み進めてください。 要約 データ基盤は、Hadoopの登場により非常に安価となり、今まででは不可能だった大量のデータを取り扱えるようになりました。 Hadoopは、NoSQLブームの中、処理エンジンであるMapReduceとストレージであるHDFSが

    「Hadoopの時代は終わった」の意味を正しく理解する - 科学と非科学の迷宮
  • フリーのVM環境を使って、ビッグデータ分析の学習環境をすばやく構築する

    はじめに Hadoopを使って大規模データを蓄積し分析するのは、もはや当たり前になってきた昨今ですが、大規模データ分析の環境を試すのは、なかなか難しいというのが現状です。確かに、Hadoop単体やSQLエンジン単体なら、Amazon EMRやGoogle BigQueryなどを使うことで体験することは可能でしょう。しかし、大規模データの分析基盤では以下のようなことを行っていく必要があります。 RDBMSからデータをHadoopにインポートする SQLを使って、大規模データを高速に分析する アクセスログなどの大量の非構造化データを分析する 大量のデータに対し、リコメンドに利用するための高度な分析処理を行う 大量のデータを全文検索できるようにする これらすべてを試す環境を構築するのは、たとえクラウド環境を使ったとしても困難です。また、(検証環境としては)意外と高額な費用がかかってしまい、永続化

    フリーのVM環境を使って、ビッグデータ分析の学習環境をすばやく構築する
  • Sparkを用いたビッグデータ解析 〜 前編 〜

    Sparkによる GISデータを題材とした時系列データ処理 (Hadoop / Spark Conference Japan 2016 講演資料)

    Sparkを用いたビッグデータ解析 〜 前編 〜
  • 最弱のHadoopクラスタをRaspberry Piで構築する - もょもとの技術ノート

    はじめに HadoopのHA勉強したいなーと思い、Hadoopクラスタ組んでみました。 で、環境をどうするかが問題です。 次のパターンでHadoopクラスタ組めないか、考えました。 AWS サーバー自作で仮想化 インテルのNUC Raspberry Pi AWSって最高じゃないですか。でも、手元に物理的な筐体がないと物足りないんですよね。なんだろ、これ。 サーバー自作は最後まで考えました。CPU何にするかまで考えました。でも、物理的に大きなものが、我が家に存在すると、いろいろ問題があるのですよ。奥様的に。で、却下。 インテルのNUC欲しかったです。でもSSDとか電源とか別途購入する必要があり、結果的にコストオーバー。 んで、消去法で、Raspberry PiでHadoopクラスタ組んでみることになりました。 ゴールはNameNode、DataNode、ResourceManager、Nod

    最弱のHadoopクラスタをRaspberry Piで構築する - もょもとの技術ノート
  • Hadoop を使った基盤地図情報の GeoJSON タイル変換 Pt. 1 - 世界の測量

    物の MapReduce を使った基盤地図情報の GeoJSON タイル変換の流れができた。ソースデータごとに GeoJSONL に変換するステップの後、一度に MapReduce を使って変換する方法である。ソースデータの一部が変更された時に、変更を受けていないソースデータに対応する GeoJSONL 変換をしなくて済むようになっている。 Hadoop のインストール(OS X) MapReduce といっても、特段分散計算機環境を設定しない、HomeBrew のデフォルト状態の Hadoop を使っている。それでも、特にソースデータが大規模の場合に、Unix sort よりは高速になる。Hadoop をきちんと設定して高速化する作業は、あとの楽しみにとっておく。 $ brew install mapreduce 現在、手元では hadoop の 2.5.1 がインストールされている。

    Hadoop を使った基盤地図情報の GeoJSON タイル変換 Pt. 1 - 世界の測量
  • Hadoopソースコードリーディング 第17回に参加してきました | DevelopersIO

    Hadoopソースコードリーディング 第17回に参加してきました。今回のテーマは7月にApacheのTop-Level Project入りしたばかりのApache Tezについてでした。なお、全体的にApache Sparkと比較する形での説明が多かったので、Sparkについてご存じない方は前回のHadoopソースコードリーディング 第16回に参加してきましたをご参照下さい。 NTTデータ濱野さんの冒頭の挨拶 今日は別のイベントも多いためいつもの半分ぐらいの参加者だが、その分Deepにやれれば いつもの会場だと途中からピザとお酒だが、今回の会場は飲禁止なので最後までシラフで Tezに関する勉強会は初回なのにいきなりタイトルがInternalsとかになってますねw Tez Internals (@oza_x86 さん) @oza_x86 さんからはTez Internalsということで、S

    Hadoopソースコードリーディング 第17回に参加してきました | DevelopersIO
  • Hadoopは「難しい・遅い・使えない」? 越えられない壁がある理由と打開策を整理する

    ビッグデータの申し子のように騒がれた「Hadoop」。以前ほどメディアを騒がせてはおらず、それほど広範囲に普及したようにも思えないものの、いまだ注目されるにふさわしい存在なのは間違いありません。しかし、今日の、あるいはこれからのHadoopがどのように進化しているのかを知れば、Hadoopを諦めていた方々も再度注目しようと思われるのではないでしょうか。 そもそもHadoopとは……? の禅問答っぽさ 突然ですが、「Hadoopとは何ですか?」と説明を求められたら、皆さんならどう答えますか? Q.「Hadoopとは何ですか?」 Ans. 複数のサーバーで構成され、MapReduceと呼ばれる仕組みで分散処理を行う環境であること データも共有ストレージではなく、各サーバーの内蔵ディスクに分散して格納されること HDFSと呼ばれる独自のファイルシステムがあり、データの分散については自動的に行われ

    Hadoopは「難しい・遅い・使えない」? 越えられない壁がある理由と打開策を整理する
  • 電子書籍『実践 機械学習』の無料ダウンロードが可能に!

    機械学習の基礎について解説した電子書籍『実践 機械学習 ― レコメンデーションにおけるイノベーション』がHadoop情報サイト「Hadoop Times」から無料でダウンロードできます。 著者は『Mahoutイン・アクション』の著作でもお馴染みのTed DunningとEllen Friedman。Apache Mahoutプロジェクトプロジェクトマネジメント委員やコミッタとして活躍しながら、MapR社でチーフアプリケーションアーキテクトやコンサルタントを務めている両氏が、機械学習の初学者のために書き下ろしたの一冊です。50ページほどの手軽なボリュームながら、レコメンデーションを洗練させるための重要なエッセンスが詰まっています。 機械学習とレコメンデーションについて学習したいけれど、どこから始めればよいか迷っているという方は、手始めに書を読むところから始めてみてはいかがでしょうか。 H

    電子書籍『実践 機械学習』の無料ダウンロードが可能に!
  • Hadoop MapReduceを全置き換え、スペインStratioがSpark採用事例を発表

    ビッグデータ分析ソフトを手掛けるスペインのStratioは、インメモリーのビッグデータ分析ソフト「Spark」の採用事例を公開した(発表資料)。同社は7年以上前から、顧客向けのビッグデータ分析にHadoop MapReduceを使ってきたが、2013年からSparkの利用を始め、今ではMapReduceを完全にSparkに置き換えたという。 同社は2013年までの6年間ほど、MapReduceにリアルタイム処理エンジンの「Storm」を組み合わせたラムダアーキテクチャを採用してきたが、「開発やデプロイ、サポートなどの面で、次第に複雑さが増してきたため、より良い技術を探した結果、Sparkを見つけ、採用することにした」(同社)という。 Stratioは、通信事業者のスペインTelefonicaやホテル事業を手掛けるスペインNH Hotelsといった企業に向けて、ビッグデータ分析基盤を提供して

    Hadoop MapReduceを全置き換え、スペインStratioがSpark採用事例を発表
  • Riak CS 1.5 がリリースされました - kuenishi's blog

    Riak CS 1.5.0 が米国時間で昨日、リリースされた。OSSになってから1年余りになる。このリリースは、1.4系に残っていた多くのバグをなおしつつ、いくつかのAPI追加を行ったものだ。相変わらず運用まわりの地味な機能追加が多い。また、コレは Riak 1.4系の上で動作する最後のRiak CSになるだろう。1系の集大成だと個人的には思う。思えば一年半、遠くにきたもんだ。いろいろ怒られたり、ちょっとだけ売れたり、ちょっと前には Riak CS上で今をときめくトレジャーデータのシステムが動き始めたりと… なんでこんなことを書いているかというと、このリリースのために割といろいろ頑張ったからですね。こういう風にあちこちで使われている製品のソースコードに、技術的な難しさはほとんどないとはいえかなりの量をコミットしたのは私の人生では初めてのことなので、これはまたちょっと感慨深いのであった。1.

    Riak CS 1.5 がリリースされました - kuenishi's blog
  • Hadoopの「開発企業」へと進み始めたNTTデータ

    オープンソースソフトウエア(OSS)の分散データ処理ソフト「Hadoop」を使ったシステム構築やサポートの事業を手がけるNTTデータ。そんな同社が現在、Hadoopのサポート企業から「開発企業」へと変わり始めている。Hadoopのソースコード開発に関する貢献を増やし、Hadoopの「コミッター」を自社から輩出することを目指す。 「Hadoopの開発そのものに、今まで以上に足を突っ込むことに覚悟を決めた」。NTTデータの濱野賢一朗氏は、同社のHadoopに関するスタンスをこのように表現する。NTTデータは2010年7月から、Hadoopを使ったシステム構築・運用支援サービスを手がけている。NTTデータは当初、Hadoopのディストリビューション(検証済みパッケージ)のベンダーである米クラウデラと提携し、サポートを提供していた。例えば、ユーザー企業からHadoopに関するバグ修正などの要望が生

    Hadoopの「開発企業」へと進み始めたNTTデータ
  • MapReduceは「ゆっくり死んでいく」、Hadoop開発者のカッティング氏

    オープンソースソフトウエア(OSS)の分散データ処理ソフト「Hadoop」が、大きな変貌を遂げ始めている。バッチ処理だけでなく、SQLクエリーを使ったインタラクティブ分析やインメモリー処理、機械学習処理などへと適用領域を広げているからだ。Hadoopのオリジナル開発者であるダグ・カッティング氏は、「新しい時代が始まった」と語る。 現在のHadoopの状況をどのように見ているか? 同じような機能を備えたコンポーネントが複数提案されるなど重複はあるが、技術開発は非常に高速に進んでいる。(米Apacheソフトウエア財団が2013年10月に正式版をリリースした)スケジューラーの「YARN」によって、(Hadoopのストレージシステムである)「HDFS」の上に、様々なテクノロジーを共存できるようになったことが大きい。私が特に驚いているのは、(DAG:Directed Acyclic Graph=有向

    MapReduceは「ゆっくり死んでいく」、Hadoop開発者のカッティング氏
  • Cloudera Managerで手軽にNorikraを試す | nagaseyasuhito Daily works.

    NorikraをCloudera Managerの管理下に置き手軽に試すためのCSD/Parcelを作りました。NorikraとはSQLでストリーム処理を行えるOSSで、いくつかの制約はありますが、大量のログを低レイテンシで処理することができます。 NorikraはJRubyで実装されているのでgemコマンドでインストールすればすぐ使うことが出来る反面、そもそも標準パッケージにJRubyがないのでインストールが面倒だったり、他のHadoopのコンポーネントはそもそもCloudera Managerで管理しているので、Norikraだけ管理が違うのなんかやだなあ、ということでCloudera Managerで管理できるようにしてみました。 Cloudera Managerとは? Cloudera社が開発しているCDHというHadoopディストリビュージョン用の管理ツールです。Webコンソール

    Cloudera Managerで手軽にNorikraを試す | nagaseyasuhito Daily works.
  • Apache Maven で Hadoop を管理する方法 - Qiita

    <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd"> <modelVersion>4.0.0</modelVersion> <groupId>org.holidayworking</groupId> <artifactId>hadoop-maven-sample</artifactId> <version>1.0-SNAPSHOT</version> <packaging>jar</packaging> <name>hadoop-maven

    Apache Maven で Hadoop を管理する方法 - Qiita
  • PinterestのHadoopインフラ - ワザノバ | wazanova

    http://engineering.pinterest.com/post/92742371919/powering-big-data-at-pinterest 1 comment | 0 points | by WazanovaNews ■ comment by Jshiike | 約3時間前 Pinterestもものすごい規模になってきましたね。 1日当たり20TBの新しいデータ。Amazon S3には約10PBが保存されている。 同社ではこのデータの処理にHadoopを利用していますが、 毎日100人以上が、Quoboleが提供するダッシュボードを使って、2,000件以上のジョブを実行。 3,000個のノードで構成される6つのHadoopクラスタを利用。エンジニアは数分で専用のクラスタが立上げ可能。 毎日のログデータは、200億件。約1TBに達する。 このグラフによると、Pinte

  • MPP on Hadoop, Redshift, BigQuery - Go ahead!

    Twitterで「早く今流行のMPPの大まかな使い方の違い書けよ!」というプレッシャーが半端ないのでてきとうに書きます.この記事は俺の経験と勉強会などでユーザから聞いた話をもとに書いているので,すべてが俺の経験ではありません(特にBigQuery).各社のSAの人とかに聞けば,もっと良いアプローチとか詳細を教えてくれるかもしれません. オンプレミスの商用MPPは使ったことないのでノーコメントです. MPP on HadoopでPrestoがメインなのは今一番使っているからで,Impalaなど他のMPP on Hadoop的なものも似たような感じかなと思っています. もちろん実装の違いなどがあるので,その辺は適宜自分で補間してください. 前提 アプリケーションを開発していて,そのための解析基盤を一から作る. 簡単なまとめ データを貯める所が作れるのであれば,そこに直接クエリを投げられるPre

  • “遊び”がビジネスを創る--リクルートのイノベーション集団

    印刷する メールで送る テキスト HTML 電子書籍 PDF ダウンロード テキスト 電子書籍 PDF クリップした記事をMyページから読むことができます リクルート。この名前を知らない人は日にほとんどいないのではないだろうか。もし、リクルートという名前を知らなかったとしても、リクナビやゼクシィ、R25、Suumoなど同社が創り出したサービスの名前を聞けば、一度はお世話になったことがあるのではないだろうか。 「新たな価値」を生みだすことを企業理念に掲げるリクルートを、技術で支えるのが「リクルートテクノロジーズ」だ。このリクルートテクノロジーズに、リクルートをさらに進化させることをミッションとした「アドバンスドテクノロジーラボ」が設立された。 --アドバンスドテクノロジーラボ(ATL)とはどのような組織なのでしょうか。 「世の中の先進技術から新しい価値を創出する」ことをミッションとしていま

    “遊び”がビジネスを創る--リクルートのイノベーション集団
  • Apache Hama - Big Data and High-Performance Computing

    This project has retired. For details please refer to its Attic page. Apache HamaTM is a framework for Big Data analytics which uses the Bulk Synchronous Parallel (BSP) computing model, which was established in 2012 as a Top-Level Project of The Apache Software Foundation. It provides not only pure BSP programming model but also vertex and neuron centric programming models, inspired by Google's Pr

  • Hadoop上で動くスケーラブルなRandomForest分類器の開発 | 株式会社サイバーエージェント

    業務経歴: 大手総合電機メーカー、バイオベンチャーを経て、2011年に株式会社サイバーエージェント入社。現在は「Ameba」サービスの分析を担当。 1.はじめに RandomForestという分類器はパラメータ設定の容易さや確率分布を仮定してなくも良い手軽さ等の理由により、様々な分野で多様されている。しかしながら、アナリストがよく利用する分析ソフトウェアR上でのRandomForest実装をそのまま使うと大きなデータを扱うことができないためソーシャルゲームなどの分析には適用できない場合もあった。そのため弊社内で構築されているHadoop環境を使って大規模なデータを扱えるようなRandomForest分類器を開発し、それを利用してAmebaプラットフォームの分析を行った。 2.実装 以下にRandomForestの一般的なアルゴリズムを示し、現状のRとMahoutとの実装での制限を示した上で

  • Mahout使って分析しちゃいました。

    EnterpriseZine(エンタープライズジン)編集部では、情報システム担当、セキュリティ担当の方々向けに、EnterpriseZine Day、Security Online Day、DataTechという、3つのイベントを開催しております。それぞれ編集部独自の切り口で、業界トレンドや最新事例を網羅。最新の動向を知ることができる場として、好評を得ています。

    Mahout使って分析しちゃいました。