2009年10月17日土曜日

IT:新しい大規模データベースシステム、注目に値する!:Hadoop World Report

20091017120825


Hadoop World Report:優良企業はなぜHadoopに走るのか
in ITmedia エンタープライズ

Hadoop World Report:優良企業はなぜHadoopに走るのか
オープンソースの大規模分散データ処理システム「Hadoop」の人気がうなぎ登りだ。Yahoo!やAmazon、FacebookといったIT業界の巨人たちだけでなく、VISAやJP Morganといった有名企業までHadoopにコミットを示している。先日開催された「Hadoop World」には、そうした企業の熱気が満ちていた。
[鵜澤幹夫,ITmedia]
2009年10月15日 08時00分 更新

米国時間の10月2日、米国・ニューヨークにて「Hadoop World」が開催された。Apache Hadoopといえば、Googleの基盤ソフトウェアであるGoogle File System(GFS)と、MapReduceのオープンソース実装。もともとはApache Lucheneを分散化させるために作られたプロジェクトだったが、現在は単独のプロジェクトとして開発が進められ、多くの開発者の注目を集めるソフトウェアに成長した。

今回開催されたHadoop Worldの主催者はCloudera。Hadoopをエンタープライズ向けに提供することを目指すこのベンチャー企業には、Apache Hadoopプロジェクトの先鞭(せんべん)をつけたドン・カッティング氏が米Yahoo!から移ってきており、注目を集めている。加えて、Yahoo!やAmazon、FacebookといったHadoopを利用する大手企業が脇を固め、さらに、VISAやJP Morganといった名の知れた企業もHadoopにコミットを示す大規模なカンファレンスとなった。

Clouderaの説明によると400名以上のエントリーがあるということで、増え続けるデータを効率よくハンドリングするための仕組みとしてRDBに変わる選択肢をMapReduce型のHadoopに求める動きが出てきていることが分かる。また、今回のカンファレンスには日本からの参加者も何人か見受けられ、国内における注目度も今後高まりそうだ。
新しいクラウドモデルの模索、各社の意図

午前中のジェネラルセッションでは、Amazon、Facebook、Yahoo!といった、まさにHadoop Worldにおける大御所が立て続けにステージに上がり、それぞれにおける取り組みについて語るという展開になった。注目すべき点は、それらの企業が、Elastic HadoopやHive、Pigといったテクノロジーを提供しながら、ユーザーとしてHadoopに依存しているという点である。

また、午後のアプリケーショントラックにおけるJP Morgan Chaseのセッションでは、もう、特定のデータベースベンダーに、膨大なライセンス料を支払う時代ではないという趣旨の発言があった。そこにユーザーとしてのIBMや、Amazon、VISA、eBay、New York Times、Facebook、Yahoo!などが加わる顔ぶれをみると、無限のスケールを持つクラウドストレージという領域を、オープンソースがリードしている状況が実感できる。

このMapReduceフレームワークの領域には、MicrosoftのDryadもあるが、Windows Azure Platformにおける具体的な姿は、まだ見えてこない。つまりHadoopにおいては、商用ソフトウェアが開拓した領域をオープンソースが塗り替えていくという、例えばInternet ExplorerをFirefoxが追いかけるような状況とは、まったく正反対の展開をみせているわけである。これほどまでに、オープンソースが新しい領域をリードしていくという展開は、恐らくはじめてのことだと思われる。

さらに言えば、複数のHadoopコントリビューターたちが、相互に補完する環境を平行して構築するという形態もはじめてのことである。そして、それぞれのコントリビュータたちはユーザーでもあり、ペタバイトオーダーのデータ分析という、きわめて慎重な検証が求められる領域でのノウハウをも共有し、それぞれの運用モデルに裏づけられた新しいクラウドモデルをリードしようとしているのである。
ペタバイトオーダーのデータ分析におけるRDBモデルとMapReduceモデルの対比

ペタバイトオーダーのデータ分析といっても、なかなかイメージできるものではないが、例えばyahoo.comのフロントページでは、Search Indexや、AD Optimize、RSS Feed、Content Optimization、Spam Filterなどのために、数ペタバイトのデータが日々分析されているという。その中で用いられるDatabase for Search Assistで、3年分のログデータを分析する際の、RDBモデルとMapReduceモデルの興味深い対比が紹介されていたの

で、ここで簡単に紹介する。
            RDB    MapReduce
分析に要する時間  26日    20分
開発言語        C++    Python
開発期間      2~3週間   2~3日

ちなみに、この分析のために必要とされるMapReduceのコードであるが、そのサイズはわずか20ステップだという。Yahoo!のプレゼンテーターである、エリック・バルデシュバイラー氏によると、たとえ経験の浅いエンジニアであっても、MapReduceによるプログラミングは可能であるとされる。

また、VISAのジョー・カニンガム氏からも、貴重なデータが提供されていたので以下に紹介する。同社では、1日に100万トランザクションが発生するため、2年間で7億強のトランザクションログが蓄積され、そのデータ量は36テラバイトに至るという。こうしたスケールのデータを、従来のRDBを用いて分析するには、約1カ月の時間が必要とされてきたが、Hadoopを用いることで13分に短縮されたという。

これまでは、Yahoo!にしろVISAにしろ、膨大なデータをRDBに押し込むほかに方法はなく、その分析に数十日を要するという痛みを抱えていたが、それが一挙に解消されたわけである。そして、Yahoo!における数ペタバイトのデータが数十ペタバイトに膨れ上がっても、あるいは、VISAにおける数十テラバイトのデータが数百テラバイトに増大しても、新たなノードを追加することで、リニアなスケールアップを約束しているのがMapReduceである。

MapReduceはGoogle Searchの基本的なテクノロジーとして誕生したが、Hadoopとしてオープンソース化されたことで、Yahoo!やVISAにおける大規模なログ解析という分野にも応用できることが証明されたといえる。そのほかにも、検索エンジンのようにWebから集めたデータを、特定の業務分野のために解析するような大規模分散データ処理モデルも存在しており、その応用分野も広がっていくと予測される。

この分野における、もう一方の勢力であるDryadはBingのエンジンであると予測され、Windows Azure Platformの一角を占めるものになると推測される。そうなると、Amazon HadoopサービスであるElastic MapReduceと競合することになり、主だったクラウドプラットフォームにおけるペタバイトオーダーのコンピューティングが現実のものとなっていく。このホットな領域から、目を離すべきではないだろう。
プログラマーの質にもよるでしょうが、開発期間が7分の1、しかもスクリプト言語Pythonで
開発できるのはすばらしい。修正も簡単にできます。

同じくITMediaに Google Bigtable と Hadoop の比較レポートについて触れられています。


オープンソース分散システム「Hadoop」の解析資料が公開
in ITmedia エンタープライズ

Googleの基盤ソフトウェアであるGoogle File SystemとMapReduceのオープンソース実装「Hadoop」の実用性を評価した解析資料が公開された。
[西尾泰三,ITmedia]
2008年08月25日 15時45分 更新

NTTレゾナントとPreferred Infrastructureは8月25日、Yahoo!のドン・カッティング氏を中心に開発が進められているオープンソース分散システム「Hadoop」にかんして共同で行った調査の解析資料を公開した。

Javaで記述されているHadoopは、Googleの基盤ソフトウェアであるGoogle File System(GFS)とMapReduceのオープンソース実装で、HDFS(Hadoop Distributed File System)がGFSに、Hadoop MapReduce FrameworkがMapReduceに対応する。

調査はHadoopの実用性を評価するためのもので、以下のような点について調査が行われている。

1. GFSとMapReduceの論文を比較対象としたHadoopの機能の調査
2. ソースコード解析による「Hadoop」の実装方式の調査
3. 実験による「Hadoop」の基本性能の調査

NameNodeの障害に対する機能が洗練されておらず、NameNodeでディスク障害が発生した場合、オペレーションログの一部が失われファイルシステムの一貫性が一部失われてしまう可能性が指摘されるなど、信頼性を中心に課題を残すものの、GFSの論文で言及されている主要な機能を備え、性能面を考慮した実装方式を採用しており、検証実験でも良好な性能を示したことから、Hadoopの実用性は十分にあると結論づけられている。
このオープンソースデータベースソフトが、耐障害性を確保すれば
あとはハードウェアの問題になります。
そうすれば、ハードウェアの問題のほとんどは「熱問題」ですので、冷涼な地方にデータセンターを立てれば維持管理費用の少ないシステムが構築できます。
事実、Googleは北欧の製紙工場趾を買取り、データセンターに改変する予定です。
日本でも、実現できそうですね。 ( ´∀`)bグッ!


ブログランキングに登録しています。応援よろしくお願いします!
コメント、トラックバックも歓迎です。


ポチッとな↓                    ポチッとな↓

人気ブログランキングへにほんブログ村 科学ブログへにほんブログ村 美術ブログへにほんブログ村 地域生活(都道府県)ブログ 高知情報へ
ブログランキングに登録しています。応援よろしくお願いします! コメント、トラックバックも歓迎です。
ポチッとな↓                    ポチッとな↓
人気ブログランキングへにほんブログ村 科学ブログへにほんブログ村 美術ブログへにほんブログ村 地域生活(都道府県)ブログ 高知情報へ