いまさら聞けないHadoop勉強会第2回に参加しました - ハードコイルド・ワンダーランド

参加レポ。第1回は見逃していたので参加できませんでした。

こくちーず(全5回の続き物企画らしいです)
SlideShareの発表資料

前回はHDFSとかMapReduceの基本的な概念を解説されたようです。

今回は特定のアルゴリズムを元に、それをどうやってMapReduceのジョブフローに落とし込むのか？という部分を丁寧に解説してもらいました。
今回お題にあがったのは次のアルゴリズム。

で、アルゴリズムの解説->処理単位への分解->ジョブフローへの落とし込みという流れでした。

とくに「へー」と思ったのが単純なジョブフローに落とせない場合にどうするのか？という部分。
複数のMapReduceに分解する、というのは理解できるんですが、「じゃあ具体的にどーすんのよ？」というのが自分として派腑に落ちていませんでした。

今回の例では

といった具合にリスト->ワードカウントというフローを多用していて「ああ、こうやって考えればいいのか」と妙に納得しました。