いまさら聞けないHadoop勉強会 第2回に参加しました
参加レポ。第1回は見逃していたので参加できませんでした。
こくちーず(全5回の続き物企画らしいです)
SlideShareの発表資料
アジェンダとか
前回はHDFSとかMapReduceの基本的な概念を解説されたようです。
今回は特定のアルゴリズムを元に、それをどうやってMapReduceのジョブフローに落とし込むのか?という部分を丁寧に解説してもらいました。
今回お題にあがったのは次のアルゴリズム。
- k-means
- TF-IDF
で、アルゴリズムの解説->処理単位への分解->ジョブフローへの落とし込みという流れでした。
とくに勉強になった部分
とくに「へー」と思ったのが単純なジョブフローに落とせない場合にどうするのか?という部分。
複数のMapReduceに分解する、というのは理解できるんですが、「じゃあ具体的にどーすんのよ?」というのが自分として派腑に落ちていませんでした。
今回の例では
- 「○○の数」を求めるときに「○○リスト」を作ってからワードカウント
- 「△△に含まれる特定の○○の数」を求めるときに「△△に含まれるすべての○○のリスト」を作ってからワードカウント
といった具合にリスト->ワードカウントというフローを多用していて「ああ、こうやって考えればいいのか」と妙に納得しました。
その他
- 次回は「ハンズオン形式っぽくなるかも」とのことでした。
- こぢんまりした勉強会でしたが、質問が飛び交う良い雰囲気の勉強会だったと感じました。次回もぜひ参加したいですね。