いまさら聞けないHadoop勉強会 第2回に参加しました

参加レポ。第1回は見逃していたので参加できませんでした。

こくちーず(全5回の続き物企画らしいです)
SlideShareの発表資料

アジェンダとか

前回はHDFSとかMapReduceの基本的な概念を解説されたようです。

今回は特定のアルゴリズムを元に、それをどうやってMapReduceのジョブフローに落とし込むのか?という部分を丁寧に解説してもらいました。
今回お題にあがったのは次のアルゴリズム。

  • k-means
  • TF-IDF

で、アルゴリズムの解説->処理単位への分解->ジョブフローへの落とし込みという流れでした。

とくに勉強になった部分

とくに「へー」と思ったのが単純なジョブフローに落とせない場合にどうするのか?という部分。
複数のMapReduceに分解する、というのは理解できるんですが、「じゃあ具体的にどーすんのよ?」というのが自分として派腑に落ちていませんでした。

今回の例では

  • 「○○の数」を求めるときに「○○リスト」を作ってからワードカウント
  • 「△△に含まれる特定の○○の数」を求めるときに「△△に含まれるすべての○○のリスト」を作ってからワードカウント

といった具合にリスト->ワードカウントというフローを多用していて「ああ、こうやって考えればいいのか」と妙に納得しました。

その他

  • 次回は「ハンズオン形式っぽくなるかも」とのことでした。
  • こぢんまりした勉強会でしたが、質問が飛び交う良い雰囲気の勉強会だったと感じました。次回もぜひ参加したいですね。