Hadoop Conference Japan 2014にいってきた #hcj2014

Hadoop Conference Japan 2014

AMと夕方に予定があって、昼間がすぽーんと暇だったので会社を休んで行ってみた。 というか、SQLによるバッチ処理とストリーム処理があったのでこれを聞きにいった。

よかったこと

何よりもHadoop(というかストレージとか、データストア)周りがDB, Batch, Short Batch, Streamというカテゴリで綺麗に整理されていたのがすごく良かった。
カテゴリ自体というよりもその分割観点がすごく良くて以下の3つで分けているんだけど

  • Target Window
  • Total throughput
  • Query latency

ああ、なるほどなぁというか腹に落ちた感じ。Target WindowってStreamというかCEP的なことをやるまで全然意識しなかったんだけど、Target Windowを軸に分けるとDBとかBatchとの違いをすごい説明しやすいんだなということに気がついた。これはパクろう(確信)

あとはストリームの供給元はやっぱり fluentd がいいなぁっていう。自分で作っているものはWebSocketでデータを渡しているわけなんだけど、Web Serverとの結合がだるいし、ボトルネックになる場所が増えたりして正直しんどい。

Windowsなので本当はSemantic Logging Application Blockとか使うべきなのかもしれないけど、 fluentd のエコシステムは魅力的だなと思う。 C#じゃないとだるいけど

そうそう、自分はC#でCEP的なことをしているのでStreamに対するQueryもStorageに対するQueryもLinqで記述している。 あれはなかなかいいものですよ。1回書けばそれで済むしね :)

よくなかったこと

Sparkの発表をひとつも見れなかった。SQLによるバッチ処理とストリーム処理でも「SparkはShort BatchなのかStreamなのかよく知らん」みたいな話があったけど、自分も全くしらなくて。

見られればよかったなぁ。。。という感じ。