Hadoop Conference Japan 2014にいってきた #hcj2014 - ハードコイルド・ワンダーランド

AMと夕方に予定があって、昼間がすぽーんと暇だったので会社を休んで行ってみた。というか、SQLによるバッチ処理とストリーム処理があったのでこれを聞きにいった。

Batch processing and Stream processing by SQL from SATOSHI TAGOMORI

よかったこと

何よりもHadoop（というかストレージとか、データストア）周りがDB, Batch, Short Batch, Streamというカテゴリで綺麗に整理されていたのがすごく良かった。
カテゴリ自体というよりもその分割観点がすごく良くて以下の３つで分けているんだけど

ああ、なるほどなぁというか腹に落ちた感じ。Target WindowってStreamというかCEP的なことをやるまで全然意識しなかったんだけど、Target Windowを軸に分けるとDBとかBatchとの違いをすごい説明しやすいんだなということに気がついた。これはパクろう（確信）

あとはストリームの供給元はやっぱり fluentd がいいなぁっていう。自分で作っているものはWebSocketでデータを渡しているわけなんだけど、Web Serverとの結合がだるいし、ボトルネックになる場所が増えたりして正直しんどい。

Windowsなので本当はSemantic Logging Application Blockとか使うべきなのかもしれないけど、 fluentd のエコシステムは魅力的だなと思う。 ~~C#じゃないとだるいけど~~

そうそう、自分はC#でCEP的なことをしているのでStreamに対するQueryもStorageに対するQueryもLinqで記述している。あれはなかなかいいものですよ。１回書けばそれで済むしね :)

Sparkの発表をひとつも見れなかった。SQLによるバッチ処理とストリーム処理でも「SparkはShort BatchなのかStreamなのかよく知らん」みたいな話があったけど、自分も全くしらなくて。

見られればよかったなぁ。。。という感じ。