KDD2014に行ってきました - 渋谷駅前で働くデータサイエンティストのブログ

f:id:TJO:20140825091505j:plain

<a href="http://www.kdd.org/kdd2014/">KDD 2014, 8/24-27, New York: Data Mining for Social Good</a>

ということで報告が遅くなりましたが、行って参りましたKDD2014 in NYC。かつてアメリカ横断ウルトラクイズで福留さんの「ニューヨークへ、行きたいかーーー！！！」を毎年TVで見ていた世代*1としてはNYCと聞いて行かないわけにはいかないだろーということで、飛行機で13時間の長旅をものともせず馳せ参じた次第です。

会場はSheraton New York Times Square Hotel。7th Ave & 52nd Stにある巨大ビジネスホテルで、最終的に実に2000名以上が参加する巨大カンファレンスになった模様*2。そして今大会はBloombergが冠スポンサーになったことで大幅に企業寄りになったというお話で、実際2日目の夕方のkeynoteではBloombergのCEOが登壇してました。

そう言えば、今大会ではTwitterでいつも大変お世話になっている@shima__shima先生にようやくご挨拶申し上げることが出来たのでした。先生から伺ったところでは「SIGKDDとしては（例えば）SIGGRAPHやSIGMODといった他のACM傘下の大規模分科会に肩を並べたいという希望があるらしい」とのことで、Bloombergが関わるようになったのもそれが大きいとか（先生のお言葉の受け売りばかりでごめんなさい）。

<a href="http://togetter.com/li/688665">しましまのKDD2014まとめ</a>

大会そのものの様子は@shima__shima先生のTogetterが参考になるかと。またちゃんとしたKDDの会議報告は@shima__shima先生が人工知能学会誌に寄稿なさるということなので＆大会全体に関するコメントは弊社エンジニアブログに寄稿しましたのでそちらをご覧いただくとして、僕のブログでは昨年末のNIPSの時と同様に個人的な注目演題を適当にピックアップしていきます。

もちろん僕は全分野の専門家ではありませんし、それどころかこの分野で何かしらの専門家を名乗れるほどまだまだ学識が身に付いてませんので（滝汗）、ものすごーく薄く表面をなぞっただけのコメントばかりでごめんなさい。。。（以下順不同）

Unveiling Clusters of Events for Alert and Incident Management in Large-Scale Enterprise IT

Pivotalによる大規模IT基盤の異状検出に関する取り組み。やってることは全然難しくなくて、アラートメールをゴリゴリ前処理して必要な情報だけ残し、クラスタリングして可視化しました的な感じ。説明はゴツいんですが実装はR / Pythonということで思ったよりシンプル。

Streamed Approximate Counting of Distinct Elements: Beating Optimal Batch Methods

Hiveを生み出したFacebookがこんなことで悩んでるのかよと思った演題。要はアホみたいに巨大なデータに対してSELECT COUNT(DISTINCT X)をやろうとしても返ってこーい状態になって死んでしまうので、ストリームでデータセットを取ってきながらその「濃度」から確率的に最適な「個数」を求める、ということのようです。

Online chinese restaurant process

見たまんまでオンラインで中華レストラン過程(CRP)をやろうという研究（ストリーミングデータではそもそも分類クラス数を事前に決めるのは難しいという問題意識）。普通のCRPだと「客」は一度「テーブル」に座ると動かなくなるんですが、online CRPではrelaxation functionを定めて「客」が別の「テーブル」に移ることを認めているのが特徴。性能的には、他のオンライン学習則と比べて速度では遜色ないorむしろ速く、精度はとんとんといったところ。

Heat kernel based community detection

コミュニティ検出に"heat kernel"（熱核：Wikipedia記事があります）を使ってみましたというお題。なお、GitHubに筆者によるPythonデモ実装があります。→Heat Kernel Based Community Detection

Modeling Delayed Feedback in Display Advertising

Criteoによるディスプレイ広告のimpression後のconversion rate (CVR)予測モデルのお話。「cvって結構impのうっかりすると1ヶ月後だったりするじゃん？」というところから、遅れつきフィードバックの重みを想定してモデリングし、これでCVRを予測しようとのこと。もっともやってることはかなり単純で、CVR自体はロジスティック回帰でモデリングし、重みはexp(-t)で減衰させ、これの結合確率をEMで最大化してやりましょう的な雰囲気でやってます。

Predicting Employee Expertise for Talent Management in the Enterprise

IBMの発表。この研究では組織をまたいだキャリアパスみたいなのを想定していて、閉じたSNSではなくオープンなSNS以下多くのwebリソースから個々の従業員の専門領域とその実力のratingsを利用したいということを考えている。対象はIBMの世界中の425,000人の従業員。人事カテゴリからスキルレベルなどまで考慮した説明変数を用いる。ネタは単純でロジスティック回帰とSVM。説明変数の工夫に大きなウェイトがかかってるけど、既に実装済みでマッチング結果も出してます。

Modeling Professional Similarity by Mining Professional Career Trajectories

LinkedInの発表。求職SNS上では互いに似たようなキャリア履歴やスキルを持っている人材というのはかなり多いものなので、そこを定量化して類似度をモデルということを考えてみたとのこと。アイデアとしてはキーワードのバスケットか、個々のプロファイルをひとまとめとして見た系列データを使うというもの。前者同士の類似度計算は簡単だが、後者は「昇格」なんかもあって難しいので、そこでポジションレベルでの類似度ということを考えている。モデル自体はロジスティック回帰なのでシンプル。ただし系列データの持たせ方に工夫がある模様。評価としてはオフラインデータによる算出と、オンラインでA/Bテストをやって介入してその結果を比較。

Detecting Anomalies in Dynamic Rating Data: A Robust Probabilistic Model for Rating Evolution

ここで言ってるratingというのはズバリAmazonやTripAdvisor, Yelpとかのアレ。こいつは実は結構時変的で、そこに着目することで色々見えてくる。提案手法はベイジアンで混合モデル（異常値はレアイベントなのでそういう事前分布を入れる）。カルマンフィルタでは意外と異常値が取れない（弱い）らしいです。

An Empirical Study of Reserve Price Optimisation in Real-Time Bidding

UCLの産学協同研究。アドのRTB結果は事前に想定されるreserve priceとはもちろん一致しないことが多い。そこでこいつを最適化したいというのがモチベーション。ポイントとしてはdynamic & one-shot gameを定義するが、ポイントはwinner vs. publisherというゲームにする点。面白いのが、普通にヒューリスティックに解こうとしているのであまり難しいアルゴリズムになっていない点。重要なのは問題設定が本質的なポイントを突いているところか。性能比較では概ねこのやり方が良かったという話になっている。オーディエンスデータは使っていないので、そこが今後の方向性らしいです。

Product Selection Problem: Improve Market Share by Learning Consumer Behavior

そもそも「商品を選ぶ」とは何か？みたいな問題設定。スマホひとつとっても特徴量はいっぱいある。そこでこれをある座標系における最適化問題であるかのように置き換えて解こうというお話。なので、ポイントとしては「消費者の嗜好」と「商品の特徴」との「距離」に着目しているという点が重要っぽい。これはもしかしたらアドでも使えるかもしれないなぁと思いました。

A Hazard Based Approach to User Return Time Prediction

いわゆるreturn UUをどうしようかみたいなお話なんですが、使ってるのは意外にも極めてオーソドックスなCoxの比例ハザードモデル、しかもRの{survival}パッケージ。ただし説明変数が多くもなく少なくもなくバラエティ豊かに選ばれていて、そこがポイントなんじゃないかなぁと。

Seven Rules of Thumb for Web Site Experimenters

何だこのタイトルは！とうっかり笑ってしまった発表。ある意味web業界でサイト改善とかやっていれば誰でも知っていそうなネタにMSRならではの過去のデータと知見の蓄積を加えて、面白い内容に仕立てています。ちなみに「この発表によってKDDの世界に新たな課題意識を持ち込みたい」だそうで、そのうち「クリック先を誘導するのと同じくらい離脱UUを減らす」ための機械学習フレームワークみたいな研究でも出てくるんでしょうかｗ

全体としてIndustry & Government trackでは説明は不足なくぎっしり書いててゴツいんだけど実装はPython / Rのパッケージとサラリみたいなのが多かったのがかなり印象的でした。一方Research trackはそれなりにみんな実装レベルまでゴツいのも多い代わり既にGitHubとかに実装が公開されているのもあって、これはこれで初学者には助かるなぁと。Parallel track 5本は色々な意味で聴くのが難しい感じでしたが*3、バラエティ豊かに楽しめたかなと思ってます。

最後に、closing sessionで発表された参加者内訳では総参加者2000名余りのうち、企業からの参加者が1100名強と過半数。SIGKDDとBloombergの思惑通りになったというところでしょうか。ちなみに日本からは総勢57名の参加で、企業から38名*4、大学・研究機関から19名とのこと。参加者の国籍ではUSに次いで中国2位、インド3位。ただし現任地がUSという人が大半で、留学orUSで働いている中国・インドの人が多かったようで、実際登壇している人の多くがこのどちらかだったのが強烈に印象に残ってます*5。

・・・ちなみに余談ですが、会期中にテニスのUSオープンが始まっていたのでその出張スタッフも多数宿泊していたようで、僕らのネームプレートを見た彼らと「俺たちこれからUSオープンに仕事しに行くんだよ、君らは何のカンファレンスなんだい？え？Knowledge Discovery？何のこっちゃ」みたいな会話をしてましたｗ　そうそう、来年はシドニー、再来年はSFらしいですが、これはうちのチームの他の誰かに行ってもらおうかと思ってます。NYC遠かったので。。。

*1:いくら何でもネタ古過ぎ

*2:と言っても僕が脳の研究者だった頃に毎年参加してたSFNは参加者数3万5000名でワシントンDCやサンディエゴの巨大カンファレンスセンターを丸々ひとつ占有してましたが。。。

*3:僕は会社からの指令もあってほとんどIndustry & Governmentばっかり聴いてましたが

*4:弊グループからは6名が参加しました

*5:中国訛り・インド訛りの英語が多くてリスニング激弱の僕には大変つらかったです。。。