そもそもデータマイニングって何ですか
実は僕もITデータサイエンス業界向けの就活始めるまで、「でーたまいにんぐ」という単語というか言葉自体を知りませんでした*1。笑 なので、正直言って未だに僕自身がデータマイニングの専門家のような顔をすることそのものに猛烈な違和感を覚えて仕方ありません。
そんなわけで、字面の定義としてはもうWikipedia様の仰る通りということにして、実際の現場での雰囲気みたいなものをちょっと書いてみようかなと思います。
統計学+機械学習
見たまんまです。つまり、数字に対してただ単に「AはBより大きい」とか「カテゴリAの月次合算値はBでした」とか、(例えば)Excelの初歩的な機能だけではじき出せるものや大きい小さいといった事実だけを求めるのではなく、「AはBより有意水準95%のもとで有意に大きい」「カテゴリAの月次合算値がBを超える確率は75%」というようにその確率の多寡や定量的な予測を与える、というものです。
言い換えると、数字の見たままより一歩進んで、もっと深いところを統計学や機械学習を用いてロジカルかつ合理的に掘っていこうというのがデータマイニングです。データをマイン(mine: 掘る)するから、データマイニングと言うのですね。
他にもこんなことも
一般に、Webデータの世界でデータマイニングの技術が生きる場面と言えばやはりレコメンドエンジン(recommender system)でしょう。Amazonとかで、何か商品を買うと「これもお薦め!」と出てくるアレです。基本的にはデータマイニングの技術を用いて、予め「○○を買った人は××も買う」という傾向を掴んでおいて、○○を買った人に××の広告を見せるというシステムです。
この辺のところは、和書では良い本はあまりないんですが洋書には結構良い本があります。僕のお薦めは"Data Mining and Statistics for Decision Making" (Stephane Tuffery)です。
Data Mining and Statistics for Decision Making (Wiley Series in Computational Statistics)
- 作者: Stéphane Tufféry
- 出版社/メーカー: Wiley
- 発売日: 2011/04/18
- メディア: ハードカバー
- 購入: 15人 クリック: 478回
- この商品を含むブログ (2件) を見る
データマイニング手法を網羅的に、しかも実際のビジネスシーンにおけるソリューションを例示しながら簡潔に説明してくれていて、かなりオススメです。
なら、データマイニングで何ができるの?
前の記事で取り上げた、素性ベクトルの例をちょっと思い出してください。
ユーザーID | 記事閲覧 | 記事投稿 | コメント閲覧 | コメント投稿 | カメラ起動 | 画像投稿 | 検索 | 定着or離脱 |
---|---|---|---|---|---|---|---|---|
1001 | 1 | 0 | 1 | 1 | 1 | 1 | 1 | 定着 |
1002 | 1 | 0 | 0 | 0 | 0 | 0 | 1 | 離脱 |
1003 | 1 | 0 | 1 | 1 | 0 | 0 | 0 | 離脱 |
1004 | 1 | 1 | 0 | 1 | 1 | 1 | 0 | 定着 |
... | ... | ... | ... | ... | ... | ... | ... | ... |
たったの4例ですが、既にそこそこ明確な傾向が見えてますよね。例えば、
- 「記事閲覧」は全UU共通
- 「コメント閲覧」「コメント投稿」「検索」は定着・離脱とで同数
- 「カメラ起動」「画像投稿」は定着UU全員が行っている
- 「記事投稿」は定着UUの半分が行っている
というようなことが分かります。これを、このクロス集計表からさらに定着vs.離脱のそれぞれに分けて合計値を計算すれば、全体の傾向が見えてくることでしょう。
・・・けれども、それでも合計値がほぼ一緒ということが起きたらどうしますか? 上の例のように、4人分ぐらいのデータなら、目で見て振り分け、どのアクションが定着のために有効だったかを判別できるでしょう。「カメラ起動」「画像投稿」「記事投稿」が有効らしい、ということは誰でも分かりますよね。
ところが、素性ベクトルの次元数(つまりアクション分類の数)が100個とかに達するのはWebデータでは珍しくありませんし、それが1万UUとか10万UUに達することもしばしばです。となると、統計学や機械学習の手法を用いて自動化して、なおかつその結果を定量化した方が手っ取り早くないですか?例えば、
といった手法を使えば、(上の例では)我々が目で見て振り分けていたのを、コンピュータ上で機械的にやることができます。
そうすることによって、人の目に頼ることなく、なおかつコンピュータに任せきりにしていても、我々は「どうやらユーザーにカメラ起動・画像投稿・記事投稿してもらうように導線を張れば3日後もサイトに来てもらいやすくなるらしい」という運用のヒントを得ることができるわけです。
言ってみれば、Excelなどの表計算ソフトでただ集計する以上のことが、データマイニングでは分かる。そして、それはビジネスの運用を改善するヒントになる。それこそが、データマイニングのビジネスにおける存在意義と言ってよいと思います。