渋谷駅前で働くデータサイエンティストのブログ

元祖「六本木で働くデータサイエンティスト」です / 道玄坂→銀座→東京→六本木→渋谷駅前

Hadoop

Hadoop + HiveからUDFでお手軽に機械学習を回せるライブラリ"hivemall"がリリースされたとのこと

TL上にものすごーく刺激的な情報が飛び込んできたので、思わずご紹介。 一部の方にはお伝えしておりますが、hive/hadoop上でスケーラブルに機械学習(今のとこクラス分類、回帰分析)を行うライブラリをオープンソース(LGPL)でリリースしました。mahout等よ…

Hiveで生テーブルを取ってくる→素性ベクトル+分類ラベルのテーブルに直す

現場的によくある分析のやり方 今回はちょっと実際の現場のデータサイエンス(データマイニング)の話をしてみようと思います。現在の僕の仕事は、基本的には 「Webコンテンツプラットフォーム上を回遊しているユニークユーザー(UU)の行動データをHadoopクラ…