渋谷駅前で働くデータサイエンティストのブログ

元祖「六本木で働くデータサイエンティスト」です / 道玄坂→銀座→東京→六本木→渋谷駅前

データサイエンス

現職場の公式テックブログ始まりました

ちらっとTwitterでもコメントしましたが、現職場でも公式ブログ始まりました。テックブログ45選という記事には間に合わなかったのが残念ですが。。。 RCO アドテクLabブログ もうタイトル見たまんまです(笑)。基本的には社内エンジニアによるテックブログ…

たとえ有償でも絶対に引き受けてはいけないデータ分析依頼の3タイプ

id:dscaさんのタダでは引き受けてはいけないネタが大ブレークしてるみたいですね。 データの分析をタダで引き受けてはならない10の理由 - ネガティブにデータサイエンティストでもないブログ 受託系便利屋的なポジションの悲哀が大変よく透けて見える良記事…

第30回データマイニング+WEB@東京(#TokyoWebmining 30th)でお話してきました

タイトルを読んで字の如く、昨日10/19(土)開催のこちらの勉強会でお話してきました。 第30回 データマイニング+WEB@東京( #TokyoWebmining 30th)−機械学習活用・マーケティング 祭り− を開催しました - hamadakoichi blog TokyoRの時と同様、いつもTwitte…

Googleトレンドに見る「データ分析関連キーワード」の栄枯盛衰

最近Googleトレンドを用いて"Statisticians died, as data scientists rise"みたいなひどいことを言っている記事をAnalytic Bridgeで見かけたので、同じようなことを日本語でもやってみようと思ったのでした。 The death of the statistician これに倣っても…

単純な集計とデータサイエンスによる分析とで結果が食い違うかもしれない3ケース

一般に、データ分析の大半はそれほど高度なテクニックの類を必要としないものです。僕も常日頃から口に出して言うことが多いんですが、「統計学だの機械学習だのの出番なんてそもそも少なくて当たり前」。工数もかかるし、できればやらない方が良いです。ぶ…

意外と見極めにくい「CVR向上に最も貢献する行動パターン」

割とどこの現場でもやっている分析として「CVR向上に最も貢献する行動パターン」の同定・抽出というのがあると思うんですが、これって簡単なようで意外と難しいポイントがゴロゴロしてるんですよね。 例えばユーザー行動ログDBからソシャゲのイベントA, B, C…

データサイエンティストを目指すに当たって、ぜひ揃えておきたいテキストたちを挙げてみる

追記2 2015年末の時点での最新リストはこちらです。 追記 この記事の5カ月後にもう少し更新した内容の「お薦め本リスト」記事を2つupしてますのでそちらもお読みください。 2013年秋版:データサイエンティストを目指すなら揃えておくべき10冊 - 六本木で働…

単純パーセプトロンをPythonで組んでみる

いきなり自分でハードル上げてみました(笑)。ちなみに何故単純パーセプトロンを最初に持ってきたのか?というと、id:echizen_tmさんのブログ記事でも触れておられる通り 機械学習には大きく分けて「識別関数」「識別モデル」「生成モデル」の3つの種類があ…

「機械学習とは何ぞや」をゆるーく説明してみる

追記(2017年7月12日)こちらの記事がGoogle検索結果でかなり上位に来ているようですが、投稿から既に4年以上が経過しており内容としては非常に古いものになっております。よろしければ「機械学習」カテゴリの比較的新しい記事もご参照ください。tjo.hatenab…

見せかけの回帰について(そして単位根過程・共和分など)

(※今回は相当に難解な内容になっちゃったかもしれません) 先日はてブを沢山集めた記事で「平均への回帰」「見せかけの回帰」「共和分」について紹介したんですが、こちらのブログで言及を頂いたようです。 はっきり言って僕が書くよりも大変丁寧な説明をさ…

ビジネスの現場でデータマイニングに取り組むなら必読の一冊(ただし洋書)

週末ということで、何となく書籍紹介でも。isseing333さんのブログ記事で紹介されていたのを見て、僕も買った本です。

素性ベクトル+分類ラベルのテーブルを持ってくる⇒Rを使ってお手軽に機械学習で分類してみる

Hiveで生テーブルを取ってくる→素性ベクトル+分類ラベルのテーブルに直す 前回の記事では、Hadoopクラスタ(というかHDFS)に収納されている、いかにもありがちなユーザー行動テーブルを、機械学習で扱いやすい素性ベクトル+分類ラベルのテーブルに直す、…

データマイニングとはどんなもので、それで何ができるのか?(主にビジネス系の方々向け)

そもそもデータマイニングって何ですか データマイニング - Wikipedia Data mining - Wikipedia 実は僕もITデータサイエンス業界向けの就活始めるまで、「でーたまいにんぐ」という単語というか言葉自体を知りませんでした*1。笑 なので、正直言って未だに僕…

Hiveで生テーブルを取ってくる→素性ベクトル+分類ラベルのテーブルに直す

現場的によくある分析のやり方 今回はちょっと実際の現場のデータサイエンス(データマイニング)の話をしてみようと思います。現在の僕の仕事は、基本的には 「Webコンテンツプラットフォーム上を回遊しているユニークユーザー(UU)の行動データをHadoopクラ…