渋谷駅前で働くデータサイエンティストのブログ

元祖「六本木で働くデータサイエンティスト」です / 道玄坂→銀座→東京→六本木→渋谷駅前

2014-01-01から1年間の記事一覧

今の職場にやってきて1年が経ちました

「もう5年ぐらいいるのかと思った」とか部長から言われるくらいデカい態度で完全に溶け込んでしまっている昨今ですが(汗)、前回の退職エントリの後で今の職場にやってきてから、今日でちょうど1年が経ちました。 ということで、今回の記事ではこの1年間に…

Stanで統計モデリングを学ぶ(6): 階層ベイズモデルで季節調整を行う

前回の記事では盛大にトレンドつきモデルの式をトレンド累積値でモデリングしないという間抜けなことをしてしまい大変失礼しましたorz さて、階層ベイズモデルでは際限なく色々な要素を足していくことで、果てしなく複雑っぽいモデルを作ることができるわけ…

青空文庫のデータを使って、遅ればせながらword2vecと戯れてみた

もう既に山ほど解説記事が出回っていて、あまつさえそれを利用したwebサービスまで出てきてしまっているword2vecですが、うちの現場でも流行っているのでせっかくなので僕もやってみようと思い立ったのでした。 word2vecそのものについては昨年来大量にブロ…

パッケージユーザーのための機械学習(9):混合ディリクレ過程

前回の記事からだいぶ経ってしまいましたが、皆様パッケージの使い心地はいかがでしょうか(汗)。ということで、今回はいよいよクラスタリングシリーズの大詰め、混合ディリクレ過程を取り上げます。 今回は僕も完全に理解しているわけではないので、ぶっち…

「統計モデリングとは何なのか」をいま一度整理してみる

もうタイトルを読んで字の如しなんですが、要は「統計モデリングってぶっちゃけ何なのよ?」という問題意識が最近非常に局所的ながら影響力の大きいところ*1から出てきておりまして。 で、僕もその議論にマターリ参加しながら「このもやもやしたものをどうや…

Stanで統計モデリングを学ぶ(5): とりあえず階層ベイズモデルを試してみる(応用編:トレンドのあるモデル) *追記2件あり

このシリーズ記事、全然真面目に事前分布の勉強をしていない人間がStanで無理やりフルベイズをやろうという無謀な代物でございますが、何だかんだで段々佳境に入ってまいりました。 ということで、今回は階層ベイズモデルをこんな感じでやってみましたという…

2015新卒就活戦線におけるデータ分析者候補生争奪戦を眺めてみて

(※このエントリで述べている内容はあくまでも業界全体の状況を表す一般論であり、弊社をはじめどこか個別の企業を指したものではありません) 最近は技術系のネタばっかりなので、たまにはデータサイエンティスト(死語)にまつわる与太話でもしてみようか…

第7回DCC・第64回EIP合同研究発表会で招待講演してきました

昨日、下記の研究会から招待講演にお招きに与り、お話してきました。 第7回DCC・第64回EIP合同研究発表会-情報処理学会 「データサイエンティスト・ブーム」後の企業におけるデータ分析者像を探る from Takashi J Ozaki 内容はまぁ、完全に見た通りです(笑…

パッケージユーザーのための機械学習(8):混合モデルとEMアルゴリズム

教師なし学習シリーズもいよいよ佳境に入ってきましたねー、と言いつつ前回記事から既に2ヶ月半ぐらい経ってますが。。。ここからは主に混合モデルを取り上げていく予定です。今回もはじパタpp.165-174をベースにやっていきます。 はじめてのパターン認識作…

Stanで統計モデリングを学ぶ(4): とりあえず階層ベイズモデルを試してみる(基本編)

だいぶ間が空いちゃいましたね(汗)。これまでの記事で大体Stanで何ができるか分かったので、ぼちぼちStanらしいことをやってみようと思います。一応過去記事のリスト出しておきますので、良かったら復習も兼ねてお読みください。 Stanで統計モデリングを学…

2014年春版:初心者にお薦めする「本当にゼロから統計学と機械学習の基礎を学ぶ」ための6冊

前回リストの記事から半年ぐらい経ちましたよー、ということで初心者向けに関しても書籍リストをアップデートした最新版のリストをお送りします。あまり中身が変わってないかもしれませんが、かぶっている本は良い本だということで(笑)。 ところで、昨年秋…

2014年春版:ビジネスにおけるデータ分析のプロを目指すなら揃えておくべき12冊

さて、前回リストの記事から半年ぐらい経ちましたよーということで、それ以降に発刊された書籍などを吟味した上で更新したリストをお届けしたいと思います。といっても引き続き今回のリストにも入っているものが多いので変わり映えしないかもですが。。。 前…

アソシエーション分析+グラフ構造可視化 ({arules} + {arulesViz}) で教師あり学習の変数重要度を可視化する

グローバルTokyoRで何話そうかなー、と思っていたんですがそう言えば主賓がvisualizationの人なんだったっけなぁということで、可視化の話にでもしようかなと。ということで、僕の大好きなネタでもやろうかと思います。 それは、「とにかく{arules} + {aruls…

新年度にあたりデータサイエンティストが覚えておくべき常識

社会人が統計学や機械学習を学ぶなら「落下傘方式」で

今日何気なく呟いたツイートが、見ていたら結構RT&favされていた模様で。 社会人が統計学とか機械学習を独習するには、いわゆる「落下傘方式」が良いと思う。必要な時にその項目だけ学んで実践する。その繰り返しで学問体系のマス目が埋まっていけば良し。あ…

Stanで統計モデリングを学ぶ(3): ざっと「Stanで何ができるか」を眺めてみる

実は業務でもStan使い始めてるんですが、まだまだ単位根ありパネルデータの分析に回すなど低レベルなものが多く、無情報事前分布と階層事前分布を巧みに使いこなして華麗にサンプリング。。。なんて夢のまた夢という情けない状況です(泣)。 で、気が付いた…

前処理なしのトランザクションデータを{arules}パッケージで読み込む方法

実は僕は結構頻繁に{arules}パッケージを使うんですが*1、個人的には汎用性を考えて必ず素性ベクトルの形になるようにデータを前処理して読み込むようにしています。例えばこんな感じ。 ビール ソーセージ 牛肉 ... 1 0 1 ... 0 1 0 ... 1 1 1 ... ... ... .…

Conditional inference treesとそのランダムフォレストを{party}パッケージで試してみた

今まで気付かなかったんですが、@dichikaさんがこんな記事を書かれていたんですね。 ランダムフォレスト雑感 - BOD 実は僕はほとんどconditional inference treesのことを知らなかったのと、ここで紹介されている{party}パッケージが面白そうだったので、そ…

パッケージユーザーのための機械学習(7):K-meansクラスタリング

本シリーズ記事のカテゴリからPythonが消えて久しい今日この頃ですが、皆様いかがお過ごしでしょうか*1。とかいう前口上はどうでも良くて、とっとと今回のお題に入りましょう。今回はクラスタリングのド定番、K-means(k平均)クラスタリングです。 K-means…

効果量(effect size)のはなし

統計学的検定の話を始めたら自分の勉強の方が止まらなくなってしまったので(笑)、ついでにやってみようと思います。ちなみにこの記事は前回のやたらブクマを集めた記事の続きみたいなものです。 そもそもビジネスの現場ではどういう「レベル」の統計学を使…

「データサイエンティスト」というか"Data Scientist"になりたかったら、英語が出来なきゃダメかも?

「また煽り記事書きやがって」と怒られそうな気しかしないんですが(笑)、最近とみに感じるようになってきていることなので備忘録的にちょっと書いてみます。あ、今回も僕の個人的経験と見聞に基づくポジショントークみたいなものなので、話半分でお願いし…

Stanで統計モデリングを学ぶ(2): そもそもMCMCって何だったっけ?

(前回記事はこちらから) ベイジアンの知識もいい加減な僕がこんなシリーズ記事を書くとかほとんどギャグの領域なんですが(汗)*1、2回目の今回の記事ではそもそもMCMCって何だったっけ?ってところから始めようと思います。 今回参考にするのは、主に久保…

パッケージユーザーのための機械学習(6):階層的クラスタリング

さて、教師あり学習の方はひと段落ついたので、今度は教師なし学習の話をやっていこうかと思います。と言っても僕が知っている範囲でなおかつ常用するような教師なし学習はRでの実装が割と貧弱なので、シリーズとしてはあまり面白くない感じになりそうです(…

「ビッグデータ」「データサイエンティスト」後のデータ分析業界はどうなっていくのか

先日の合同企業説明会でご来場いただいた就活生の皆さんにこの話題をだいぶ話したので、続きの意も込めてちょっと書いてみようと思います。実はその時お話した内容について、後日データ分析者同士の飲み会を開いた時に色々議論になったもので(笑)、そのフ…

Stanで統計モデリングを学ぶ(1): まずはStanの使い方のおさらいから

(※Stan v2.4.0以降でインストール方法に若干変更があります!詳しくはこの記事の中ほどをご覧ください) さて、年初の抱負でも語ったように今年はStanを頑張って会得していこうと思います。理由は簡単で、ありったけの要素を詰め込んでMCMCサンプラーでガン…

そもそもビジネスの現場ではどういう「レベル」の統計学を使うべきなのか

データサイエンティストブームが去りつつある一方で、データ分析ブームそのものはじわじわと広がり続けている感じのする昨今ですが。最近また、色々なところで「本当にビジネスやるのに統計学って必要なの?」みたいな話題を聞くことが増えてきたので、何と…

『ビッグデータの使い方・活かし方』はビジネスの現場におけるビッグデータの実像を知るのにベストの一冊

思いがけず、ALBERT様からこちらの本をご恵贈たまわりました*1。 ビッグデータの使い方・活かし方―マーケティングにおける活用事例作者: 朝野煕彦出版社/メーカー: 東京図書発売日: 2014/01メディア: 単行本この商品を含むブログを見る いわゆる「ビッグデー…

おまけ:レイクタホ(Lake Tahoe)観光レポート

ところで、どうもレイクタホ周辺は全米に知られるスキーのメッカでありながら日本人には馴染みの薄い観光スポットらしく、あまり日本語の情報がないということのようなので、ついでなので僕がNIPS2013に参加する傍ら観光した話*1を日本語で書いておきます。…

NIPS2013参加レポート

ということで、タイトルの通りで先月の12月第1週~2週にかけて僕はこちらのカンファレンスに参加しておりました。 NIPS : Conferences : 2013 研究者だった時分に僕が根城にしていたのは実験系主体のSFNだったもので、ぶっちゃけアウェー感満載のカンファレ…

パッケージユーザーのための機械学習:教師あり学習同士で分離超平面・決定境界を比較してみる

このシリーズ記事では、Rで*1色々な機械学習のアルゴリズムについて、それらがどんなものなのかを簡単なデータに対して分離超平面・決定境界を描きながら見てきました。 パッケージユーザーのための機械学習(1):決定木 - 銀座で働くデータサイエンティスト…