渋谷駅前で働くデータサイエンティストのブログ

元祖「六本木で働くデータサイエンティスト」です / 道玄坂→銀座→東京→六本木→渋谷駅前

統計学

「p値や有意性に拘り過ぎるな、p < 0.05かどうかが全てを決める時代はもう終わらせよう」というアメリカ統計学会の声明

以前から同様の指摘は様々な分野から様々な人々が様々な形で出してきていましたが、アメリカ統計学会が以下のような明示的な声明をこの3月7日(現地時間)に発表したということで注目を集めているようです。AMERICAN STATISTICAL ASSOCIATION RELEASES STATE…

ビジネス実務の現場で有用な統計学・機械学習・データマイニング及びその他のデータ分析手法10+2選(2016年版)

そう言えば3年前にこんなまとめ的エントリを書いたのでした。この内容はそのままかなりの部分が2年前に刊行した拙著の原案にもなったということで、色々思い出深いエントリです。なのですが。・・・この3年の間に統計学・機械学習・データマイニングの諸手法…

カイ二乗検定のメタアナリシスをやってみた(階層ベイズでも試してみた追記あり&タイトル変更済み)

記事タイトルに反して僕は実は統計的検定が大嫌いなんですが、皆さんいかがお過ごしでしょうか(笑)。ということで、今回はややマニアックなメタアナリシスの話題でもしてみようかと思います。「t-testのメタアナリシス」みたいな、いわゆるRosenthal's met…

データサイエンティストを目指すというかデータ分析を生業にするなら読んでおきたい初級者向け5冊&中級者向け12冊(2015年冬版)

(Photo via VisualHunt) 追記2017年3月現在の最新書籍リストはこちらです。 最近になってまた色々とデータサイエンティストを目指す人向けのお薦め書籍リストとか資料リストとかが出てきてるんですが、個人的には何かと思うところがあるので僕も適当にまとめ…

2015年J1最終節の全てのチームの得点を予測せよ:Data League 2015年大会講評の補遺

先日こちらの学生データ分析コンペの表彰式に、プレゼンター&解説者として登壇してまいりました。正直言って、データを提供して下さったData Stadium社の皆様からも「これほどまでの結果になるとは」という感嘆の声が上がるほどハイレベルな戦いぶりで、参…

ヒトの直感的理解は単変量モデルまで、直感を超えたければ多変量モデルへ

ちょっと前に「ワインの味わいとデータサイエンス」というお題で話してきたわけですが。 実は「単変量モデルという名の還元主義」vs.「多変量モデルに基づくデータサイエンス」というテーマを一貫して置いていたのですが、あまりそこにスポットライトが当た…

データサイエンスでワインの味の評価を予測したい

Taste of Wine vs. Data Science from Takashi J OZAKI 先日、とある勉強会で話してきた内容がこちらです。ネタとしてはもう皆さんお分かりでしょうが、以前書いた記事の続きみたいなものです。 ある程度自動的にテイスティング・スコアが付けられれば、世の…

『岩波データサイエンス』vol.1発刊しました

岩波データサイエンス Vol.1作者: 岩波データサイエンス刊行委員会出版社/メーカー: 岩波書店発売日: 2015/10/08メディア: 単行本(ソフトカバー)この商品を含むブログ (4件) を見る 実はこの刊行委員会に昨年の秋頃?に招かれまして、ずっと水面下であれや…

「統計学と機械学習の違い」はどう論じたら良いのか

何かこんなメディア記事が出ていたようです。 これを読んで色々な人がツッコミを入れまくっている模様ですが、この記事の不思議なところは「完全に間違った説明というわけでもないのに何故か(両分野に詳しい)誰が読んでも猛烈な違和感を覚える」ところなん…

交互作用項を入れればロジスティック回帰でも非線形分離可能になることもある

基本的にロジスティック回帰は単純な線形識別関数としての分類器なので、一般には線形分離不可能パターンに対して適用すると全く分類できないという結果に終わります。実際、シンプルXORパターンと複雑XORパターンに対して、ロジスティック回帰で学習させて…

RでL1 / L2正則化を実践する

L1 / L2正則化と言えば機械学習まわりでは常識で、どんな本を見てもその数式による表現ぐらいは必ず載ってる*1わけですが、そう言えばあまり実務では真面目にL1 / L2正則化入れてないなと思ったのと、Rでやるなら普通どうするんだろう?と思ったので*2、もは…

同じデータセットに対するアプローチの違いから見る「データ分析のステージ」

追記 (2015/02/21) いくつか抜けてるところがあったなぁと思ったので、後から追記や加筆修正してみました。最初のオリジナル版から少し内容が変わっているところがありますがご了承ください。 ちょっと前の記事でこんなネタをやってみたわけですが。 世の中…

「21世紀の相関」HSICの原論文"Measuring Statistical Dependence with Hilbert-Schmidt Norms" (Gretton et al., Algorithmic Learning Theory, 2005)メモランダム

相変わらずうちのチームでは論文輪読会をやってまして、先日僕が担当したのが「21世紀の相関の本命」HSIC (Hilbert-Schmidt Independence Criteria)の原論文たるこいつ↓でした。 Measuring Statistical Dependence with Hilbert-Schmidt Norms (Gretton et a…

Twitterがリリースした時系列異常値検出のためのRパッケージ{AnomalyDetection}を試してみる

もう松の内も明けてしまいましたが、遅ればせながら皆さん明けましておめでとうございます。今年もよろしくお願いいたします。 で、年明け早々にTwitterエンジニアブログに面白いネタが上がっていたのでした。 Introducing practical and robust anomaly det…

Rでベイジアン動的線形モデルを学ぶ(4):季節要素のあるローカルレベル・モデル

色々と興味が発散していて違う話題ばかりしてますが、これもまだ全然終わってないので粛々と進めようと思います。ということで今回は季節調整のお話。Commandeur本の進行に合わせて、季節調整ありただしトレンドなしというモデルでいきます。もちろんテキス…

Rでベイジアン動的線形モデルを学ぶ(3):ローカル線形トレンドモデル

相変わらずグダグダな上に挙句の果てに既にRでやっちゃった例をまとめたPDF bookまであると判明してモチベーションだだ下がりなんですが、備忘録も兼ねてめげずに続けます。もちろんテキストは相変わらずこちらの2冊。 状態空間時系列分析入門作者: J.J.F.コ…

チーム内Journal ClubでKDD2014から1報選んで紹介してきました

と言っても大した話ではないです。以下がそのスライド。 Jc 20141003 tjo from Takashi J Ozaki とりあえず読んでみた印象から言うと、「おいおいこんなんでKDD通るのかよ!」という。でも確かに言われてみれば、そもそもuser return timeみたいな概念って普…

Rでベイジアン動的線形モデルを学ぶ(2.5):最尤法でパラメータ推定してみる

前回サクッとローカルレベル・モデルを推定してみたわけですが、そう言えばパラメータ推定は何もしなかったのでした。既に線形モデルも一般化線形モデルもこのブログで見てきている以上最小二乗法や最尤法やMCMCでパラメータ推定するというのは常識なわけで…

Rでベイジアン動的線形モデルを学ぶ(2):まずは状態空間のコンセプトと基本のローカルレベル・モデルから

前回からだいぶ間が空いた上に、要は{dlm}パッケージで遊ぼう!という大袈裟なタイトルの割に中身のないこのシリーズ記事ですが(笑)、取るものもとりあえずちょっと例題をやってみようと思います。参考文献はまずこちらのPetris本。 Rによるベイジアン動的…

Googleがリリースした「キャンペーンとKPIとの因果関係を推定する」Rパッケージ{CausalImpact}を試してみた

何気なくR-Bloggerのタイムラインを見ていたら、"CausalImpact: A new open-source package for estimating causal effects in time series | Google Open Source Blog"という記事がシェアされていたので見に行ってみたのでした。これはもう読んで字の如く「…

『手を動かしながら学ぶ ビジネスに活かすデータマイニング』(技術評論社)を書くに当たって気を付けたこと&補足など(追記あり)

追記(2015/03/14) 第7章の決定木のところで取り上げた{mvpart}パッケージのサポートが切れ、CRANから削除されてしまったためinstall.packages関数ではインストールできなくなっています。現在のインストール方法を最後に追記しました。 追記(2014/09/18) 実…

今月下旬に『手を動かしながら学ぶ ビジネスに活かすデータマイニング』(技術評論社)という本を出します

本日、出版元の技術評論社(gihyo)様の公式サイトでオープンになりました。 手を動かしながら学ぶ ビジネスに活かすデータマイニング:書籍案内|技術評論社 そして書影はまだ反映されていないようですが、Amazonでも予約受付が始まった模様です*1。 手を動か…

Rでベイジアン動的線形モデルを学ぶ(1):なぜ「動的」モデルなのか

ちょっとStan一辺倒でやってるのも随分効率が悪いなぁと思い始めてきたところに、大仏のオッサンがこんなナイスな記事をupしていたのに今頃気付いたのでした(オッサン気付くの遅くてごめん)。 逐次モンテカルロ/(粒子|パーティクル|モンテカルロ)フィルタ…

施策の「レイヤー」とその規模に合わせて、データ分析の方向性を決める

これまで色々なデータ分析案件を自ら持ち(持たされ)、また色々な他所の現場のデータ分析の実態を聞いてきたわけですが、意外と未だに統一された共通認識が形成されてないのかなぁと思うのが「施策レイヤー&規模とデータ分析の方向性とのベストマッチ」。…

Stanで統計モデリングを学ぶ(6): 階層ベイズモデルで季節調整を行う

前回の記事では盛大にトレンドつきモデルの式をトレンド累積値でモデリングしないという間抜けなことをしてしまい大変失礼しましたorz さて、階層ベイズモデルでは際限なく色々な要素を足していくことで、果てしなく複雑っぽいモデルを作ることができるわけ…

「統計モデリングとは何なのか」をいま一度整理してみる

もうタイトルを読んで字の如しなんですが、要は「統計モデリングってぶっちゃけ何なのよ?」という問題意識が最近非常に局所的ながら影響力の大きいところ*1から出てきておりまして。 で、僕もその議論にマターリ参加しながら「このもやもやしたものをどうや…

Stanで統計モデリングを学ぶ(5): とりあえず階層ベイズモデルを試してみる(応用編:トレンドのあるモデル) *追記2件あり

このシリーズ記事、全然真面目に事前分布の勉強をしていない人間がStanで無理やりフルベイズをやろうという無謀な代物でございますが、何だかんだで段々佳境に入ってまいりました。 ということで、今回は階層ベイズモデルをこんな感じでやってみましたという…

Stanで統計モデリングを学ぶ(4): とりあえず階層ベイズモデルを試してみる(基本編)

だいぶ間が空いちゃいましたね(汗)。これまでの記事で大体Stanで何ができるか分かったので、ぼちぼちStanらしいことをやってみようと思います。一応過去記事のリスト出しておきますので、良かったら復習も兼ねてお読みください。 Stanで統計モデリングを学…

2014年春版:初心者にお薦めする「本当にゼロから統計学と機械学習の基礎を学ぶ」ための6冊

前回リストの記事から半年ぐらい経ちましたよー、ということで初心者向けに関しても書籍リストをアップデートした最新版のリストをお送りします。あまり中身が変わってないかもしれませんが、かぶっている本は良い本だということで(笑)。 ところで、昨年秋…

2014年春版:ビジネスにおけるデータ分析のプロを目指すなら揃えておくべき12冊

さて、前回リストの記事から半年ぐらい経ちましたよーということで、それ以降に発刊された書籍などを吟味した上で更新したリストをお届けしたいと思います。といっても引き続き今回のリストにも入っているものが多いので変わり映えしないかもですが。。。 前…