多重比較補正のはなし

R 統計学

最近になって、データ分析界隈で多重比較補正が話題に上ることが増えていると聞きまして。一方で、僕自身も何を隠そう研究者時代の専門分野が長年多重比較補正の問題に悩まされてきた分野だったこともあって、かなり若い頃から多重比較補正については色々勉…

2018-05-30

時変係数動的線形モデル続き：時変・時不変・OLS線形回帰で比較してみる

R BUGS/Stan 時系列分析統計学

2週間前にふと思い立ってこんなことを試してみたわけですが。よくよく考えてみたら「データを生成した真のモデルが時変係数＆モデル推定も時変係数」でやってみた結果を並べただけで、これを（例えば）時不変係数モデルで推定してしまった場合や単なるOLS線…

2018-05-19

時変係数動的線形モデルをStanで推定してみる（追記あり）

R BUGS/Stan 時系列分析統計学

これはただの備忘録です。目新しい内容は特に何もありません。きちんとした内容を学びたいという方は、先日著者の萩原さんからご恵贈いただいたこちらの書籍で学ばれることをお薦めいたします。MCMCに留まらず、粒子フィルタの実装＆実践までカバーしていて…

2018-03-05

統計モデリング基礎論続き：データの生成過程に沿った一般化線形モデル vs. 単なる対数線形モデル vs. ガサッと回した線形回帰モデル

R 統計学

これは黒木玄(@genkuroki)先生の以下のツイートを受けた小ネタです。https://t.co/ejyfiAN47a#統計これはいい話を読ませてもらった。真の分布を含まない確率モデルでのフィッティングでどのように嫌なことが起こるかを知っていることは大事。(←まさにこれに…

2018-02-07

データサイエンティスト＆機械学習（人工知能）エンジニアのスキル要件と、過熱する人工知能ブームが生み出す狂騒曲と（2018年2月版：追記あり）

人材データ分析データサイエンティスト統計学機械学習機械学習エンジニア

(Image by Pixaby)この記事は去年はてブ1100以上ついてしまった与太記事の続編です。その時はタイトルを読んで字の如く「データサイエンティスト」と「機械学習エンジニア」の満たすべきスキル要件（の2017年版）について考察したものでした。で、まだ1年し…

2018-02-02

データ分析は「強者の武器」、駆け出しのうちはデータが貯まるまでの間に他にやるべきことがある

統計学機械学習データ分析ビジネス

(Image by Pixabay)こんな面白い記事が出回っているのを先日見かけたのですが。この6年弱のデータ分析業界での個人的な経験や業界内で見聞してきた知見の範囲で言うと、そもそも「データ分析は『強者の武器』であって小さな組織が使っても強い武器にはなら…

2018-01-25

"All models are wrong; but some are useful"（全てのモデルは間違っている、だが中には役立つものもある）という格言

統計学機械学習 R

George E. P. Box - Wikipedia統計学や機械学習の世界ではよく引用される"All models are wrong; but some are useful"（全てのモデルは間違っている、だが中には役立つものもある）という格言ですが、2013年に亡くなった統計学の大家George E. P. Boxの言葉…

2018-01-06

男の子のなりたい職業1位が「学者・研究者」になったのは本当に日本人ノーベル賞受賞者のおかげか？（追記あり）

R 統計学

第一生命が例年行っている「大人になったらなりたいもの」つまり子供のなりたい職業ランキングのキャンペーンで、昨年2017年度の男の子のランキングでは「学者・研究者」が15年ぶりに1位になったというのが大きなニュースになっていました。なのですが、ここ…

2017-12-27

最先端と泥臭い実務の現場とのはざまで、生きる

統計学機械学習データ分析雑感年末回顧

(Photo by Pixabay)これはただの年末ポエムです。何ひとつとして高度に技術的な話もなければ、ためになる話もありませんので予めご了承ください。時が流れるのは早いもので、僕がインダストリーにおけるデータ分析の仕事を手がけるようになってから5年目の今…

2017-12-26

「人工知能」と「データサイエンティスト」の2つのブームの関係性をGoogleトレンドのデータから眺めてみる

データサイエンティスト機械学習マーケティング時系列分析統計学

そう言えば、ちょっと前のデータ分析業界5年間振り返り記事で「人工知能ブームに引っ張られてデータサイエンティストブームも再燃しつつある」みたいなことを書いたわけですが、本当にそうなんだっけ？というところをこれまでに検証したことはなかったなぁと…

2017-12-18

（追記5件あり）統計モデリング基礎論再び：データの生成過程から見てGLMが最適な場合にあえて線形回帰を当てはめてみる

R 統計学

この記事は、遥か昔のこちらの記事の続きのようなものです。また何度も何度も恐縮ですが、今回の記事内容も付け焼き刃で書いているので色々間違っている可能性があります。お気付きの方は是非ご指摘くださいm(_ _)m各方面のエコノメトリシャンの方々と上記記…

2017-10-17

個人的に5年間のデータ分析業界見聞録をまとめてみた

データサイエンティストデータ分析人材ビジネス統計学機械学習回顧録機械学習エンジニア

(Photo credit: https://pixabay.com/en/data-dataset-word-data-deluge-1188512/) 人工知能ブームで世間が喧しい昨今ですが、それに伴って往年に見かけたような内容のビッグデータ論やデータサイエンティスト論や機械学習システム論が再び出回るようになっ…

2017-09-22

実務の現場に多い時系列データ分析の際に注意しておきたい点を列挙してみる

R 時系列分析統計学統計的因果推論

こういうメタ分析系の記事を書く時というのは大抵ネタ切れの時なんですが（汗）、最近になってこの辺のポイントでつまずいて困っているビジネスデータ分析の現場の話を聞くことがまた増えてきたので自分向けの備忘録も兼ねて記事としてまとめておきます。そ…

2017-07-30

トレンド・季節調整付き時系列データの回帰モデルを交差検証してみる

統計学時系列分析 R BUGS/Stan MCMC

これは実は既に元ネタのあるテーマです。 Cross-validation for time series | Rob J Hyndman 個人的にはトレンド・季節調整付き時系列データの回帰モデルをやる場合はほぼ例外なくベイジアンモデリングで回すんですが、一般にベイズ系のモデルは例えばWAIC…

2017-06-25

データサイエンティストもしくは機械学習エンジニアになるためのスキル要件とは（2017年夏版）

データサイエンティストデータ分析人材統計学機械学習機械学習エンジニア

この記事は2年前の以下の記事のアップデートです。前回はとりあえずデータサイエンティストというかデータ分析職一般としてのスキル要件として、「みどりぼん程度の統計学の知識」「はじパタ程度の機械学習の知識」「RかPythonでコードが組める」「SQLが書け…

2017-05-06

論文メモ：Empirical assessment of published effect sizes and power in the recent cognitive neuroscience and psychology literature (Szucs & Ioannidis, PLoS Biol, 2017)

統計学論文再現性問題

以下のメタアナリシス論文がしばらく前に話題になっていました。このようなメタアナリシスを紐解くことで検定力・効果量がどういうものかという理解も進むのではないかと思われますので、以前の機械学習系論文の輪読まとめと同様に全引用or全訳にならない程…

2017-03-22

データサイエンティストもしくは機械学習エンジニアを目指すならお薦めの初級者向け6冊＆中級者向け15冊（2017年春版）

書評書籍統計学機械学習データ分析データサイエンティスト統計的因果推論機械学習エンジニア

(Photo credit: https://pixabay.com/en/books-door-entrance-italy-colors-1655783/)この記事は一昨年のこの書籍紹介記事のアップデート版です。相変わらず毎月のように新刊書が出続けるデータ分析業界ですが、良い本が増え続けてきたせいでついに初級者向…

2017-02-14

単変量時系列分析の続き：ARIMA vs. ETS vs. Robust ETS

R 統計学時系列分析

この記事は4年前の以下の過去記事の続きです。大変遅まきながら*1、最近になって単変量時系列モデリングの手法としてARIMA / DLM以外にも幾つか方法があるのだということを知りました。一つは指数平滑法というかExponential Smoothing State Space Model (ET…

2017-02-08

Rで異常検知(2): 正規分布に従うデータからの異常検知（ホテリング理論・MT法）

R 機械学習統計学異常検知

さて、気紛れから始まったこのシリーズですが。今回は第2章を取り上げます。入門機械学習による異常検知―Rによる実践ガイド作者: 井手剛出版社/メーカー: コロナ社発売日: 2015/02/19メディア: 単行本この商品を含むブログ (4件) を見る多変量かつ非正規デ…

2017-01-11

Rで異常検知(1): これまで自分がやってきたことのおさらい

R 機械学習統計学異常検知

ぶっちゃけ今更感がなくもないんですが、実はこれまで自分ではほとんど異常検知・変化検知をゴリゴリやったことがなかったなぁと思ったのでした。きっかけは、時々色々な手法のテストに使っているこのUCI機械学習リポジトリのデータセット。 UCI Machine Lea…

2016-12-27

実務の現場においてモデリング（統計学的・機械学習的問わず）を行う上での注意点を挙げてみる

R 統計学機械学習統計的因果推論データ分析マーケティングビジネス

気が付いたら僕がデータ分析業界に身を置くようになってそろそろ5年近くになるんですね*1。この5年間の間に色々勉強したり業界内で見聞してきた経験をもとに、「実務の現場においてモデリングを行う上での注意点」についてだらだらと書いてみようと思います。…

2016-12-12

統計的因果推論(5): Platt's scalingで機械学習分類器による傾向スコアを調整してみる

R 統計学機械学習統計的因果推論

この記事は以下の記事の続きです。機械学習分類器で算出した傾向スコアを調整する話ですが、最後に課題として残ったのがprobability calibrationによる実践。探してみると前回の記事でもやったisotonic regressionとか色々出てくるんですが、もう一つ出てく…

2016-11-24

統計的因果推論(4): 機械学習分類器による傾向スコアを調整してみる

R 機械学習統計学統計的因果推論

この記事は以下の記事の続きです。ご覧の通り、機械学習分類器3種で傾向スコアを算出してみたらおかしな結果になったわけです。この点について、実は後日2点ほどコメントをいただきました。1つはブコメで、統計的因果推論(3): 傾向スコア算出を機械学習に置…

2016-10-27

モデル選択とAICとcross validationの関係を大雑把に実験してみる

R 統計学機械学習

Stanの開発者でもある統計学界の重鎮、Andrew Gelmanがこんなブログ記事をupしていました。ちなみに@berobero11さんがこの件についてこんなコメントをされてました。AkiらのPSIS-LOOがWAICより良いとする論文が出た。https://t.co/BWYNALp88K渡辺先生の反論…