機械学習のビジネス上の価値を「効果測定」して「数値評価」する方法

統計学機械学習データ分析ビジネス R

(Image by Pixabay)気が付けば、日本における第一次データサイエンティストブームから6年、人工知能ブーム開始から3年が経ったようです。意外と言っては何ですが、これまでのところ人工知能ブームも、そしてそれにブーストされた形で起こった第二次データサ…

2019-03-22

「データサイエンティスト」「人工知能」「AI（トピックス）」のGoogleトレンドから向こう1年間のブーム動向を占ってみる

R 統計学時系列分析データサイエンティスト機械学習エンジニア人材ビジネス

(Google Trends)最近時系列分析あまりやってないので、{bsts}の使い方を思い出しがてらついでに与太記事を書いてみます。お題は「データサイエンティスト」「人工知能」「AI（トピックス）」のGoogleトレンドから見る今後のブーム動向です。今回は互いに相互…

2019-03-15

ガウス過程回帰・分類をRで試してみた

R 機械学習サンプルデータで試す機械学習シリーズ

先日こちらの書籍をご恵贈いただきました。ガウス過程と機械学習 (機械学習プロフェッショナルシリーズ)作者: 持橋大地,大羽成征出版社/メーカー: 講談社発売日: 2019/03/09メディア: 単行本（ソフトカバー）この商品を含むブログを見るガウス過程と機械学習…

2019-01-18

単純なK-meansと{TSclust}のDTWによる時系列クラスタリングとではどう違うのか実験してみた

R 時系列分析機械学習

これは単なる備忘録です。詳細を知りたいという方は、この記事の元ネタになった以下のid:sinhrksさんの記事をお読みください。ここでの問題意識は非常にシンプルで「そもそも時系列クラスタリングをかなり膨大な行数のデータに対して実行する際にどれほど厳…

2018-09-01

Ads carryover & shape effects付きのMedia Mix Modeling

統計学時系列分析 R BUGS/Stan マーケティング

これは単なる備忘録です。「論文とサンプルコード読みながら試しました」以外に何も内容のない記事ですのでご注意ください。特に個々の式の変数の説明については個人的な備忘録ゆえ大半を端折りますので、仮に興味を持たれた方は適宜論文の本文をご参照下さ…

2018-08-13

日本の人工知能バブル、いよいよ弾けるか？

機械学習ビジネス R 雑感

このブログでは定番のマーケットトレンド調査ですが、今回は若干雲行きの怪しさを感じさせる結果が得られたので取り急ぎシェアしておきます。ちなみに言うまでもなくこの調査は僕自身の個人的なものであり、この記事で述べられている見解はいかなり組織にも…

2018-06-12

多重比較補正のはなし

R 統計学

最近になって、データ分析界隈で多重比較補正が話題に上ることが増えていると聞きまして。一方で、僕自身も何を隠そう研究者時代の専門分野が長年多重比較補正の問題に悩まされてきた分野だったこともあって、かなり若い頃から多重比較補正については色々勉…

2018-05-30

時変係数動的線形モデル続き：時変・時不変・OLS線形回帰で比較してみる

R BUGS/Stan 時系列分析統計学

2週間前にふと思い立ってこんなことを試してみたわけですが。よくよく考えてみたら「データを生成した真のモデルが時変係数＆モデル推定も時変係数」でやってみた結果を並べただけで、これを（例えば）時不変係数モデルで推定してしまった場合や単なるOLS線…

2018-05-19

時変係数動的線形モデルをStanで推定してみる（追記あり）

R BUGS/Stan 時系列分析統計学

これはただの備忘録です。目新しい内容は特に何もありません。きちんとした内容を学びたいという方は、先日著者の萩原さんからご恵贈いただいたこちらの書籍で学ばれることをお薦めいたします。MCMCに留まらず、粒子フィルタの実装＆実践までカバーしていて…

2018-03-05

統計モデリング基礎論続き：データの生成過程に沿った一般化線形モデル vs. 単なる対数線形モデル vs. ガサッと回した線形回帰モデル

R 統計学

これは黒木玄(@genkuroki)先生の以下のツイートを受けた小ネタです。https://t.co/ejyfiAN47a#統計これはいい話を読ませてもらった。真の分布を含まない確率モデルでのフィッティングでどのように嫌なことが起こるかを知っていることは大事。(←まさにこれに…

2018-01-25

"All models are wrong; but some are useful"（全てのモデルは間違っている、だが中には役立つものもある）という格言

統計学機械学習 R

George E. P. Box - Wikipedia統計学や機械学習の世界ではよく引用される"All models are wrong; but some are useful"（全てのモデルは間違っている、だが中には役立つものもある）という格言ですが、2013年に亡くなった統計学の大家George E. P. Boxの言葉…

2018-01-06

男の子のなりたい職業1位が「学者・研究者」になったのは本当に日本人ノーベル賞受賞者のおかげか？（追記あり）

R 統計学

第一生命が例年行っている「大人になったらなりたいもの」つまり子供のなりたい職業ランキングのキャンペーンで、昨年2017年度の男の子のランキングでは「学者・研究者」が15年ぶりに1位になったというのが大きなニュースになっていました。なのですが、ここ…

2017-12-18

（追記5件あり）統計モデリング基礎論再び：データの生成過程から見てGLMが最適な場合にあえて線形回帰を当てはめてみる

R 統計学

この記事は、遥か昔のこちらの記事の続きのようなものです。また何度も何度も恐縮ですが、今回の記事内容も付け焼き刃で書いているので色々間違っている可能性があります。お気付きの方は是非ご指摘くださいm(_ _)m各方面のエコノメトリシャンの方々と上記記…

2017-12-08

まとめて書評：ネットワーク分析第2版・Rによる自動データ収集・仕事ではじめる機械学習

書評書籍 R graph/network 機械学習 Python

今年も何冊か書籍をご恵贈いただいたんですが、忙しかったり他に書きたい記事があったりでそのタイミングで書評を書きそびれたものを、大変恐縮ですがこのタイミングでまとめて書かせていただこうかと思います。

2017-09-22

実務の現場に多い時系列データ分析の際に注意しておきたい点を列挙してみる

R 時系列分析統計学統計的因果推論

こういうメタ分析系の記事を書く時というのは大抵ネタ切れの時なんですが（汗）、最近になってこの辺のポイントでつまずいて困っているビジネスデータ分析の現場の話を聞くことがまた増えてきたので自分向けの備忘録も兼ねて記事としてまとめておきます。そ…

2017-08-26

NN Playgroundに出てくる「渦巻きサンプルの二値分類」を学習器を変えながら試してみる（追記あり）

R 機械学習 DeepLearning実践シリーズ

A Neural Network PlaygroundというDeep Learningのパラメータを変えながらその挙動を見て学べる（楽しめる）サイトがTensorFlowプロジェクトからの提供であるんですが、そのサンプルデータセットの4番目に「渦巻きサンプル」（別名「スイスロール」）があり…

2017-08-11

不均衡データをundersampling + baggingで補正すると汎化性能も確保できて良さそう

R 機械学習

弊社のランチゲストにお招きしたことのある[twitter:@tmaehara]さんが、こんなことをツイートしておられました。imbalanced data に対する対処を勉強していたのだけど，[Wallace et al. ICDM'11] https://t.co/ltQ942lKPm … で「undersampling + bagging を…

2017-07-30

トレンド・季節調整付き時系列データの回帰モデルを交差検証してみる

統計学時系列分析 R BUGS/Stan MCMC

これは実は既に元ネタのあるテーマです。 Cross-validation for time series | Rob J Hyndman 個人的にはトレンド・季節調整付き時系列データの回帰モデルをやる場合はほぼ例外なくベイジアンモデリングで回すんですが、一般にベイズ系のモデルは例えばWAIC…

2017-06-02

RにTensorFlow + Kerasを実装した{keras}パッケージがやって来たので試してみた（追記2件あり）

R 機械学習 DeepLearning実践シリーズ Deep Learning

Python側でのTensorFlowの隆盛を他所に、R側では{tensorflow}も使いにくいし*1これはPythonistaに転生しなければならんのかなぁ。。。ということを思っていたら、出ました。あのKerasのRパッケージです。インストール手順は普通にhttps://rstudio.github.io/…