六本木で働くデータサイエンティストのブログ

元祖「銀座で働くデータサイエンティスト」です / 道玄坂→銀座→東京→六本木

時変係数動的線形モデルをStanで推定してみる

これはただの備忘録です。目新しい内容は特に何もありません。きちんとした内容を学びたいという方は、先日著者の萩原さんからご恵贈いただいたこちらの書籍で学ばれることをお薦めいたします。MCMCに留まらず、粒子フィルタの実装&実践までカバーしていて…

「データを集める前にデータ分析責任者(データサイエンティスト)を雇うべき」理由とは

(Image by Pixabay)先日こんな記事が注目を集めていたのを見かけたのでした。 ここで大事なのは、データ集めは非常に大事なステップですが、最初の0.8歩に過ぎないということです。データ解析やAI技術導入の準備に時間をかけすぎていて、「やっとビッグデータ…

機械学習をやる上で必要な数学とは、どの分野のどのレベルの話なのか(数学が大の苦手な人間バージョン)

しばらく前にこんな記事が出ていたのをお見かけしました。 明らかにこれは僕が某所(笑)で適当に放言したことがきっかけで巻き起こった議論の一旦なのではないかと思うのですが、個人的にはこちらの@yohei_kikutaさんの仰る通りで大体良いのではないかと考…

データサイエンティスト含むデータ分析職の仕事がつらい4つの理由:洋の東西を問わずつらみは同じらしい

(Image by Pixabay)某所でバズっていたこの記事ですが。 もう読んだ瞬間に「うわー、これ完全に洋の東西を問わずデータ分析業界だとどこでも見られる、業界つらみあるあるだなー」という感が湧いてきて、こみ上げてくる涙が押さえきれませんでした(嘘)。と…

AIブームに完全に出遅れたエグゼクティブの方々のための本を書きました

空前の人工知能ブームの中、主にエンジニアを中心とする若い人たちは必死に人工知能(機械学習)の研究開発・技術開発のトレンドを追いかけ続けているように見えますが、一方でそういう若い人たちをマネージする立場のエグゼクティブの方々を見ていると明ら…

ニューラルGranger因果という論文が出たらしい(追記あり)

3年前に因果フェスというイベントでGranger因果について専門家でもないのに講演させられるという稀有な経験をしたわけですが。 その時のイベント報告記事で、会場でのディスカッションの内容を踏まえて僕はこんなことを書いたのでした。 非線形Granger因果性…

統計モデリング基礎論続き:データの生成過程に沿った一般化線形モデル vs. 単なる対数線形モデル vs. ガサッと回した線形回帰モデル

これは黒木玄(@genkuroki)先生の以下のツイートを受けた小ネタです。https://t.co/ejyfiAN47a#統計 これはいい話を読ませてもらった。真の分布を含まない確率モデルでのフィッティングでどのように嫌なことが起こるかを知っていることは大事。(←まさにこれに…

データサイエンティスト&機械学習(人工知能)エンジニアのスキル要件と、過熱する人工知能ブームが生み出す狂騒曲と(2018年2月版:追記あり)

(Image by Pixaby)この記事は去年はてブ1100以上ついてしまった与太記事の続編です。その時はタイトルを読んで字の如く「データサイエンティスト」と「機械学習エンジニア」の満たすべきスキル要件(の2017年版)について考察したものでした。 で、まだ1年し…

データ分析は「強者の武器」、駆け出しのうちはデータが貯まるまでの間に他にやるべきことがある

(Image by Pixabay)こんな面白い記事が出回っているのを先日見かけたのですが。 この6年弱のデータ分析業界での個人的な経験や業界内で見聞してきた知見の範囲で言うと、そもそも「データ分析は『強者の武器』であって小さな組織が使っても強い武器にはなら…

"All models are wrong; but some are useful"(全てのモデルは間違っている、だが中には役立つものもある)という格言

George E. P. Box - Wikipedia統計学や機械学習の世界ではよく引用される"All models are wrong; but some are useful"(全てのモデルは間違っている、だが中には役立つものもある)という格言ですが、2013年に亡くなった統計学の大家George E. P. Boxの言葉…

男の子のなりたい職業1位が「学者・研究者」になったのは本当に日本人ノーベル賞受賞者のおかげか?(追記あり)

第一生命が例年行っている「大人になったらなりたいもの」つまり子供のなりたい職業ランキングのキャンペーンで、昨年2017年度の男の子のランキングでは「学者・研究者」が15年ぶりに1位になったというのが大きなニュースになっていました。なのですが、ここ…

NIPS2017チュートリアルによるDeep Learningの現状まとめ

Deep Learning_ Practice and Trends - final.pdf - Google ドライブ明けましておめでとうございます、本年もよろしくお願いいたします。新年一発目の記事はただの備忘録です。

最先端と泥臭い実務の現場とのはざまで、生きる

(Photo by Pixabay)これはただの年末ポエムです。何ひとつとして高度に技術的な話もなければ、ためになる話もありませんので予めご了承ください。時が流れるのは早いもので、僕がインダストリーにおけるデータ分析の仕事を手がけるようになってから5年目の今…

「人工知能」と「データサイエンティスト」の2つのブームの関係性をGoogleトレンドのデータから眺めてみる

そう言えば、ちょっと前のデータ分析業界5年間振り返り記事で「人工知能ブームに引っ張られてデータサイエンティストブームも再燃しつつある」みたいなことを書いたわけですが、本当にそうなんだっけ?というところをこれまでに検証したことはなかったなぁと…

(追記5件あり)統計モデリング基礎論再び:データの生成過程から見てGLMが最適な場合にあえて線形回帰を当てはめてみる

この記事は、遥か昔のこちらの記事の続きのようなものです。また何度も何度も恐縮ですが、今回の記事内容も付け焼き刃で書いているので色々間違っている可能性があります。お気付きの方は是非ご指摘くださいm(_ _)m各方面のエコノメトリシャンの方々と上記記…

まとめて書評:ネットワーク分析第2版・Rによる自動データ収集・仕事ではじめる機械学習

今年も何冊か書籍をご恵贈いただいたんですが、忙しかったり他に書きたい記事があったりでそのタイミングで書評を書きそびれたものを、大変恐縮ですがこのタイミングでまとめて書かせていただこうかと思います。

生TensorFlow七転八倒記(5):ようやくCNNまでたどり着いた

前回の記事でようやくDeepっぽいところまで来たので、そのままさっさとDeepらしさの象徴でもあるCNN (Convolutional Neural Network)にいってしまおうと思います。ちなみに今回も大して参照していませんが、参考文献として深層学習青本を掲げておきます。深…

生TensorFlow七転八倒記(4):簡易版MNISTをMLPで分類してみる

出張していたり足底筋膜炎にかかったりしているうちに、すっかり生TensorFlowの勉強が滞ってしまっていました。とりあえず先に進みます。いつも通りですが、特に意味はないものの教科書としてこちらを挙げておきます。深層学習 (機械学習プロフェッショナル…

シリコンバレーそしてマウンテンビューに行ってきました

単に仕事で出張してきただけでぶっちゃけ何か特別なことをしたわけではないので、とりあえず適当に写真ギャラリーを並べておきます。

個人的に5年間のデータ分析業界見聞録をまとめてみた

(Photo credit: https://pixabay.com/en/data-dataset-word-data-deluge-1188512/) 人工知能ブームで世間が喧しい昨今ですが、それに伴って往年に見かけたような内容のビッグデータ論やデータサイエンティスト論や機械学習システム論が再び出回るようになっ…

生TensorFlow七転八倒記(3):まずは神妙に隠れ層1個のNNで誤差逆伝播をやってみる

何となくTFのお作法が分かってきたのでどんどん先に行きます。そう言えばただの備忘録なので何一つ出典とか参考文献とか書いてませんが、このシリーズでやっていることの理論的基礎は深層学習青本がほぼ全てカバーしています。深層学習 (機械学習プロフェッ…

生TensorFlow七転八倒記(2):線形回帰を無意味に勾配法でやる

前回はロジスティック回帰をやったんですが、そう言えば普通の線形回帰やってなかったのでやっておきます。線形回帰は漫然とOLSでやるなら普通に逆行列計算しておしまいなんですが、それだと面白くないのであえて勾配法でやるという間抜けなことをやろうと思…

生TensorFlow七転八倒記(1):基本的なロジスティック回帰まで

よくよく考えてみたら、TensorFlowをバックエンドとしてKerasを回したりさらにR上で動かしたりしたことはあるものの、肝心のTensorFlowを生で書いたことって数えるくらいしかなかったのでした。これではいかんと思うので、今更ながらですがTensorFlowを生で…

実務の現場に多い時系列データ分析の際に注意しておきたい点を列挙してみる

こういうメタ分析系の記事を書く時というのは大抵ネタ切れの時なんですが(汗)、最近になってこの辺のポイントでつまずいて困っているビジネスデータ分析の現場の話を聞くことがまた増えてきたので自分向けの備忘録も兼ねて記事としてまとめておきます。 そ…

データ分析職に採用されるために必要な「実務経験」をいかにして積むべきか

(Photo credit: https://pixabay.com/en/team-businessmen-competence-2651909/) 元々書いていたネタが間に合わない*1っぽいので、ふと色々な記事を眺めていて思い出したネタで与太記事を書きます(笑)。と言ってもこれは実は色々なところで色々な人から相…

NN Playgroundに出てくる「渦巻きサンプルの二値分類」を学習器を変えながら試してみる(追記あり)

A Neural Network PlaygroundというDeep Learningのパラメータを変えながらその挙動を見て学べる(楽しめる)サイトがTensorFlowプロジェクトからの提供であるんですが、そのサンプルデータセットの4番目に「渦巻きサンプル」(別名「スイスロール」)があり…

不均衡データをdownsampling + baggingで補正すると汎化性能も確保できて良さそう

弊社のランチゲストにお招きしたことのある@tmaeharaさんが、こんなことをツイートしておられました。imbalanced data に対する対処を勉強していたのだけど,[Wallace et al. ICDM'11] https://t.co/ltQ942lKPm … で「undersampling + bagging をせよ」とい…

トレンド・季節調整付き時系列データの回帰モデルを交差検証してみる

これは実は既に元ネタのあるテーマです。 Cross-validation for time series | Rob J Hyndman 個人的にはトレンド・季節調整付き時系列データの回帰モデルをやる場合はほぼ例外なくベイジアンモデリングで回すんですが、一般にベイズ系のモデルは例えばWAIC…

ハワイに行ってきました:アウラニ&ワイキキ滞在記

7/2-8の日程で、6月の登壇仕事*1のお疲れ様会も兼ねてハワイ旅行に行ってきました。5泊7日の旅程のうち、3泊はオアフ島西海岸カポレイ地区のコオリナ・リゾート内にあるアウラニ・ディズニー・リゾート&スパに滞在し、残り2泊はワイキキに滞在するという日…

データサイエンティストもしくは機械学習エンジニアになるためのスキル要件とは(2017年夏版)

この記事は2年前の以下の記事のアップデートです。前回はとりあえずデータサイエンティストというかデータ分析職一般としてのスキル要件として、「みどりぼん程度の統計学の知識」「はじパタ程度の機械学習の知識」「RかPythonでコードが組める」「SQLが書け…