渋谷駅前で働くデータサイエンティストのブログ

元祖「六本木で働くデータサイエンティスト」です / 道玄坂→銀座→東京→六本木→渋谷駅前

データサイエンティスト含むデータ分析職の仕事がつらい4つの理由:洋の東西を問わずつらみは同じらしい

f:id:TJO:20180402144911p:plain
(Image by Pixabay)

某所でバズっていたこの記事ですが。

もう読んだ瞬間に「うわー、これ完全に洋の東西を問わずデータ分析業界だとどこでも見られる、業界つらみあるあるだなー」という感が湧いてきて、こみ上げてくる涙が押さえきれませんでした(嘘)。という軽口はさておき、実際にほぼ同じ内容の愚痴をUSでデータサイエンティストとして働いていた知人からも直に聞いたことがあるので、個人的にもかなり説得力のある話だなと思いました。


この記事の若干嫌なところは「データサイエンティストたちはいつでも転職活動をしている、何故ならどこの職場に行っても以下のつらみがあるからだ」という書き方をしている点。いや、データサイエンティスト含むデータ分析職が全員常に転職活動しているかというとさすがに違うだろうと思いますが、「それくらいつらいんですマジ勘弁して下さい」と言われたら頷かざるを得ないのもまた事実かなと。

続きを読む

AIブームに完全に出遅れたエグゼクティブの方々のための本を書きました

f:id:TJO:20180326230330p:plain

空前の人工知能ブームの中、主にエンジニアを中心とする若い人たちは必死に人工知能機械学習)の研究開発・技術開発のトレンドを追いかけ続けているように見えますが、一方でそういう若い人たちをマネージする立場のエグゼクティブの方々を見ていると明らかに置いてきぼりを食らっている感がどこの現場を見ても否めません。


ということで、以下の2年前にバズった記事をベースにエグゼクティブの方々のためのAI入門本を書きました。

目次

  • 第1章 なぜ世の中では今AIが騒がれているのか
  • 第2章 なぜAIには理解不能な数学が使われているのか
  • 第3章 なぜAIエンジニアの説明はあれほど小難しいのか
  • 第4章 なぜAIの開発は大金を積んでもうまくいかないのか
  • 第5章 なぜ鉄腕アトムドラえもんが未だに作れないのか
  • 第6章 なぜAIと国語教育の問題とがつなげて議論されているのか
  • 第7章 なぜ我々は「ブラックボックスとしてのAI」を恐れてしまうのか

分かりやすさを重視して「なぜ〜のか」という章タイトルで統一してあります。なお初版本特典として「主要AIスピーカーにルールベースで実装されている問答リスト」が付録で付いておりますので、スマートスピーカーを買われた暁には試しに「お前はもう死んでいる」などと話しかけてみてください。


(※エイプリルフールネタです)

ニューラルGranger因果という論文が出たらしい(追記あり)

3年前に因果フェスというイベントでGranger因果について専門家でもないのに講演させられるという稀有な経験をしたわけですが。

その時のイベント報告記事で、会場でのディスカッションの内容を踏まえて僕はこんなことを書いたのでした。

非線形Granger因果性検定の手順(ここでは2変量2次ラグモデルを想定する)


 y_{1t} = L(\mathbf{w_1}, \mathbf{w_2}, y_{1,t-1}, y_{2,t-1}, y_{1,t-2}, y_{2,t-2}, \epsilon_{1t})


なる2変量2次ラグモデルを機械学習的なものを含めた何かしらの方法で推定し、その誤差関数をE_1とする。次に、 y_{2t}がない(非線形Granger因果を与え得る時系列を伴わない)単変量2次ラグモデル


 y_{1t} = L(\mathbf{w_1}, y_{1,t-1}, y_{1,t-2}, \epsilon_{1t})


を同様に推定し、その誤差関数をE_2とする。この2つの誤差関数とy_{2t}を表現する学習パラメータ\mathbf{w_2}を統合する何かしらの情報量規準


GIC \equiv f(E_1, E_2, \mathbf{w_2})


を定義し、これの有意性をブートストラップ法などを用いて検定する。


と書き換えて、モデル推定のための何かしら好都合な非線形データに対応可能な機械学習手法(脚注:ここでRNNしか思い付かない自分は発想が貧困っぽい)を適用できれば、意外といけるんじゃないかという気がしてきたのでした。

ということを書いていたら、ズバリそれっぽいものが先日arXivに出てました。その名もズバリ"[1802.05842] Neural Granger Causality for Nonlinear Time Series"という代物。本当にLSTM-RNNでそれやってるじゃないですか、こんなんだったら一足先に研究して論文書いときゃ良かったorz

続きを読む