六本木で働くデータサイエンティストのブログ

元祖「銀座で働くデータサイエンティスト」です / 道玄坂→銀座→東京→六本木

偏Granger因果で「第三者効果」を排除しつつ因果性検定してみる

遥か古の時代、まだ自分が研究者だった頃にデータ分析に使っていた手法のひとつに偏Granger因果 (partial Granger causality) というものがありました。これはGuo et al. (2008)で提唱されたもので、当時は著者グループ提供のオリジナルMatlabツールボックス…

Ads carryover & shape effects付きのMedia Mix Modeling

これは単なる備忘録です。「論文とサンプルコード読みながら試しました」以外に何も内容のない記事ですのでご注意ください。特に個々の式の変数の説明については個人的な備忘録ゆえ大半を端折りますので、仮に興味を持たれた方は適宜論文の本文をご参照下さ…

データサイエンティストや機械学習エンジニアに求められる「素質」とは何か

(Image by Pixabay)某所で時々意見交換させていただいている@maskedanlさんが、面白い記事をnoteにupなさっていたので拝読しました。細かい内容は上記のリンク先から皆さんに直接お読みいただくとして、記事中で某所で僕が放言(笑)したことへのご質問をい…

日本の人工知能バブル、いよいよ弾けるか?

このブログでは定番のマーケットトレンド調査ですが、今回は若干雲行きの怪しさを感じさせる結果が得られたので取り急ぎシェアしておきます。ちなみに言うまでもなくこの調査は僕自身の個人的なものであり、この記事で述べられている見解はいかなり組織にも…

機械学習プロジェクトが失敗する9つの理由

(Image by Pixabay)勉強が進まないので、今回は与太記事でも書いてお茶を濁すことにします(笑)。ネタはこちらです。 Why your machine learning project will fail – THE DATA SCIENCE NINJA 9 Reasons why your machine learning project will fail 読ん…

マウイ島に行ってきました

今年も早めの夏休みということで、7/11-17の日程でマウイ島に行ってきたのでした。しかも今回の旅行は一切ワイキキなど他の島のリゾートには寄らず、全日程マウイ島のみ*1。何故マウイ島?と色々な人に聞かれたんですが、8年前にハワイ島西岸のマウナ・ラニ…

生TensorFlow七転八倒記(7):TensorFlow Hubの通常の英語コーパスではなくWikipedia英語版コーパスのtext embeddingを使ってみた

これは前回の記事の続きです。 小ネタにしてただの備忘録ですので、予めご了承ください。 前回の記事で元々参考にさせていただいた以下のブログ記事なんですが、これは基本的に英語NNLMの128次元embeddingで試したものなんですね。そのままやるとACC 0.965ぐ…

生TensorFlow七転八倒記(6):TensorFlow Hubのtext embeddingsを使って日本語テキストを分類してみた

だいぶ久しぶりの生TensorFlow七転八倒記です。今回もただの備忘録につき、何一つ新しいことも参考になることも書いておりませんし、クソコードの羅列でしかありませんので、何か調べ物でたどり着かれた方はこの記事のリンク先などなどをご覧ください。 今回…

多重比較補正のはなし

最近になって、データ分析界隈で多重比較補正が話題に上ることが増えていると聞きまして。一方で、僕自身も何を隠そう研究者時代の専門分野が長年多重比較補正の問題に悩まされてきた分野だったこともあって、かなり若い頃から多重比較補正については色々勉…

時変係数動的線形モデル続き:時変・時不変・OLS線形回帰で比較してみる

2週間前にふと思い立ってこんなことを試してみたわけですが。 よくよく考えてみたら「データを生成した真のモデルが時変係数&モデル推定も時変係数」でやってみた結果を並べただけで、これを(例えば)時不変係数モデルで推定してしまった場合や単なるOLS線…

データ人材は日本に何人必要なのか?(2018年Q2版)

(Image by Pixabay)最近になって以下のようなメディア記事やそれに類する報道が殊に増えているようです。 以前研究者だった身としてはこういう「これから日本には〇〇万人の△△人材が必要」みたいな物言いを聞くとポスドク1万人計画の悪夢を思い出してしまう…

時変係数動的線形モデルをStanで推定してみる(追記あり)

これはただの備忘録です。目新しい内容は特に何もありません。きちんとした内容を学びたいという方は、先日著者の萩原さんからご恵贈いただいたこちらの書籍で学ばれることをお薦めいたします。MCMCに留まらず、粒子フィルタの実装&実践までカバーしていて…

「データを集める前にデータ分析責任者(データサイエンティスト)を雇うべき」理由とは

(Image by Pixabay)先日こんな記事が注目を集めていたのを見かけたのでした。 ここで大事なのは、データ集めは非常に大事なステップですが、最初の0.8歩に過ぎないということです。データ解析やAI技術導入の準備に時間をかけすぎていて、「やっとビッグデータ…

機械学習をやる上で必要な数学とは、どの分野のどのレベルの話なのか(数学が大の苦手な人間バージョン)

しばらく前にこんな記事が出ていたのをお見かけしました。 明らかにこれは僕が某所(笑)で適当に放言したことがきっかけで巻き起こった議論の一旦なのではないかと思うのですが、個人的にはこちらの@yohei_kikutaさんの仰る通りで大体良いのではないかと考…

データサイエンティスト含むデータ分析職の仕事がつらい4つの理由:洋の東西を問わずつらみは同じらしい

(Image by Pixabay)某所でバズっていたこの記事ですが。 もう読んだ瞬間に「うわー、これ完全に洋の東西を問わずデータ分析業界だとどこでも見られる、業界つらみあるあるだなー」という感が湧いてきて、こみ上げてくる涙が押さえきれませんでした(嘘)。と…

AIブームに完全に出遅れたエグゼクティブの方々のための本を書きました

空前の人工知能ブームの中、主にエンジニアを中心とする若い人たちは必死に人工知能(機械学習)の研究開発・技術開発のトレンドを追いかけ続けているように見えますが、一方でそういう若い人たちをマネージする立場のエグゼクティブの方々を見ていると明ら…

ニューラルGranger因果という論文が出たらしい(追記あり)

3年前に因果フェスというイベントでGranger因果について専門家でもないのに講演させられるという稀有な経験をしたわけですが。 その時のイベント報告記事で、会場でのディスカッションの内容を踏まえて僕はこんなことを書いたのでした。 非線形Granger因果性…

統計モデリング基礎論続き:データの生成過程に沿った一般化線形モデル vs. 単なる対数線形モデル vs. ガサッと回した線形回帰モデル

これは黒木玄(@genkuroki)先生の以下のツイートを受けた小ネタです。https://t.co/ejyfiAN47a#統計 これはいい話を読ませてもらった。真の分布を含まない確率モデルでのフィッティングでどのように嫌なことが起こるかを知っていることは大事。(←まさにこれに…

データサイエンティスト&機械学習(人工知能)エンジニアのスキル要件と、過熱する人工知能ブームが生み出す狂騒曲と(2018年2月版:追記あり)

(Image by Pixaby)この記事は去年はてブ1100以上ついてしまった与太記事の続編です。その時はタイトルを読んで字の如く「データサイエンティスト」と「機械学習エンジニア」の満たすべきスキル要件(の2017年版)について考察したものでした。 で、まだ1年し…

データ分析は「強者の武器」、駆け出しのうちはデータが貯まるまでの間に他にやるべきことがある

(Image by Pixabay)こんな面白い記事が出回っているのを先日見かけたのですが。 この6年弱のデータ分析業界での個人的な経験や業界内で見聞してきた知見の範囲で言うと、そもそも「データ分析は『強者の武器』であって小さな組織が使っても強い武器にはなら…

"All models are wrong; but some are useful"(全てのモデルは間違っている、だが中には役立つものもある)という格言

George E. P. Box - Wikipedia統計学や機械学習の世界ではよく引用される"All models are wrong; but some are useful"(全てのモデルは間違っている、だが中には役立つものもある)という格言ですが、2013年に亡くなった統計学の大家George E. P. Boxの言葉…

男の子のなりたい職業1位が「学者・研究者」になったのは本当に日本人ノーベル賞受賞者のおかげか?(追記あり)

第一生命が例年行っている「大人になったらなりたいもの」つまり子供のなりたい職業ランキングのキャンペーンで、昨年2017年度の男の子のランキングでは「学者・研究者」が15年ぶりに1位になったというのが大きなニュースになっていました。なのですが、ここ…

NIPS2017チュートリアルによるDeep Learningの現状まとめ

Deep Learning_ Practice and Trends - final.pdf - Google ドライブ明けましておめでとうございます、本年もよろしくお願いいたします。新年一発目の記事はただの備忘録です。

最先端と泥臭い実務の現場とのはざまで、生きる

(Photo by Pixabay)これはただの年末ポエムです。何ひとつとして高度に技術的な話もなければ、ためになる話もありませんので予めご了承ください。時が流れるのは早いもので、僕がインダストリーにおけるデータ分析の仕事を手がけるようになってから5年目の今…

「人工知能」と「データサイエンティスト」の2つのブームの関係性をGoogleトレンドのデータから眺めてみる

そう言えば、ちょっと前のデータ分析業界5年間振り返り記事で「人工知能ブームに引っ張られてデータサイエンティストブームも再燃しつつある」みたいなことを書いたわけですが、本当にそうなんだっけ?というところをこれまでに検証したことはなかったなぁと…

(追記5件あり)統計モデリング基礎論再び:データの生成過程から見てGLMが最適な場合にあえて線形回帰を当てはめてみる

この記事は、遥か昔のこちらの記事の続きのようなものです。また何度も何度も恐縮ですが、今回の記事内容も付け焼き刃で書いているので色々間違っている可能性があります。お気付きの方は是非ご指摘くださいm(_ _)m各方面のエコノメトリシャンの方々と上記記…

まとめて書評:ネットワーク分析第2版・Rによる自動データ収集・仕事ではじめる機械学習

今年も何冊か書籍をご恵贈いただいたんですが、忙しかったり他に書きたい記事があったりでそのタイミングで書評を書きそびれたものを、大変恐縮ですがこのタイミングでまとめて書かせていただこうかと思います。

生TensorFlow七転八倒記(5):ようやくCNNまでたどり着いた

前回の記事でようやくDeepっぽいところまで来たので、そのままさっさとDeepらしさの象徴でもあるCNN (Convolutional Neural Network)にいってしまおうと思います。ちなみに今回も大して参照していませんが、参考文献として深層学習青本を掲げておきます。深…

生TensorFlow七転八倒記(4):簡易版MNISTをMLPで分類してみる

出張していたり足底筋膜炎にかかったりしているうちに、すっかり生TensorFlowの勉強が滞ってしまっていました。とりあえず先に進みます。いつも通りですが、特に意味はないものの教科書としてこちらを挙げておきます。深層学習 (機械学習プロフェッショナル…

シリコンバレーそしてマウンテンビューに行ってきました

単に仕事で出張してきただけでぶっちゃけ何か特別なことをしたわけではないので、とりあえず適当に写真ギャラリーを並べておきます。