六本木で働くデータサイエンティストのブログ

元祖「銀座で働くデータサイエンティスト」です / 道玄坂→銀座→東京→六本木

一般的な時系列のモデリング&予測に、機械学習系の手法よりも古典的な計量時系列分析の方が向いている理由を考えてみた(追記あり)

この記事は、以下の@icoxfog417さんによる問題提起に合わせたちょっとした実験をまとめたものです。時系列予測の問題において、機械学習のモデルより既存の統計モデル(ARMAモデルなど)の方が予測精度において優良な結果が出るという研究。データへの適合=予…

{CausalImpact}を使う上での注意点を簡単にまとめてみた

実はこのネタは元々別のところでやり取りのあった話題だったりします。色々な都合があってここ最近{CausalImpact}に触れる機会が自分に限らず周囲でも増えているのですが、若い人たちから「そもそも{CausalImpact}って何をしているんですか?使う際は何に気…

移り変わる「データサイエンティストの『常識』」について考える

(Image by Pixabay)先日、こんな話題を見かけました。【夏なので怖い話】こないだ、いかにもエリートな男性と知り合ったんですよ彼は年収1000万で飛ぶ鳥を落とす勢いのデータサイエンティストだっていうじゃないですかそれでふとAICの話題を持ちかけたんです…

『RとStanではじめるベイズ統計モデリングによるデータ分析入門』は「みどりぼん」に取って替わる次世代の統計モデリング+ベイジアン入門書

ここ2ヶ月ぐらいに渡って多くの方々からご著書をご恵贈たまわっているのですが、そのうちの一冊がこちら。かつて計量時系列分析を学んでいた頃に僕も大変お世話になった、Logics of Blueブログの馬場さんの手による『RとStanではじめるベイズ統計モデリング…

Undersampling + baggingで不均衡データに対処した際の予測確率のバイアスを補正して、その結果を可視化してみる

この記事は以下の検証記事の続きです。 先日、Twitterでこんなお話を見かけました。分類問題で不均衡データを扱う際、ダウンサンプリングして学習すると予測確率にバイアスが生じるので、calibrationしようという話を書きましたhttps://t.co/qujK29crNY— 岸…

『仕事の説明書』はこれから仕事で独り立ちしたい若い人たちにこそ読んで欲しい「仕事というゲームの攻略本」

以前SQL黒魔術本をご恵贈いただいた旧友の田宮さんから、ちょっと異色な本をご恵贈いただきました。その名も『仕事の説明書』。副題に「あたなは今どんなゲームをしているのか?」とあるように、世の中の仕事をある種の「ゲーム」とみなして、これをどう攻略…

「データ分析をやるならRとPythonのどちらを使うべき?」への個人的な回答

(Background image by Pixabay)最近また「データ分析をやるならRとPythonのどちらでやるべきか」という話題が出ていたようです。 言語仕様やその他の使い勝手という点では、大体この記事に書いてあることを参考にすれば良いと思います。その上で、人には当然…

データサイエンティストがやらかしがちな過ちトップ10(海外記事紹介)

(Image by Pixabay) "Top 10 Statistics Mistakes Made by Data Scientists"という刺激的なタイトルの記事が出ているのをKDnuggets経由で知りました。「データサイエンティストがやらかしがちな統計学的な誤りトップ10」ということで、いかにもなあるある事…

AutoML Natural Languageで青空文庫に収録された作家8名の文章を分類してみる

先日の記事ではAutoML Tablesを試してみましたが、調子に乗ってこれまで触ってこなかったAutoML Natural Languageも試してみようと思ったのでした。 以前の記事にも書いたように、僕は元々自然言語処理が苦手でTensorFlow Hubのpre-trained modelによるfine-…

AutoML Tablesと他の機械学習モデルとのパフォーマンス比較をしてみた(追記あり)

以前よりGoogleではCloud AutoMLという"Learning to learn"フレームワークによる「人手完全不要の全自動機械学習モデリング&API作成」サービスを展開してきていましたが、それらは画像認識や商品推薦はたまた自然言語処理がメインで、最もオーソドックスな…

我が家の我流インドカレーレシピ

時々色々なところで写真を披露していますが、僕の15年以上に渡る趣味の一つにインド料理があります。元はと言えば偶然通うようになったインド料理屋が実は日本国内のインド料理業界との関わりの深いお店で、そこで教えていただいた知識をもとに様々な都内の…

データ分析人材の長期的キャリアという迷宮

(Image by Pixabay)先日出たこんな記事が注目を集めていたようです。 私はデータサイエンス的エンジニアになりたいのか?データサイエンス的コンサルタントになりたいのか?なんもわからん タイトルにもなっていて、記事中で提起されている「データ分析者の…

TensorFlow Probabilityのtfp.stsモジュールを使って構造時系列モデリングを回してみる

TensorFlow Probability (TFP)がリリースされてからしばらく経ちますが、最近になってこんなモジュールが公開されたと知りました。 Framework for Bayesian structural time series modelsと題されている通りで、ズバリTFPでベイズ構造時系列モデルを推定す…

機械学習のビジネス上の価値を「効果測定」して「数値評価」する方法

(Image by Pixabay)気が付けば、日本における第一次データサイエンティストブームから6年、人工知能ブーム開始から3年が経ったようです。意外と言っては何ですが、これまでのところ人工知能ブームも、そしてそれにブーストされた形で起こった第二次データサ…

社内政治が上手くなりたいAIエンジニアのための本を書きました

個人的には2年ぐらいで萎むだろうと思っていた日本の人工知能(AI)ブームも4年目に入りそうで、「AIエンジニア」の採用数もうなぎ上りならその待遇もどんどん高騰する一方です。その反面、ブームに乗って企業に採用されたは良いものの、まだまだ保守的な文化…

Googleに入社した時のこと

東京オフィスのsoftware engineer (SWE)部門のsite leadのRyoichiさんがTwitter上でこんなことを呼びかけたところ*1、GoogleのSWE採用に関して多くの同僚から色々な記事やコメントが集まったようです。(Good question!) 期待していたのは、面接でこの問題が…

「データサイエンティスト」「人工知能」「AI(トピックス)」のGoogleトレンドから向こう1年間のブーム動向を占ってみる

(Google Trends)最近時系列分析あまりやってないので、{bsts}の使い方を思い出しがてらついでに与太記事を書いてみます。お題は「データサイエンティスト」「人工知能」「AI(トピックス)」のGoogleトレンドから見る今後のブーム動向です。今回は互いに相互…

ガウス過程回帰・分類をRで試してみた

先日こちらの書籍をご恵贈いただきました。ガウス過程と機械学習 (機械学習プロフェッショナルシリーズ)作者: 持橋大地,大羽成征出版社/メーカー: 講談社発売日: 2019/03/09メディア: 単行本(ソフトカバー)この商品を含むブログを見るガウス過程と機械学習…

Andrew Ngが説く「AIプロジェクトをいかにして始めるべきか」論

(Image by Pixabay) 大変に面白い記事がしばらく前のHBRに出ていて話題になっていました。筆者は、あのAndrew Ng。機械学習(ML)そして人工知能(AI)の研究者・教育者(Courseraの共同創設者)としてあまりにも有名ですが、Google BrainやBaiduのAI groupやLan…

2019年版:データサイエンティスト・機械学習エンジニアのスキル要件、そして期待されるバックグラウンドについて

(Image by Pixabay)この記事は、以前の同様のスキル要件記事のアップデートです。 正直言って内容的には大差ないと思いますが、今回は2つ新たな軸を加えることにしました。一つは「ジュニアレベル(駆け出し)」と「シニアレベル(熟練職人)」とで分けると…

生TensorFlow七転八倒記(10):テキストデータをTF-Hubでfeature vectorに直してからt-SNEにかけてみる

今回もただの備忘録ですが、どちらかというと番外編です。TensorFlow部分はあくまでもTF-Hubでテキストデータをfeature vectorに直すところまでのみで、そこから先は今まであまり試してこなかったt-SNE (t-distributed stochastic neighbor embedding)を使っ…

研究者を辞めた時のこと、そしてその後のこと

TL;DR これは、このブログの本題とは何の関係もない僕自身の回顧録にして懺悔録であり、見ようによっては怪文書です*1。故に、記事中には何の参考になる内容も書かれていないことを予めお断りしておきます。それでも良いという方だけ、この先をお読みくださ…

生TensorFlow七転八倒記(9):TF-Hub embeddingを利用して感情分析してみる

これまた小ネタです。大したことはしていないので、興味のない方は読み飛ばしてくださって結構です。今回のお題は、感情分析(sentiment analysis)です。題材として選んだのは、上記のオープンデータセットです。 一般に、感情分析自体はNLPが苦手な僕から見…

単純なK-meansと{TSclust}のDTWによる時系列クラスタリングとではどう違うのか実験してみた

これは単なる備忘録です。詳細を知りたいという方は、この記事の元ネタになった以下のid:sinhrksさんの記事をお読みください。 ここでの問題意識は非常にシンプルで「そもそも時系列クラスタリングをかなり膨大な行数のデータに対して実行する際にどれほど厳…

機械学習システム開発や統計分析を仕事にしたい人にオススメの書籍初級5冊&中級10冊+テーマ別9冊(2019年1月版)

(Image by Pixabay)この記事は以前の書籍リスト記事のアップデートです。 機械学習エンジニアやデータサイエンティストとして(もしくはそうではない職名であったとしても)機械学習システム開発や統計分析を仕事にしたい人なら、最低限これだけは読んでおい…

終わりなき学びと、社会実装と

(Image by Pixabay) これは恒例の年末ポエムです。何ひとつ学術的・技術的にためになるような内容は書かれておりませんので、予め悪しからずご了承ください。そして基本的にこの記事は昨年の年末ポエムの続きです。

『新版 統計学のセンス』は統計学を「使う」人なら必携の書

新版 統計学のセンス: デザインする視点・データを見る目 (医学統計学シリーズ)作者: 丹後俊郎出版社/メーカー: 朝倉書店発売日: 2018/11/07メディア: 単行本この商品を含むブログを見る少し前に広告を見かけてポチってみたのがこちらの本。丹後先生の著書と…

データサイエンティストや機械学習エンジニアが、可能な限り統計学や機械学習やプログラミングを使って課題を解決するべき3つの理由

(Image by Pixabay)しばらく前のことですが、旧知のTakayanagi-sanがこんなブログを書いておられました。 ビジネス上の課題を解決していくことは当然必須であるが、データ分析者としてのキャリアを積みたいのであれば、データ分析に関係のない仕事はできるだ…

シンガポール旅行まとめ(2018年秋版)

これまでシンガポールには5回行ってきたんですが、よくよく考えたら直近の5回目については旅行記を書いたものの残り4回分についてはほとんど書いてこなかったので、パリや香港マカオやマウイ島同様に備忘録的な記事を書いておこうかと思います。なお、他の記…

『機械学習のエッセンス』はゼロからガチで機械学習を生業にしたい人が「いの一番に」読むべき一冊

機械学習のエッセンス -実装しながら学ぶPython,数学,アルゴリズム- (Machine Learning)作者: 加藤公一出版社/メーカー: SBクリエイティブ発売日: 2018/09/21メディア: 単行本この商品を含むブログを見る発売されてからだいぶ経ちますが、構想段階の頃より著…