渋谷駅前で働くデータサイエンティストのブログ

元祖「六本木で働くデータサイエンティスト」です / 道玄坂→銀座→東京→六本木→渋谷駅前

AutoML Tablesと他の機械学習モデルとのパフォーマンス比較をしてみた(追記あり)

以前よりGoogleではCloud AutoMLという"Learning to learn"フレームワークによる「人手完全不要の全自動機械学習モデリング&API作成」サービスを展開してきていましたが、それらは画像認識や商品推薦はたまた自然言語処理がメインで、最もオーソドックスな…

我が家の我流インドカレーレシピ

時々色々なところで写真を披露していますが、僕の15年以上に渡る趣味の一つにインド料理があります。元はと言えば偶然通うようになったインド料理屋が実は日本国内のインド料理業界との関わりの深いお店で、そこで教えていただいた知識をもとに様々な都内の…

データ分析人材の長期的キャリアという迷宮

(Image by Pixabay)先日出たこんな記事が注目を集めていたようです。 私はデータサイエンス的エンジニアになりたいのか?データサイエンス的コンサルタントになりたいのか?なんもわからん タイトルにもなっていて、記事中で提起されている「データ分析者の…

TensorFlow Probabilityのtfp.stsモジュールを使って構造時系列モデリングを回してみる

TensorFlow Probability (TFP)がリリースされてからしばらく経ちますが、最近になってこんなモジュールが公開されたと知りました。 Framework for Bayesian structural time series modelsと題されている通りで、ズバリTFPでベイズ構造時系列モデルを推定す…

機械学習のビジネス上の価値を「効果測定」して「数値評価」する方法

(Image by Pixabay)気が付けば、日本における第一次データサイエンティストブームから6年、人工知能ブーム開始から3年が経ったようです。意外と言っては何ですが、これまでのところ人工知能ブームも、そしてそれにブーストされた形で起こった第二次データサ…

社内政治が上手くなりたいAIエンジニアのための本を書きました

個人的には2年ぐらいで萎むだろうと思っていた日本の人工知能(AI)ブームも4年目に入りそうで、「AIエンジニア」の採用数もうなぎ上りならその待遇もどんどん高騰する一方です。その反面、ブームに乗って企業に採用されたは良いものの、まだまだ保守的な文化…

Googleに入社した時のこと

東京オフィスのsoftware engineer (SWE)部門のsite leadのRyoichiさんがTwitter上でこんなことを呼びかけたところ*1、GoogleのSWE採用に関して多くの同僚から色々な記事やコメントが集まったようです。(Good question!) 期待していたのは、面接でこの問題が…

「データサイエンティスト」「人工知能」「AI(トピックス)」のGoogleトレンドから向こう1年間のブーム動向を占ってみる

(Google Trends)最近時系列分析あまりやってないので、{bsts}の使い方を思い出しがてらついでに与太記事を書いてみます。お題は「データサイエンティスト」「人工知能」「AI(トピックス)」のGoogleトレンドから見る今後のブーム動向です。今回は互いに相互…

ガウス過程回帰・分類をRで試してみた

先日こちらの書籍をご恵贈いただきました。ガウス過程と機械学習 (機械学習プロフェッショナルシリーズ)作者: 持橋大地,大羽成征出版社/メーカー: 講談社発売日: 2019/03/09メディア: 単行本(ソフトカバー)この商品を含むブログを見るガウス過程と機械学習…

初めてこのブログに来た方へ

これは初めてこのブログに来た方々向けのトップ固定記事です。最新記事の更新状況に応じて随時更新されます。 はじめに 公式のプロフィールはLinkedInに掲載しております。 このブログの内容は個人の意見・見解の表明であり、所属組織の意見・見解を代表しま…

Andrew Ngが説く「AIプロジェクトをいかにして始めるべきか」論

(Image by Pixabay) 大変に面白い記事がしばらく前のHBRに出ていて話題になっていました。筆者は、あのAndrew Ng。機械学習(ML)そして人工知能(AI)の研究者・教育者(Courseraの共同創設者)としてあまりにも有名ですが、Google BrainやBaiduのAI groupやLan…

2019年版:データサイエンティスト・機械学習エンジニアのスキル要件、そして期待されるバックグラウンドについて

(Image by Pixabay)この記事は、以前の同様のスキル要件記事のアップデートです。 正直言って内容的には大差ないと思いますが、今回は2つ新たな軸を加えることにしました。一つは「ジュニアレベル(駆け出し)」と「シニアレベル(熟練職人)」とで分けると…

生TensorFlow七転八倒記(10):テキストデータをTF-Hubでfeature vectorに直してからt-SNEにかけてみる

今回もただの備忘録ですが、どちらかというと番外編です。TensorFlow部分はあくまでもTF-Hubでテキストデータをfeature vectorに直すところまでのみで、そこから先は今まであまり試してこなかったt-SNE (t-distributed stochastic neighbor embedding)を使っ…

研究者を辞めた時のこと、そしてその後のこと

TL;DR これは、このブログの本題とは何の関係もない僕自身の回顧録にして懺悔録であり、見ようによっては怪文書です*1。故に、記事中には何の参考になる内容も書かれていないことを予めお断りしておきます。それでも良いという方だけ、この先をお読みくださ…

生TensorFlow七転八倒記(9):TF-Hub embeddingを利用して感情分析してみる

これまた小ネタです。大したことはしていないので、興味のない方は読み飛ばしてくださって結構です。今回のお題は、感情分析(sentiment analysis)です。題材として選んだのは、上記のオープンデータセットです。 一般に、感情分析自体はNLPが苦手な僕から見…

単純なK-meansと{TSclust}のDTWによる時系列クラスタリングとではどう違うのか実験してみた

これは単なる備忘録です。詳細を知りたいという方は、この記事の元ネタになった以下のid:sinhrksさんの記事をお読みください。 ここでの問題意識は非常にシンプルで「そもそも時系列クラスタリングをかなり膨大な行数のデータに対して実行する際にどれほど厳…

機械学習システム開発や統計分析を仕事にしたい人にオススメの書籍初級5冊&中級10冊+テーマ別9冊(2019年1月版)

(Image by Pixabay)この記事は以前の書籍リスト記事のアップデートです。 機械学習エンジニアやデータサイエンティストとして(もしくはそうではない職名であったとしても)機械学習システム開発や統計分析を仕事にしたい人なら、最低限これだけは読んでおい…

終わりなき学びと、社会実装と

(Image by Pixabay) これは恒例の年末ポエムです。何ひとつ学術的・技術的にためになるような内容は書かれておりませんので、予め悪しからずご了承ください。そして基本的にこの記事は昨年の年末ポエムの続きです。

『新版 統計学のセンス』は統計学を「使う」人なら必携の書

新版 統計学のセンス ―デザインする視点・データを見る目― (医学統計学シリーズ1)作者:丹後 俊郎出版社/メーカー: 朝倉書店発売日: 2018/11/05メディア: 単行本少し前に広告を見かけてポチってみたのがこちらの本。丹後先生の著書というと『ベイジアン統計解…

データサイエンティストや機械学習エンジニアが、可能な限り統計学や機械学習やプログラミングを使って課題を解決するべき3つの理由

(Image by Pixabay)しばらく前のことですが、旧知のTakayanagi-sanがこんなブログを書いておられました。 ビジネス上の課題を解決していくことは当然必須であるが、データ分析者としてのキャリアを積みたいのであれば、データ分析に関係のない仕事はできるだ…

シンガポール旅行まとめ(2018年秋版)

これまでシンガポールには5回行ってきたんですが、よくよく考えたら直近の5回目については旅行記を書いたものの残り4回分についてはほとんど書いてこなかったので、パリや香港マカオやマウイ島同様に備忘録的な記事を書いておこうかと思います。なお、他の記…

『機械学習のエッセンス』はゼロからガチで機械学習を生業にしたい人が「いの一番に」読むべき一冊

機械学習のエッセンス -実装しながら学ぶPython,数学,アルゴリズム- (Machine Learning)作者: 加藤公一出版社/メーカー: SBクリエイティブ発売日: 2018/09/21メディア: 単行本この商品を含むブログを見る発売されてからだいぶ経ちますが、構想段階の頃より著…

NNが心理学と生理学から離れていった瞬間:Back propagationに関するNature論文(1986)の意義を考える

(Fig. 1 from Rumelhart, Hinton & Williams, Nature, 1986)これはちょっとした小ネタです。僕自身はニューラルネットワーク (Neural Network, NN)の学術的専門家でもなければ況してやNNの研究史家でもないので、たかだか僕自身がかつて脳の研究者だった頃に…

HUNTER×HUNTERの念能力6系統で喩えるデータ分析スキル

HUNTER×HUNTER モノクロ版 36 (ジャンプコミックスDIGITAL)作者: 冨樫義博出版社/メーカー: 集英社発売日: 2018/10/04メディア: Kindle版この商品を含むブログを見るみんな大好きHUNTER×HUNTERの36巻発売を記念して、調子に乗って面白いことを考えてみました…

生TensorFlow七転八倒記(8):YouTubeのコメントデータセットをTF-Hub embeddingで特徴量変換してスパム判定してみる

せっかくの週末にもかかわらず台風が来てしまい、テニスも出来なければ街歩きも出来ず暇を極めることになってしまったので、UCI ML repositoryを眺めていて見つけた適当なデータセットに対してTensorFlowで遊ぶということをしてみました。 基本的にはこのシ…

シンガポールに行ってきました(2年半ぶり5回目)

今回のシンガポールは前半4日間は年休を消化してプライベートの旅行として、後半4日間は会社の出張として行ってきました。ということで、あまり書くこともないので8日間(7泊)に食べたものなどを適当に並べておくことにします。

偏Granger因果で「第三者効果」を排除しつつ因果性検定してみる

遥か古の時代、まだ自分が研究者だった頃にデータ分析に使っていた手法のひとつに偏Granger因果 (partial Granger causality) というものがありました。これはGuo et al. (2008)で提唱されたもので、当時は著者グループ提供のオリジナルMatlabツールボックス…

Ads carryover & shape effects付きのMedia Mix Modeling

これは単なる備忘録です。「論文とサンプルコード読みながら試しました」以外に何も内容のない記事ですのでご注意ください。特に個々の式の変数の説明については個人的な備忘録ゆえ大半を端折りますので、仮に興味を持たれた方は適宜論文の本文をご参照下さ…

データサイエンティストや機械学習エンジニアに求められる「素質」とは何か

(Image by Pixabay)某所で時々意見交換させていただいている@maskedanlさんが、面白い記事をnoteにupなさっていたので拝読しました。細かい内容は上記のリンク先から皆さんに直接お読みいただくとして、記事中で某所で僕が放言(笑)したことへのご質問をい…

日本の人工知能バブル、いよいよ弾けるか?

このブログでは定番のマーケットトレンド調査ですが、今回は若干雲行きの怪しさを感じさせる結果が得られたので取り急ぎシェアしておきます。ちなみに言うまでもなくこの調査は僕自身の個人的なものであり、この記事で述べられている見解はいかなり組織にも…