六本木で働くデータサイエンティストのブログ

元祖「銀座で働くデータサイエンティスト」です / 道玄坂→銀座→東京→六本木

「データサイエンティスト」「人工知能」「AI(トピックス)」のGoogleトレンドから向こう1年間のブーム動向を占ってみる

(Google Trends)最近時系列分析あまりやってないので、{bsts}の使い方を思い出しがてらついでに与太記事を書いてみます。お題は「データサイエンティスト」「人工知能」「AI(トピックス)」のGoogleトレンドから見る今後のブーム動向です。今回は互いに相互…

ガウス過程回帰・分類をRで試してみた

先日こちらの書籍をご恵贈いただきました。ガウス過程と機械学習 (機械学習プロフェッショナルシリーズ)作者: 持橋大地,大羽成征出版社/メーカー: 講談社発売日: 2019/03/09メディア: 単行本(ソフトカバー)この商品を含むブログを見るガウス過程と機械学習…

Andrew Ngが説く「AIプロジェクトをいかにして始めるべきか」論

(Image by Pixabay) 大変に面白い記事がしばらく前のHBRに出ていて話題になっていました。筆者は、あのAndrew Ng。機械学習(ML)そして人工知能(AI)の研究者・教育者(Courseraの共同創設者)としてあまりにも有名ですが、Google BrainやBaiduのAI groupやLan…

2019年版:データサイエンティスト・機械学習エンジニアのスキル要件、そして期待されるバックグラウンドについて

(Image by Pixabay)この記事は、以前の同様のスキル要件記事のアップデートです。 正直言って内容的には大差ないと思いますが、今回は2つ新たな軸を加えることにしました。一つは「ジュニアレベル(駆け出し)」と「シニアレベル(熟練職人)」とで分けると…

生TensorFlow七転八倒記(10):テキストデータをTF-Hubでfeature vectorに直してからt-SNEにかけてみる

今回もただの備忘録ですが、どちらかというと番外編です。TensorFlow部分はあくまでもTF-Hubでテキストデータをfeature vectorに直すところまでのみで、そこから先は今まであまり試してこなかったt-SNE (t-distributed stochastic neighbor embedding)を使っ…

研究者を辞めた時のこと、そしてその後のこと

TL;DR これは、このブログの本題とは何の関係もない僕自身の回顧録にして懺悔録であり、見ようによっては怪文書です*1。故に、記事中には何の参考になる内容も書かれていないことを予めお断りしておきます。それでも良いという方だけ、この先をお読みくださ…

生TensorFlow七転八倒記(9):TF-Hub embeddingを利用して感情分析してみる

これまた小ネタです。大したことはしていないので、興味のない方は読み飛ばしてくださって結構です。今回のお題は、感情分析(sentiment analysis)です。題材として選んだのは、上記のオープンデータセットです。 一般に、感情分析自体はNLPが苦手な僕から見…

単純なK-meansと{TSclust}のDTWによる時系列クラスタリングとではどう違うのか実験してみた

これは単なる備忘録です。詳細を知りたいという方は、この記事の元ネタになった以下のid:sinhrksさんの記事をお読みください。 ここでの問題意識は非常にシンプルで「そもそも時系列クラスタリングをかなり膨大な行数のデータに対して実行する際にどれほど厳…

機械学習システム開発や統計分析を仕事にしたい人にオススメの書籍初級5冊&中級10冊+テーマ別9冊(2019年1月版)

(Image by Pixabay)この記事は以前の書籍リスト記事のアップデートです。 機械学習エンジニアやデータサイエンティストとして(もしくはそうではない職名であったとしても)機械学習システム開発や統計分析を仕事にしたい人なら、最低限これだけは読んでおい…

終わりなき学びと、社会実装と

(Image by Pixabay) これは恒例の年末ポエムです。何ひとつ学術的・技術的にためになるような内容は書かれておりませんので、予め悪しからずご了承ください。そして基本的にこの記事は昨年の年末ポエムの続きです。

『新版 統計学のセンス』は統計学を「使う」人なら必携の書

新版 統計学のセンス: デザインする視点・データを見る目 (医学統計学シリーズ)作者: 丹後俊郎出版社/メーカー: 朝倉書店発売日: 2018/11/07メディア: 単行本この商品を含むブログを見る少し前に広告を見かけてポチってみたのがこちらの本。丹後先生の著書と…

データサイエンティストや機械学習エンジニアが、可能な限り統計学や機械学習やプログラミングを使って課題を解決するべき3つの理由

(Image by Pixabay)しばらく前のことですが、旧知のTakayanagi-sanがこんなブログを書いておられました。 ビジネス上の課題を解決していくことは当然必須であるが、データ分析者としてのキャリアを積みたいのであれば、データ分析に関係のない仕事はできるだ…

シンガポール旅行まとめ(2018年秋版)

これまでシンガポールには5回行ってきたんですが、よくよく考えたら直近の5回目については旅行記を書いたものの残り4回分についてはほとんど書いてこなかったので、パリや香港マカオやマウイ島同様に備忘録的な記事を書いておこうかと思います。なお、他の記…

『機械学習のエッセンス』はゼロからガチで機械学習を生業にしたい人が「いの一番に」読むべき一冊

機械学習のエッセンス -実装しながら学ぶPython,数学,アルゴリズム- (Machine Learning)作者: 加藤公一出版社/メーカー: SBクリエイティブ発売日: 2018/09/21メディア: 単行本この商品を含むブログを見る発売されてからだいぶ経ちますが、構想段階の頃より著…

NNが心理学と生理学から離れていった瞬間:Back propagationに関するNature論文(1986)の意義を考える

(Fig. 1 from Rumelhart, Hinton & Williams, Nature, 1986)これはちょっとした小ネタです。僕自身はニューラルネットワーク (Neural Network, NN)の学術的専門家でもなければ況してやNNの研究史家でもないので、たかだか僕自身がかつて脳の研究者だった頃に…

HUNTER×HUNTERの念能力6系統で喩えるデータ分析スキル

HUNTER×HUNTER モノクロ版 36 (ジャンプコミックスDIGITAL)作者: 冨樫義博出版社/メーカー: 集英社発売日: 2018/10/04メディア: Kindle版この商品を含むブログを見るみんな大好きHUNTER×HUNTERの36巻発売を記念して、調子に乗って面白いことを考えてみました…

生TensorFlow七転八倒記(8):YouTubeのコメントデータセットをTF-Hub embeddingで特徴量変換してスパム判定してみる

せっかくの週末にもかかわらず台風が来てしまい、テニスも出来なければ街歩きも出来ず暇を極めることになってしまったので、UCI ML repositoryを眺めていて見つけた適当なデータセットに対してTensorFlowで遊ぶということをしてみました。 基本的にはこのシ…

シンガポールに行ってきました(2年半ぶり5回目)

今回のシンガポールは前半4日間は年休を消化してプライベートの旅行として、後半4日間は会社の出張として行ってきました。ということで、あまり書くこともないので8日間(7泊)に食べたものなどを適当に並べておくことにします。

偏Granger因果で「第三者効果」を排除しつつ因果性検定してみる

遥か古の時代、まだ自分が研究者だった頃にデータ分析に使っていた手法のひとつに偏Granger因果 (partial Granger causality) というものがありました。これはGuo et al. (2008)で提唱されたもので、当時は著者グループ提供のオリジナルMatlabツールボックス…

Ads carryover & shape effects付きのMedia Mix Modeling

これは単なる備忘録です。「論文とサンプルコード読みながら試しました」以外に何も内容のない記事ですのでご注意ください。特に個々の式の変数の説明については個人的な備忘録ゆえ大半を端折りますので、仮に興味を持たれた方は適宜論文の本文をご参照下さ…

データサイエンティストや機械学習エンジニアに求められる「素質」とは何か

(Image by Pixabay)某所で時々意見交換させていただいている@maskedanlさんが、面白い記事をnoteにupなさっていたので拝読しました。細かい内容は上記のリンク先から皆さんに直接お読みいただくとして、記事中で某所で僕が放言(笑)したことへのご質問をい…

日本の人工知能バブル、いよいよ弾けるか?

このブログでは定番のマーケットトレンド調査ですが、今回は若干雲行きの怪しさを感じさせる結果が得られたので取り急ぎシェアしておきます。ちなみに言うまでもなくこの調査は僕自身の個人的なものであり、この記事で述べられている見解はいかなり組織にも…

機械学習プロジェクトが失敗する9つの理由

(Image by Pixabay)勉強が進まないので、今回は与太記事でも書いてお茶を濁すことにします(笑)。ネタはこちらです。 Why your machine learning project will fail – THE DATA SCIENCE NINJA 9 Reasons why your machine learning project will fail 読ん…

マウイ島に行ってきました

今年も早めの夏休みということで、7/11-17の日程でマウイ島に行ってきたのでした。しかも今回の旅行は一切ワイキキなど他の島のリゾートには寄らず、全日程マウイ島のみ*1。何故マウイ島?と色々な人に聞かれたんですが、8年前にハワイ島西岸のマウナ・ラニ…

生TensorFlow七転八倒記(7):TensorFlow Hubの通常の英語コーパスではなくWikipedia英語版コーパスのtext embeddingを使ってみた

これは前回の記事の続きです。 小ネタにしてただの備忘録ですので、予めご了承ください。 前回の記事で元々参考にさせていただいた以下のブログ記事なんですが、これは基本的に英語NNLMの128次元embeddingで試したものなんですね。そのままやるとACC 0.965ぐ…

生TensorFlow七転八倒記(6):TensorFlow Hubのtext embeddingsを使って日本語テキストを分類してみた(追記あり)

だいぶ久しぶりの生TensorFlow七転八倒記です。今回もただの備忘録につき、何一つ新しいことも参考になることも書いておりませんし、クソコードの羅列でしかありませんので、何か調べ物でたどり着かれた方はこの記事のリンク先などなどをご覧ください。 今回…

多重比較補正のはなし

最近になって、データ分析界隈で多重比較補正が話題に上ることが増えていると聞きまして。一方で、僕自身も何を隠そう研究者時代の専門分野が長年多重比較補正の問題に悩まされてきた分野だったこともあって、かなり若い頃から多重比較補正については色々勉…

時変係数動的線形モデル続き:時変・時不変・OLS線形回帰で比較してみる

2週間前にふと思い立ってこんなことを試してみたわけですが。 よくよく考えてみたら「データを生成した真のモデルが時変係数&モデル推定も時変係数」でやってみた結果を並べただけで、これを(例えば)時不変係数モデルで推定してしまった場合や単なるOLS線…

データ人材は日本に何人必要なのか?(2018年Q2版)

(Image by Pixabay)最近になって以下のようなメディア記事やそれに類する報道が殊に増えているようです。 以前研究者だった身としてはこういう「これから日本には〇〇万人の△△人材が必要」みたいな物言いを聞くとポスドク1万人計画の悪夢を思い出してしまう…

時変係数動的線形モデルをStanで推定してみる(追記あり)

これはただの備忘録です。目新しい内容は特に何もありません。きちんとした内容を学びたいという方は、先日著者の萩原さんからご恵贈いただいたこちらの書籍で学ばれることをお薦めいたします。MCMCに留まらず、粒子フィルタの実装&実践までカバーしていて…