渋谷駅前で働くデータサイエンティストのブログ

元祖「六本木で働くデータサイエンティスト」です / 道玄坂→銀座→東京→六本木→渋谷駅前

機械学習

ML design: 機械学習を確かならしめる「メタ」な枠組み

(By Gufosowa - Own work, CC BY-SA 4.0, https://commons.wikimedia.org/w/index.php?curid=82298768)ここ最近、事あるごとに僕が色々な人たちに提案している概念として"ML design"というものがあります。これは元々"ML Ops"(DevOpsと同じように機械学習の…

実務の専門家として機械学習や統計分析を手掛けたい人にオススメの書籍初級5冊&中級8冊+テーマ別11冊(2020年2月版)

(Image by Pixabay)この記事は以下のオススメ書籍リスト記事のアップデートです。 毎回の断り書きで恐縮ですが、この記事では「データサイエンティストや機械学習エンジニアなどデータ分析の実務の専門家として」*1機械学習や統計分析を手掛けていきたいとい…

Fashion-MNIST: 簡単になり過ぎたMNISTに代わる初心者向け画像認識ベンチマーク

(MNIST database - Wikipedia) 僕は画像認識分野は門外漢なのですが、ここ最近初心者向けにCNNのトレーニングを行うことを企画していて、その目的に適した画像認識のオープンデータセットを探していたのでした。 というと誰しも思いつくのがMNISTではないか…

Scalabilityを追求するということ

(Image by Pixabay)今年も恒例の年末振り返り記事の季節になりました(笑)。なおここ数年の年末振り返り記事はこちらから。 去年まではどちらかと言うと「stats/ML分野の進歩が早過ぎてついていけない」という愚痴半分諦め半分みたいな話をしていたわけです…

機械学習の説明可能性(解釈性)という迷宮

ちょっと前に、しょうもないことを某所で放言したら思いの外拡散されてしまいました。機械学習の説明可能性(解釈性)、大半のケースで求められているのは厳密な分類・回帰根拠ではなく受け手の「納得感」なので、特に実ビジネス上は説明可能性に長けたモデ…

全くのゼロから「駆け出しデータサイエンティスト」を育てる方法論

(Image by Pixabay)「データサイエンティスト」の第一次ブーム勃興から6年余り、人工知能ブームに便乗した第二次ブームで人口に膾炙してから3年余り、気が付いたら何やかんや言われながらもデータサイエンティスト及びその類似職が、じわじわと日本国内の産…

一般的な時系列のモデリング&予測に、機械学習系の手法よりも古典的な計量時系列分析の方が向いている理由を考えてみた(追記あり)

この記事は、以下の@icoxfog417さんによる問題提起に合わせたちょっとした実験をまとめたものです。時系列予測の問題において、機械学習のモデルより既存の統計モデル(ARMAモデルなど)の方が予測精度において優良な結果が出るという研究。データへの適合=予…

移り変わる「データサイエンティストの『常識』」について考える

(Image by Pixabay)先日、こんな話題を見かけました。【夏なので怖い話】こないだ、いかにもエリートな男性と知り合ったんですよ彼は年収1000万で飛ぶ鳥を落とす勢いのデータサイエンティストだっていうじゃないですかそれでふとAICの話題を持ちかけたんです…

Undersampling + baggingで不均衡データに対処した際の予測確率のバイアスを補正して、その結果を可視化してみる

この記事は以下の検証記事の続きです。 先日、Twitterでこんなお話を見かけました。分類問題で不均衡データを扱う際、ダウンサンプリングして学習すると予測確率にバイアスが生じるので、calibrationしようという話を書きましたhttps://t.co/qujK29crNY— 岸…

「データ分析をやるならRとPythonのどちらを使うべき?」への個人的な回答

(Background image by Pixabay)最近また「データ分析をやるならRとPythonのどちらでやるべきか」という話題が出ていたようです。 言語仕様やその他の使い勝手という点では、大体この記事に書いてあることを参考にすれば良いと思います。その上で、人には当然…

データサイエンティストがやらかしがちな過ちトップ10(海外記事紹介)

(Image by Pixabay) "Top 10 Statistics Mistakes Made by Data Scientists"という刺激的なタイトルの記事が出ているのをKDnuggets経由で知りました。「データサイエンティストがやらかしがちな統計学的な誤りトップ10」ということで、いかにもなあるある事…

AutoML Natural Languageで青空文庫に収録された作家8名の文章を分類してみる

先日の記事ではAutoML Tablesを試してみましたが、調子に乗ってこれまで触ってこなかったAutoML Natural Languageも試してみようと思ったのでした。 以前の記事にも書いたように、僕は元々自然言語処理が苦手でTensorFlow Hubのpre-trained modelによるfine-…

AutoML Tablesと他の機械学習モデルとのパフォーマンス比較をしてみた(追記あり)

以前よりGoogleではCloud AutoMLという"Learning to learn"フレームワークによる「人手完全不要の全自動機械学習モデリング&API作成」サービスを展開してきていましたが、それらは画像認識や商品推薦はたまた自然言語処理がメインで、最もオーソドックスな…

TensorFlow Probabilityのtfp.stsモジュールを使って構造時系列モデリングを回してみる

TensorFlow Probability (TFP)がリリースされてからしばらく経ちますが、最近になってこんなモジュールが公開されたと知りました。 Framework for Bayesian structural time series modelsと題されている通りで、ズバリTFPでベイズ構造時系列モデルを推定す…

機械学習のビジネス上の価値を「効果測定」して「数値評価」する方法

(Image by Pixabay)気が付けば、日本における第一次データサイエンティストブームから6年、人工知能ブーム開始から3年が経ったようです。意外と言っては何ですが、これまでのところ人工知能ブームも、そしてそれにブーストされた形で起こった第二次データサ…

ガウス過程回帰・分類をRで試してみた

先日こちらの書籍をご恵贈いただきました。ガウス過程と機械学習 (機械学習プロフェッショナルシリーズ)作者: 持橋大地,大羽成征出版社/メーカー: 講談社発売日: 2019/03/09メディア: 単行本(ソフトカバー)この商品を含むブログを見るガウス過程と機械学習…

Andrew Ngが説く「AIプロジェクトをいかにして始めるべきか」論

(Image by Pixabay) 大変に面白い記事がしばらく前のHBRに出ていて話題になっていました。筆者は、あのAndrew Ng。機械学習(ML)そして人工知能(AI)の研究者・教育者(Courseraの共同創設者)としてあまりにも有名ですが、Google BrainやBaiduのAI groupやLan…

2019年版:データサイエンティスト・機械学習エンジニアのスキル要件、そして期待されるバックグラウンドについて

(Image by Pixabay)この記事は、以前の同様のスキル要件記事のアップデートです。 正直言って内容的には大差ないと思いますが、今回は2つ新たな軸を加えることにしました。一つは「ジュニアレベル(駆け出し)」と「シニアレベル(熟練職人)」とで分けると…

生TensorFlow七転八倒記(10):テキストデータをTF-Hubでfeature vectorに直してからt-SNEにかけてみる

今回もただの備忘録ですが、どちらかというと番外編です。TensorFlow部分はあくまでもTF-Hubでテキストデータをfeature vectorに直すところまでのみで、そこから先は今まであまり試してこなかったt-SNE (t-distributed stochastic neighbor embedding)を使っ…

生TensorFlow七転八倒記(9):TF-Hub embeddingを利用して感情分析してみる

これまた小ネタです。大したことはしていないので、興味のない方は読み飛ばしてくださって結構です。今回のお題は、感情分析(sentiment analysis)です。題材として選んだのは、上記のオープンデータセットです。 一般に、感情分析自体はNLPが苦手な僕から見…

単純なK-meansと{TSclust}のDTWによる時系列クラスタリングとではどう違うのか実験してみた

これは単なる備忘録です。詳細を知りたいという方は、この記事の元ネタになった以下のid:sinhrksさんの記事をお読みください。 ここでの問題意識は非常にシンプルで「そもそも時系列クラスタリングをかなり膨大な行数のデータに対して実行する際にどれほど厳…

機械学習システム開発や統計分析を仕事にしたい人にオススメの書籍初級5冊&中級10冊+テーマ別9冊(2019年1月版)

(Image by Pixabay)この記事は以前の書籍リスト記事のアップデートです。 機械学習エンジニアやデータサイエンティストとして(もしくはそうではない職名であったとしても)機械学習システム開発や統計分析を仕事にしたい人なら、最低限これだけは読んでおい…

終わりなき学びと、社会実装と

(Image by Pixabay) これは恒例の年末ポエムです。何ひとつ学術的・技術的にためになるような内容は書かれておりませんので、予め悪しからずご了承ください。そして基本的にこの記事は昨年の年末ポエムの続きです。

データサイエンティストや機械学習エンジニアが、可能な限り統計学や機械学習やプログラミングを使って課題を解決するべき3つの理由

(Image by Pixabay)しばらく前のことですが、旧知のTakayanagi-sanがこんなブログを書いておられました。 ビジネス上の課題を解決していくことは当然必須であるが、データ分析者としてのキャリアを積みたいのであれば、データ分析に関係のない仕事はできるだ…

『機械学習のエッセンス』はゼロからガチで機械学習を生業にしたい人が「いの一番に」読むべき一冊

機械学習のエッセンス -実装しながら学ぶPython,数学,アルゴリズム- (Machine Learning)作者: 加藤公一出版社/メーカー: SBクリエイティブ発売日: 2018/09/21メディア: 単行本この商品を含むブログを見る発売されてからだいぶ経ちますが、構想段階の頃より著…

NNが心理学と生理学から離れていった瞬間:Back propagationに関するNature論文(1986)の意義を考える

(Fig. 1 from Rumelhart, Hinton & Williams, Nature, 1986)これはちょっとした小ネタです。僕自身はニューラルネットワーク (Neural Network, NN)の学術的専門家でもなければ況してやNNの研究史家でもないので、たかだか僕自身がかつて脳の研究者だった頃に…

生TensorFlow七転八倒記(8):YouTubeのコメントデータセットをTF-Hub embeddingで特徴量変換してスパム判定してみる

せっかくの週末にもかかわらず台風が来てしまい、テニスも出来なければ街歩きも出来ず暇を極めることになってしまったので、UCI ML repositoryを眺めていて見つけた適当なデータセットに対してTensorFlowで遊ぶということをしてみました。 基本的にはこのシ…

日本の人工知能バブル、いよいよ弾けるか?

このブログでは定番のマーケットトレンド調査ですが、今回は若干雲行きの怪しさを感じさせる結果が得られたので取り急ぎシェアしておきます。ちなみに言うまでもなくこの調査は僕自身の個人的なものであり、この記事で述べられている見解はいかなり組織にも…

機械学習プロジェクトが失敗する9つの理由

(Image by Pixabay)勉強が進まないので、今回は与太記事でも書いてお茶を濁すことにします(笑)。ネタはこちらです。 Why your machine learning project will fail – THE DATA SCIENCE NINJA 9 Reasons why your machine learning project will fail 読ん…

機械学習をやる上で必要な数学とは、どの分野のどのレベルの話なのか(数学が大の苦手な人間バージョン)

しばらく前にこんな記事が出ていたのをお見かけしました。 明らかにこれは僕が某所(笑)で適当に放言したことがきっかけで巻き起こった議論の一旦なのではないかと思うのですが、個人的にはこちらの@yohei_kikutaさんの仰る通りで大体良いのではないかと考…