ML design: 機械学習を確かならしめる「メタ」な枠組み

機械学習機械学習の自動化 AutoML

(By Gufosowa - Own work, CC BY-SA 4.0, https://commons.wikimedia.org/w/index.php?curid=82298768)ここ最近、事あるごとに僕が色々な人たちに提案している概念として"ML design"というものがあります。これは元々"ML Ops"（DevOpsと同じように機械学習の…

2020-02-03

実務の専門家として機械学習や統計分析を手掛けたい人にオススメの書籍初級5冊＆中級8冊＋テーマ別11冊（2020年2月版）

データサイエンティスト機械学習エンジニア書籍書評統計学機械学習

(Image by Pixabay)この記事は以下のオススメ書籍リスト記事のアップデートです。毎回の断り書きで恐縮ですが、この記事では「データサイエンティストや機械学習エンジニアなどデータ分析の実務の専門家として」*1機械学習や統計分析を手掛けていきたいとい…

2020-01-08

Fashion-MNIST: 簡単になり過ぎたMNISTに代わる初心者向け画像認識ベンチマーク

機械学習 R Python TensorFlow

(MNIST database - Wikipedia) 僕は画像認識分野は門外漢なのですが、ここ最近初心者向けにCNNのトレーニングを行うことを企画していて、その目的に適した画像認識のオープンデータセットを探していたのでした。というと誰しも思いつくのがMNISTではないか…

2019-12-26

Scalabilityを追求するということ

データサイエンティストビジネス人材機械学習機械学習の自動化統計学雑感年末回顧

(Image by Pixabay)今年も恒例の年末振り返り記事の季節になりました（笑）。なおここ数年の年末振り返り記事はこちらから。去年まではどちらかと言うと「stats/ML分野の進歩が早過ぎてついていけない」という愚痴半分諦め半分みたいな話をしていたわけです…

2019-12-19

機械学習の説明可能性（解釈性）という迷宮

機械学習雑感論文 Deep Learning

ちょっと前に、しょうもないことを某所で放言したら思いの外拡散されてしまいました。機械学習の説明可能性（解釈性）、大半のケースで求められているのは厳密な分類・回帰根拠ではなく受け手の「納得感」なので、特に実ビジネス上は説明可能性に長けたモデ…

2019-11-17

全くのゼロから「駆け出しデータサイエンティスト」を育てる方法論

データサイエンティスト人材ビジネス統計学機械学習

(Image by Pixabay)「データサイエンティスト」の第一次ブーム勃興から6年余り、人工知能ブームに便乗した第二次ブームで人口に膾炙してから3年余り、気が付いたら何やかんや言われながらもデータサイエンティスト及びその類似職が、じわじわと日本国内の産…

2019-09-18

一般的な時系列のモデリング＆予測に、機械学習系の手法よりも古典的な計量時系列分析の方が向いている理由を考えてみた（追記あり）

時系列分析統計学機械学習 R

この記事は、以下の@icoxfog417さんによる問題提起に合わせたちょっとした実験をまとめたものです。時系列予測の問題において、機械学習のモデルより既存の統計モデル(ARMAモデルなど)の方が予測精度において優良な結果が出るという研究。データへの適合=予…

2019-08-26

移り変わる「データサイエンティストの『常識』」について考える

データサイエンティスト機械学習エンジニア統計学機械学習人材

(Image by Pixabay)先日、こんな話題を見かけました。【夏なので怖い話】こないだ、いかにもエリートな男性と知り合ったんですよ彼は年収1000万で飛ぶ鳥を落とす勢いのデータサイエンティストだっていうじゃないですかそれでふとAICの話題を持ちかけたんです…

2019-08-04

Undersampling + baggingで不均衡データに対処した際の予測確率のバイアスを補正して、その結果を可視化してみる

機械学習 R

この記事は以下の検証記事の続きです。先日、Twitterでこんなお話を見かけました。分類問題で不均衡データを扱う際、ダウンサンプリングして学習すると予測確率にバイアスが生じるので、calibrationしようという話を書きましたhttps://t.co/qujK29crNY— 岸…

2019-06-27

「データ分析をやるならRとPythonのどちらを使うべき？」への個人的な回答

R Python データサイエンティストデータ分析ビジネス人材統計学機械学習機械学習エンジニア

(Background image by Pixabay)最近また「データ分析をやるならRとPythonのどちらでやるべきか」という話題が出ていたようです。言語仕様やその他の使い勝手という点では、大体この記事に書いてあることを参考にすれば良いと思います。その上で、人には当然…

2019-06-16

データサイエンティストがやらかしがちな過ちトップ10（海外記事紹介）

データサイエンティスト統計学機械学習

(Image by Pixabay) "Top 10 Statistics Mistakes Made by Data Scientists"という刺激的なタイトルの記事が出ているのをKDnuggets経由で知りました。「データサイエンティストがやらかしがちな統計学的な誤りトップ10」ということで、いかにもなあるある事…

2019-05-31

AutoML Natural Languageで青空文庫に収録された作家8名の文章を分類してみる

AutoML 機械学習の自動化機械学習 Python TensorFlow Deep Learning

先日の記事ではAutoML Tablesを試してみましたが、調子に乗ってこれまで触ってこなかったAutoML Natural Languageも試してみようと思ったのでした。以前の記事にも書いたように、僕は元々自然言語処理が苦手でTensorFlow Hubのpre-trained modelによるfine-…

2019-05-23

AutoML Tablesと他の機械学習モデルとのパフォーマンス比較をしてみた（追記あり）

機械学習 Deep Learning DeepLearning実践シリーズ R Python AutoML 機械学習の自動化

以前よりGoogleではCloud AutoMLという"Learning to learn"フレームワークによる「人手完全不要の全自動機械学習モデリング＆API作成」サービスを展開してきていましたが、それらは画像認識や商品推薦はたまた自然言語処理がメインで、最もオーソドックスな…

2019-04-27

TensorFlow Probabilityのtfp.stsモジュールを使って構造時系列モデリングを回してみる

時系列分析機械学習 Python TensorFlow R DLM

TensorFlow Probability (TFP)がリリースされてからしばらく経ちますが、最近になってこんなモジュールが公開されたと知りました。 Framework for Bayesian structural time series modelsと題されている通りで、ズバリTFPでベイズ構造時系列モデルを推定す…

2019-04-15

機械学習のビジネス上の価値を「効果測定」して「数値評価」する方法

統計学機械学習データ分析ビジネス R

(Image by Pixabay)気が付けば、日本における第一次データサイエンティストブームから6年、人工知能ブーム開始から3年が経ったようです。意外と言っては何ですが、これまでのところ人工知能ブームも、そしてそれにブーストされた形で起こった第二次データサ…

2019-03-15

ガウス過程回帰・分類をRで試してみた

R 機械学習サンプルデータで試す機械学習シリーズ

先日こちらの書籍をご恵贈いただきました。ガウス過程と機械学習 (機械学習プロフェッショナルシリーズ)作者: 持橋大地,大羽成征出版社/メーカー: 講談社発売日: 2019/03/09メディア: 単行本（ソフトカバー）この商品を含むブログを見るガウス過程と機械学習…

2019-03-03

Andrew Ngが説く「AIプロジェクトをいかにして始めるべきか」論

機械学習ビジネス

(Image by Pixabay) 大変に面白い記事がしばらく前のHBRに出ていて話題になっていました。筆者は、あのAndrew Ng。機械学習(ML)そして人工知能(AI)の研究者・教育者（Courseraの共同創設者）としてあまりにも有名ですが、Google BrainやBaiduのAI groupやLan…

2019-02-19

2019年版：データサイエンティスト・機械学習エンジニアのスキル要件、そして期待されるバックグラウンドについて

データサイエンティスト機械学習エンジニア統計学機械学習データ分析人材ビジネスキャリア

(Image by Pixabay)この記事は、以前の同様のスキル要件記事のアップデートです。正直言って内容的には大差ないと思いますが、今回は2つ新たな軸を加えることにしました。一つは「ジュニアレベル（駆け出し）」と「シニアレベル（熟練職人）」とで分けると…

2019-02-06

生TensorFlow七転八倒記(10)：テキストデータをTF-Hubでfeature vectorに直してからt-SNEにかけてみる

Python TensorFlow 生TensowFlow七転八倒記機械学習

今回もただの備忘録ですが、どちらかというと番外編です。TensorFlow部分はあくまでもTF-Hubでテキストデータをfeature vectorに直すところまでのみで、そこから先は今まであまり試してこなかったt-SNE (t-distributed stochastic neighbor embedding)を使っ…

2019-01-25

生TensorFlow七転八倒記(9)：TF-Hub embeddingを利用して感情分析してみる

機械学習生TensowFlow七転八倒記 Deep Learning Python TensorFlow

これまた小ネタです。大したことはしていないので、興味のない方は読み飛ばしてくださって結構です。今回のお題は、感情分析(sentiment analysis)です。題材として選んだのは、上記のオープンデータセットです。一般に、感情分析自体はNLPが苦手な僕から見…

2019-01-18

単純なK-meansと{TSclust}のDTWによる時系列クラスタリングとではどう違うのか実験してみた

R 時系列分析機械学習

これは単なる備忘録です。詳細を知りたいという方は、この記事の元ネタになった以下のid:sinhrksさんの記事をお読みください。ここでの問題意識は非常にシンプルで「そもそも時系列クラスタリングをかなり膨大な行数のデータに対して実行する際にどれほど厳…

2019-01-10

機械学習システム開発や統計分析を仕事にしたい人にオススメの書籍初級5冊＆中級10冊＋テーマ別9冊（2019年1月版）

書籍データサイエンティスト機械学習エンジニア統計学機械学習書評

(Image by Pixabay)この記事は以前の書籍リスト記事のアップデートです。機械学習エンジニアやデータサイエンティストとして（もしくはそうではない職名であったとしても）機械学習システム開発や統計分析を仕事にしたい人なら、最低限これだけは読んでおい…

2018-12-25

終わりなき学びと、社会実装と

統計学機械学習ビジネス雑感年末回顧

(Image by Pixabay) これは恒例の年末ポエムです。何ひとつ学術的・技術的にためになるような内容は書かれておりませんので、予め悪しからずご了承ください。そして基本的にこの記事は昨年の年末ポエムの続きです。

2018-12-04

データサイエンティストや機械学習エンジニアが、可能な限り統計学や機械学習やプログラミングを使って課題を解決するべき3つの理由

データサイエンティスト機械学習エンジニア統計学機械学習キャリア人材ビジネスデータ分析

(Image by Pixabay)しばらく前のことですが、旧知のTakayanagi-sanがこんなブログを書いておられました。ビジネス上の課題を解決していくことは当然必須であるが、データ分析者としてのキャリアを積みたいのであれば、データ分析に関係のない仕事はできるだ…

2018-11-01

『機械学習のエッセンス』はゼロからガチで機械学習を生業にしたい人が「いの一番に」読むべき一冊

書評書籍機械学習 Python

機械学習のエッセンス -実装しながら学ぶPython,数学,アルゴリズム- (Machine Learning)作者: 加藤公一出版社/メーカー: SBクリエイティブ発売日: 2018/09/21メディア: 単行本この商品を含むブログを見る発売されてからだいぶ経ちますが、構想段階の頃より著…

2018-10-23

NNが心理学と生理学から離れていった瞬間：Back propagationに関するNature論文(1986)の意義を考える

論文機械学習 Deep Learning

(Fig. 1 from Rumelhart, Hinton & Williams, Nature, 1986)これはちょっとした小ネタです。僕自身はニューラルネットワーク (Neural Network, NN)の学術的専門家でもなければ況してやNNの研究史家でもないので、たかだか僕自身がかつて脳の研究者だった頃に…

2018-09-30

生TensorFlow七転八倒記(8)：YouTubeのコメントデータセットをTF-Hub embeddingで特徴量変換してスパム判定してみる

機械学習生TensowFlow七転八倒記 TensorFlow Python

せっかくの週末にもかかわらず台風が来てしまい、テニスも出来なければ街歩きも出来ず暇を極めることになってしまったので、UCI ML repositoryを眺めていて見つけた適当なデータセットに対してTensorFlowで遊ぶということをしてみました。基本的にはこのシ…

2018-08-13

日本の人工知能バブル、いよいよ弾けるか？

機械学習ビジネス R 雑感

このブログでは定番のマーケットトレンド調査ですが、今回は若干雲行きの怪しさを感じさせる結果が得られたので取り急ぎシェアしておきます。ちなみに言うまでもなくこの調査は僕自身の個人的なものであり、この記事で述べられている見解はいかなり組織にも…

2018-08-03

機械学習プロジェクトが失敗する9つの理由

機械学習ビジネス人材機械学習エンジニア

(Image by Pixabay)勉強が進まないので、今回は与太記事でも書いてお茶を濁すことにします（笑）。ネタはこちらです。 Why your machine learning project will fail – THE DATA SCIENCE NINJA 9 Reasons why your machine learning project will fail 読ん…

2018-04-24

機械学習をやる上で必要な数学とは、どの分野のどのレベルの話なのか（数学が大の苦手な人間バージョン）