渋谷駅前で働くデータサイエンティストのブログ

元祖「六本木で働くデータサイエンティスト」です / 道玄坂→銀座→東京→六本木→渋谷駅前

機械学習

一般的な時系列のモデリング&予測に、機械学習系の手法よりも古典的な計量時系列分析の方が向いている理由を考えてみた(追記あり)

この記事は、以下の@icoxfog417さんによる問題提起に合わせたちょっとした実験をまとめたものです。時系列予測の問題において、機械学習のモデルより既存の統計モデル(ARMAモデルなど)の方が予測精度において優良な結果が出るという研究。データへの適合=予…

移り変わる「データサイエンティストの『常識』」について考える

(Image by Pixabay)先日、こんな話題を見かけました。【夏なので怖い話】こないだ、いかにもエリートな男性と知り合ったんですよ彼は年収1000万で飛ぶ鳥を落とす勢いのデータサイエンティストだっていうじゃないですかそれでふとAICの話題を持ちかけたんです…

Undersampling + baggingで不均衡データに対処した際の予測確率のバイアスを補正して、その結果を可視化してみる

この記事は以下の検証記事の続きです。 先日、Twitterでこんなお話を見かけました。分類問題で不均衡データを扱う際、ダウンサンプリングして学習すると予測確率にバイアスが生じるので、calibrationしようという話を書きましたhttps://t.co/qujK29crNY— 岸…

「データ分析をやるならRとPythonのどちらを使うべき?」への個人的な回答

(Background image by Pixabay)最近また「データ分析をやるならRとPythonのどちらでやるべきか」という話題が出ていたようです。 言語仕様やその他の使い勝手という点では、大体この記事に書いてあることを参考にすれば良いと思います。その上で、人には当然…

データサイエンティストがやらかしがちな過ちトップ10(海外記事紹介)

(Image by Pixabay) "Top 10 Statistics Mistakes Made by Data Scientists"という刺激的なタイトルの記事が出ているのをKDnuggets経由で知りました。「データサイエンティストがやらかしがちな統計学的な誤りトップ10」ということで、いかにもなあるある事…

AutoML Natural Languageで青空文庫に収録された作家8名の文章を分類してみる

先日の記事ではAutoML Tablesを試してみましたが、調子に乗ってこれまで触ってこなかったAutoML Natural Languageも試してみようと思ったのでした。 以前の記事にも書いたように、僕は元々自然言語処理が苦手でTensorFlow Hubのpre-trained modelによるfine-…

AutoML Tablesと他の機械学習モデルとのパフォーマンス比較をしてみた(追記あり)

以前よりGoogleではCloud AutoMLという"Learning to learn"フレームワークによる「人手完全不要の全自動機械学習モデリング&API作成」サービスを展開してきていましたが、それらは画像認識や商品推薦はたまた自然言語処理がメインで、最もオーソドックスな…

TensorFlow Probabilityのtfp.stsモジュールを使って構造時系列モデリングを回してみる

TensorFlow Probability (TFP)がリリースされてからしばらく経ちますが、最近になってこんなモジュールが公開されたと知りました。 Framework for Bayesian structural time series modelsと題されている通りで、ズバリTFPでベイズ構造時系列モデルを推定す…

機械学習のビジネス上の価値を「効果測定」して「数値評価」する方法

(Image by Pixabay)気が付けば、日本における第一次データサイエンティストブームから6年、人工知能ブーム開始から3年が経ったようです。意外と言っては何ですが、これまでのところ人工知能ブームも、そしてそれにブーストされた形で起こった第二次データサ…

ガウス過程回帰・分類をRで試してみた

先日こちらの書籍をご恵贈いただきました。ガウス過程と機械学習 (機械学習プロフェッショナルシリーズ)作者: 持橋大地,大羽成征出版社/メーカー: 講談社発売日: 2019/03/09メディア: 単行本(ソフトカバー)この商品を含むブログを見るガウス過程と機械学習…

Andrew Ngが説く「AIプロジェクトをいかにして始めるべきか」論

(Image by Pixabay) 大変に面白い記事がしばらく前のHBRに出ていて話題になっていました。筆者は、あのAndrew Ng。機械学習(ML)そして人工知能(AI)の研究者・教育者(Courseraの共同創設者)としてあまりにも有名ですが、Google BrainやBaiduのAI groupやLan…

2019年版:データサイエンティスト・機械学習エンジニアのスキル要件、そして期待されるバックグラウンドについて

(Image by Pixabay)この記事は、以前の同様のスキル要件記事のアップデートです。 正直言って内容的には大差ないと思いますが、今回は2つ新たな軸を加えることにしました。一つは「ジュニアレベル(駆け出し)」と「シニアレベル(熟練職人)」とで分けると…

生TensorFlow七転八倒記(10):テキストデータをTF-Hubでfeature vectorに直してからt-SNEにかけてみる

今回もただの備忘録ですが、どちらかというと番外編です。TensorFlow部分はあくまでもTF-Hubでテキストデータをfeature vectorに直すところまでのみで、そこから先は今まであまり試してこなかったt-SNE (t-distributed stochastic neighbor embedding)を使っ…

生TensorFlow七転八倒記(9):TF-Hub embeddingを利用して感情分析してみる

これまた小ネタです。大したことはしていないので、興味のない方は読み飛ばしてくださって結構です。今回のお題は、感情分析(sentiment analysis)です。題材として選んだのは、上記のオープンデータセットです。 一般に、感情分析自体はNLPが苦手な僕から見…

単純なK-meansと{TSclust}のDTWによる時系列クラスタリングとではどう違うのか実験してみた

これは単なる備忘録です。詳細を知りたいという方は、この記事の元ネタになった以下のid:sinhrksさんの記事をお読みください。 ここでの問題意識は非常にシンプルで「そもそも時系列クラスタリングをかなり膨大な行数のデータに対して実行する際にどれほど厳…

機械学習システム開発や統計分析を仕事にしたい人にオススメの書籍初級5冊&中級10冊+テーマ別9冊(2019年1月版)

(Image by Pixabay)この記事は以前の書籍リスト記事のアップデートです。 機械学習エンジニアやデータサイエンティストとして(もしくはそうではない職名であったとしても)機械学習システム開発や統計分析を仕事にしたい人なら、最低限これだけは読んでおい…

終わりなき学びと、社会実装と

(Image by Pixabay) これは恒例の年末ポエムです。何ひとつ学術的・技術的にためになるような内容は書かれておりませんので、予め悪しからずご了承ください。そして基本的にこの記事は昨年の年末ポエムの続きです。

データサイエンティストや機械学習エンジニアが、可能な限り統計学や機械学習やプログラミングを使って課題を解決するべき3つの理由

(Image by Pixabay)しばらく前のことですが、旧知のTakayanagi-sanがこんなブログを書いておられました。 ビジネス上の課題を解決していくことは当然必須であるが、データ分析者としてのキャリアを積みたいのであれば、データ分析に関係のない仕事はできるだ…

『機械学習のエッセンス』はゼロからガチで機械学習を生業にしたい人が「いの一番に」読むべき一冊

機械学習のエッセンス -実装しながら学ぶPython,数学,アルゴリズム- (Machine Learning)作者: 加藤公一出版社/メーカー: SBクリエイティブ発売日: 2018/09/21メディア: 単行本この商品を含むブログを見る発売されてからだいぶ経ちますが、構想段階の頃より著…

NNが心理学と生理学から離れていった瞬間:Back propagationに関するNature論文(1986)の意義を考える

(Fig. 1 from Rumelhart, Hinton & Williams, Nature, 1986)これはちょっとした小ネタです。僕自身はニューラルネットワーク (Neural Network, NN)の学術的専門家でもなければ況してやNNの研究史家でもないので、たかだか僕自身がかつて脳の研究者だった頃に…

生TensorFlow七転八倒記(8):YouTubeのコメントデータセットをTF-Hub embeddingで特徴量変換してスパム判定してみる

せっかくの週末にもかかわらず台風が来てしまい、テニスも出来なければ街歩きも出来ず暇を極めることになってしまったので、UCI ML repositoryを眺めていて見つけた適当なデータセットに対してTensorFlowで遊ぶということをしてみました。 基本的にはこのシ…

日本の人工知能バブル、いよいよ弾けるか?

このブログでは定番のマーケットトレンド調査ですが、今回は若干雲行きの怪しさを感じさせる結果が得られたので取り急ぎシェアしておきます。ちなみに言うまでもなくこの調査は僕自身の個人的なものであり、この記事で述べられている見解はいかなり組織にも…

機械学習プロジェクトが失敗する9つの理由

(Image by Pixabay)勉強が進まないので、今回は与太記事でも書いてお茶を濁すことにします(笑)。ネタはこちらです。 Why your machine learning project will fail – THE DATA SCIENCE NINJA 9 Reasons why your machine learning project will fail 読ん…

機械学習をやる上で必要な数学とは、どの分野のどのレベルの話なのか(数学が大の苦手な人間バージョン)

しばらく前にこんな記事が出ていたのをお見かけしました。 明らかにこれは僕が某所(笑)で適当に放言したことがきっかけで巻き起こった議論の一旦なのではないかと思うのですが、個人的にはこちらの@yohei_kikutaさんの仰る通りで大体良いのではないかと考…

AIブームに完全に出遅れたエグゼクティブの方々のための本を書きました

空前の人工知能ブームの中、主にエンジニアを中心とする若い人たちは必死に人工知能(機械学習)の研究開発・技術開発のトレンドを追いかけ続けているように見えますが、一方でそういう若い人たちをマネージする立場のエグゼクティブの方々を見ていると明ら…

ニューラルGranger因果という論文が出たらしい(追記あり)

3年前に因果フェスというイベントでGranger因果について専門家でもないのに講演させられるという稀有な経験をしたわけですが。 その時のイベント報告記事で、会場でのディスカッションの内容を踏まえて僕はこんなことを書いたのでした。 非線形Granger因果性…

データサイエンティスト&機械学習(人工知能)エンジニアのスキル要件と、過熱する人工知能ブームが生み出す狂騒曲と(2018年2月版:追記あり)

(Image by Pixaby)この記事は去年はてブ1100以上ついてしまった与太記事の続編です。その時はタイトルを読んで字の如く「データサイエンティスト」と「機械学習エンジニア」の満たすべきスキル要件(の2017年版)について考察したものでした。 で、まだ1年し…

データ分析は「強者の武器」、駆け出しのうちはデータが貯まるまでの間に他にやるべきことがある

(Image by Pixabay)こんな面白い記事が出回っているのを先日見かけたのですが。 この6年弱のデータ分析業界での個人的な経験や業界内で見聞してきた知見の範囲で言うと、そもそも「データ分析は『強者の武器』であって小さな組織が使っても強い武器にはなら…

"All models are wrong; but some are useful"(全てのモデルは間違っている、だが中には役立つものもある)という格言

George E. P. Box - Wikipedia統計学や機械学習の世界ではよく引用される"All models are wrong; but some are useful"(全てのモデルは間違っている、だが中には役立つものもある)という格言ですが、2013年に亡くなった統計学の大家George E. P. Boxの言葉…

NIPS2017チュートリアルによるDeep Learningの現状まとめ

Deep Learning_ Practice and Trends - final.pdf - Google ドライブ明けましておめでとうございます、本年もよろしくお願いいたします。新年一発目の記事はただの備忘録です。