渋谷駅前で働くデータサイエンティストのブログ

元祖「六本木で働くデータサイエンティスト」です / 道玄坂→銀座→東京→六本木→渋谷駅前

AIで皆さんの好みにぴったり合う絶品インドカレーを作る方法をまとめて本にしました

最近思い出したように趣味の自作インド料理の話題を各所で披露することが多いのですが、完全に趣味が高じた結果としてAIというか機械学習とインド料理を掛け合わせたら面白いことが出来るのではないか?と思い、ついにこの度本まで出すことになりました(笑…

TensorFlow Probabilityを試してみる(1): 定番のEight SchoolsのモデリングをRStanと比較する

先日の記事でも書いたように、どうもここ最近RStan周りの環境が色々厳しくなっている気がしていて、仮にRStanが今後環境面での不具合やミスマッチなどで使えなくなったらベイジアンモデリングやれなくなって困るかも。。。という危惧を最近抱きつつあります…

2020年版:実務の現場で求められるデータサイエンティスト・機械学習エンジニアのスキル要件

(Image by Pixabay)この記事は、昨年の同様のスキル要件記事のアップデートです。 正直言って昨年バージョンとの差分は殆どないのですが、一応この1年間の業界の進歩を踏まえて僅かながらアップデートしてありますので、ベースとなっているスキル要件につい…

名著『パニックの心理』が解説する「社会不安に駆られた人々が買い占めに走る」理由

パニックの心理―群集の恐怖と狂気 (講談社現代新書 364)作者:安倍 北夫メディア: 新書趣味が悪いと言われるかもですが、中高生の頃から何故か愛読していた本の中に『パニックの心理』(安倍北夫・講談社現代新書)があります。この書籍が論じている内容が時…

ML design: 機械学習を確かならしめる「メタ」な枠組み

(By Gufosowa - Own work, CC BY-SA 4.0, https://commons.wikimedia.org/w/index.php?curid=82298768)ここ最近、事あるごとに僕が色々な人たちに提案している概念として"ML design"というものがあります。これは元々"ML Ops"(DevOpsと同じように機械学習の…

実務の専門家として機械学習や統計分析を手掛けたい人にオススメの書籍初級5冊&中級8冊+テーマ別11冊(2020年2月版)

(Image by Pixabay)この記事は以下のオススメ書籍リスト記事のアップデートです。 毎回の断り書きで恐縮ですが、この記事では「データサイエンティストや機械学習エンジニアなどデータ分析の実務の専門家として」*1機械学習や統計分析を手掛けていきたいとい…

シンガポール訪問記(1年半ぐらいぶり6回目)

私事ですが、最近デルタ航空以外にも乗るようになった嫁さんが「ワンワールド系列でマイル修行をしたい」というので様々な事情*1で最近激安になっているキャセイパシフィック航空で香港まで行って、そこからどこかに乗り継いで簡単な海外旅行でもしてこよう…

『効果検証入門』はマーケティング実験&分析に関わる全ての人にお薦めの統計的因果推論の入門書

このブログを普段からお読みになっている皆さんはご存知かと思いますが、僕は割と口を酸っぱくして「マーケティングに携わるならきちんと実験して効果検証せよ、その介入がピュアな施策だろうと機械学習システムによるものだろうと変わらない」ということを…

Fashion-MNIST: 簡単になり過ぎたMNISTに代わる初心者向け画像認識ベンチマーク

(MNIST database - Wikipedia) 僕は画像認識分野は門外漢なのですが、ここ最近初心者向けにCNNのトレーニングを行うことを企画していて、その目的に適した画像認識のオープンデータセットを探していたのでした。 というと誰しも思いつくのがMNISTではないか…

「データサイエンティストが『その会社の本業部門』にしかいない」問題

(Image by Pixabay)ちょっと前にこんなことを書きました。洋の東西を問わずどこの事業会社でもあるあるなのが、プロダクト部門には山ほど優秀なデータサイエンティストや機械学習エンジニアがいるのに、広告・マーケ部門にはDSやMLエンジニアはおろか普通の…

Scalabilityを追求するということ

(Image by Pixabay)今年も恒例の年末振り返り記事の季節になりました(笑)。なおここ数年の年末振り返り記事はこちらから。 去年まではどちらかと言うと「stats/ML分野の進歩が早過ぎてついていけない」という愚痴半分諦め半分みたいな話をしていたわけです…

機械学習の説明可能性(解釈性)という迷宮

ちょっと前に、しょうもないことを某所で放言したら思いの外拡散されてしまいました。機械学習の説明可能性(解釈性)、大半のケースで求められているのは厳密な分類・回帰根拠ではなく受け手の「納得感」なので、特に実ビジネス上は説明可能性に長けたモデ…

Mac OSでR 3.6.1にアップデートしたらRStanが走らなくなったので、復旧させた話

この記事は完全に備忘録です。必要最低限の情報しか記されていませんので悪しからずご了承ください。色々事情があってつい最近Rを3.6.1にアップデートして、いつも通りパッケージをインストールし直していたのですが、こういう時に毎回コケるのはRStanと相場…

平均への回帰:愚かな誤謬を惹き起こす美しきrandomness

元々はQuoraでこういうアンサーを書いたのがきっかけです。本文中では「厳密性を一切考慮しない平易な説明で良ければ(※僕自身も数理統計学的な意味での確率論に関してはど素人なのでそもそも厳密な説明はできませんが)」と断り書きを入れましたが、厳密で…

全くのゼロから「駆け出しデータサイエンティスト」を育てる方法論

(Image by Pixabay)「データサイエンティスト」の第一次ブーム勃興から6年余り、人工知能ブームに便乗した第二次ブームで人口に膾炙してから3年余り、気が付いたら何やかんや言われながらもデータサイエンティスト及びその類似職が、じわじわと日本国内の産…

データサイエンティストが企業にとって有用な理由、そして新たにデータサイエンスを自社に導入するための3要件

(Image by Pixabay)この国では未だに訳の分からない、何も実態を反映しない「データサイエンティスト論」がそこら中に流布されている模様ですが、そんな中Harvard Business Reviewにこんな素晴らしい記事が出ていたのを見つけたのでした。その公式日本語記事…

LA旅行記(後編):サンタモニカ&ベニス、そしてLA市街

この記事は前半のカリフォルニアディズニー旅行記の続きです。アナハイムには9/22-25といて、その後サンタモニカに移動して9/25-28(現地時間)と滞在していました。こちらでは旅行の3日目〜6日目*1まで滞在及び訪問したサンタモニカ、ベニスビーチ 、そして…

LA旅行記(前編):アナハイムのカリフォルニアディズニーランド・リゾート

私事ですが、9/22-29即ち6泊8日の日程でLA(アナハイム→サンタモニカ)に行ってきました。何故LA?かと言うと、一つはディズニーファンの嫁さんの「Galaxy Edgeに行きたい!」というリクエストがあったのと、もう一つはLAは空港(LAX)で乗り継ぐことはあって…

ブログのタイトルを変えました(2019年10月)

完全に見たまんまですが(笑)、現職のオフィス移転に伴いブログタイトルも変えました。よろしくお願いいたします。

一般的な時系列のモデリング&予測に、機械学習系の手法よりも古典的な計量時系列分析の方が向いている理由を考えてみた(追記あり)

この記事は、以下の@icoxfog417さんによる問題提起に合わせたちょっとした実験をまとめたものです。時系列予測の問題において、機械学習のモデルより既存の統計モデル(ARMAモデルなど)の方が予測精度において優良な結果が出るという研究。データへの適合=予…

{CausalImpact}を使う上での注意点を簡単にまとめてみた

実はこのネタは元々別のところでやり取りのあった話題だったりします。色々な都合があってここ最近{CausalImpact}に触れる機会が自分に限らず周囲でも増えているのですが、若い人たちから「そもそも{CausalImpact}って何をしているんですか?使う際は何に気…

移り変わる「データサイエンティストの『常識』」について考える

(Image by Pixabay)先日、こんな話題を見かけました。【夏なので怖い話】こないだ、いかにもエリートな男性と知り合ったんですよ彼は年収1000万で飛ぶ鳥を落とす勢いのデータサイエンティストだっていうじゃないですかそれでふとAICの話題を持ちかけたんです…

『RとStanではじめるベイズ統計モデリングによるデータ分析入門』は「みどりぼん」に取って替わる次世代の統計モデリング+ベイジアン入門書

ここ2ヶ月ぐらいに渡って多くの方々からご著書をご恵贈たまわっているのですが、そのうちの一冊がこちら。かつて計量時系列分析を学んでいた頃に僕も大変お世話になった、Logics of Blueブログの馬場さんの手による『RとStanではじめるベイズ統計モデリング…

Undersampling + baggingで不均衡データに対処した際の予測確率のバイアスを補正して、その結果を可視化してみる

この記事は以下の検証記事の続きです。 先日、Twitterでこんなお話を見かけました。分類問題で不均衡データを扱う際、ダウンサンプリングして学習すると予測確率にバイアスが生じるので、calibrationしようという話を書きましたhttps://t.co/qujK29crNY— 岸…

『仕事の説明書』はこれから仕事で独り立ちしたい若い人たちにこそ読んで欲しい「仕事というゲームの攻略本」

以前SQL黒魔術本をご恵贈いただいた旧友の田宮さんから、ちょっと異色な本をご恵贈いただきました。その名も『仕事の説明書』。副題に「あたなは今どんなゲームをしているのか?」とあるように、世の中の仕事をある種の「ゲーム」とみなして、これをどう攻略…

「データ分析をやるならRとPythonのどちらを使うべき?」への個人的な回答

(Background image by Pixabay)最近また「データ分析をやるならRとPythonのどちらでやるべきか」という話題が出ていたようです。 言語仕様やその他の使い勝手という点では、大体この記事に書いてあることを参考にすれば良いと思います。その上で、人には当然…

データサイエンティストがやらかしがちな過ちトップ10(海外記事紹介)

(Image by Pixabay) "Top 10 Statistics Mistakes Made by Data Scientists"という刺激的なタイトルの記事が出ているのをKDnuggets経由で知りました。「データサイエンティストがやらかしがちな統計学的な誤りトップ10」ということで、いかにもなあるある事…

AutoML Natural Languageで青空文庫に収録された作家8名の文章を分類してみる

先日の記事ではAutoML Tablesを試してみましたが、調子に乗ってこれまで触ってこなかったAutoML Natural Languageも試してみようと思ったのでした。 以前の記事にも書いたように、僕は元々自然言語処理が苦手でTensorFlow Hubのpre-trained modelによるfine-…

AutoML Tablesと他の機械学習モデルとのパフォーマンス比較をしてみた(追記あり)

以前よりGoogleではCloud AutoMLという"Learning to learn"フレームワークによる「人手完全不要の全自動機械学習モデリング&API作成」サービスを展開してきていましたが、それらは画像認識や商品推薦はたまた自然言語処理がメインで、最もオーソドックスな…

我が家の我流インドカレーレシピ

時々色々なところで写真を披露していますが、僕の15年以上に渡る趣味の一つにインド料理があります。元はと言えば偶然通うようになったインド料理屋が実は日本国内のインド料理業界との関わりの深いお店で、そこで教えていただいた知識をもとに様々な都内の…