渋谷駅前で働くデータサイエンティストのブログ

元祖「六本木で働くデータサイエンティスト」です / 道玄坂→銀座→東京→六本木→渋谷駅前

データサイエンティストの「真の実力」を測るための効果的な面接方法

最近こんな記事が出ていたようですが、僕にとっては既視感満載の話題でした。何故かというと、実は現職に来る以前に既にここで書かれている面接方法を実務担当者面接の責任者として実践していたからです。ちなみにその方法は2013年ぐらい当時のテック系メデ…

Rで機械学習モデルの解釈手法たちを試してみる

この記事の前段として、まず事前に昨年書いた機械学習モデルの解釈性についての記事をご覧ください。僕が知る限り、機械学習実践のデファクトスタンダードたるPython側ではLIMEやSHAPといった解釈手法については既に良く知られたOSS実装が出回っており、相応…

ディープラーニング(Deep Learning)の歴史を振り返る

先日Quora日本語版でこんな回答を書いたのですが、ついでなので少し文脈情報を付け足してブログの方に再録することにしました。理由は単純で、このブログでディープラーニングの歴史についてまとめた記事を今まで書いてきたことがなく、そしてブログ記事にし…

DS/AIブームは「ソフトランディング」できるか

旧知の友人でもある、アラヤ創業者・社長の金井さん*1が興味深い記事を書かれて評判になっているようです。その内容はズバリ「AIブーム終焉」。AIブームが終焉すれば一種の「連れ高」として再燃していたデータサイエンス・データサイエンティスト(DS)ブーム…

データサイエンティストに王道無し

先に結論から書いておきます。今のDSワナビーたちのやっていることは、「これから冬のマッターホルンに登ろうというのにTシャツ短パンにビーチサンダルでやってきて『公園のボルダリング用の壁で3日間壁登りの練習やってきたから余裕っしょ、真冬の真っ白な…

機械学習や統計学を「社会実装」するということ

(Image by Pixabay)最近になって、こんな素晴らしい資料が公開されていたことを知りました。 この資料自体は著者のMoe Uchiikeさんが東大での講義に用いられたものだとのことですが、その内容の汎用性の高さから「これは全ての機械学習や統計学を実務で用い…

何故データサイエンスは魅力を失いつつあるのか

(Image by Pixabay)こんな記事が、しばらく前に我らが盟主タカヤナギ=サンによって言及されていました。データサイエンティストになる魅力がなくなってきた理由を4つの理由(ジュニアのポジションが減っている、アナリスト職種で良い、データサイエンスを…

真の正解が分からない中で最適解を求めて探索と手戻りを繰り返すことこそが、データ分析の本質である

先日、こんな素晴らしい記事を読みました。 データ分析屋としてキャリアを積んでいる私にとってAgileの考え方はとても腑に落ちやすいものだった。そもそも、データ分析自体、繰り返しの検証をするものなのだ。 (太字原文ママ) 僕自身はソフトウェアエンジ…

新型コロナウイルス不況でデータサイエンティスト・機械学習エンジニアは失業するのか

(Image by Pixabay)のっけから不穏なタイトルで恐縮ですが、個人的に新型コロナウイルスの感染拡大初期の頃から懸念していた事態が徐々に現実になる流れが見え隠れしており、自分自身の警戒も込めて記事にしてみました。関連資料の誤読・理解不足・認識の誤…

とある実験の記録

先日書いたこの記事ですが、「トイデータとは言え乱数シードを一つに決めて発生させたランダムウォークに対して実験をしているので、乱数シードを複数通りに変えてみたら結果は変わってくる(再現しない)のではないか?」という指摘を何人かの友人知人から…

時系列モデリングのおさらい:季節調整とトレンド抽出

COVID-19が世界中に感染拡大し、日本含め多くの国で外出や集会の制限(自粛)措置が取られて久しい昨今ですが、これに伴って多くのところでCOVID-19に関連したオープンデータが公開されるようになっており、データ分析を生業とする人間が実データを扱う良い…

改めて、汎化性能と交差検証のはなし

以前こんな記事を書きました。 この辺の話はとっくの昔に常識になっていると思っていたのですが、昨今様々な「モデル」が提唱されて公の場で喧伝されることが増えてきており、その中には明らかにこれらの記事で指摘されている問題に引っかかっているものがあ…

AIで皆さんの好みにぴったり合う絶品インドカレーを作る方法をまとめて本にしました

最近思い出したように趣味の自作インド料理の話題を各所で披露することが多いのですが、完全に趣味が高じた結果としてAIというか機械学習とインド料理を掛け合わせたら面白いことが出来るのではないか?と思い、ついにこの度本まで出すことになりました(笑…

TensorFlow Probabilityを試してみる(1): 定番のEight SchoolsのモデリングをRStanと比較する

先日の記事でも書いたように、どうもここ最近RStan周りの環境が色々厳しくなっている気がしていて、仮にRStanが今後環境面での不具合やミスマッチなどで使えなくなったらベイジアンモデリングやれなくなって困るかも。。。という危惧を最近抱きつつあります…

2020年版:実務の現場で求められるデータサイエンティスト・機械学習エンジニアのスキル要件

(Image by Pixabay)この記事は、昨年の同様のスキル要件記事のアップデートです。 正直言って昨年バージョンとの差分は殆どないのですが、一応この1年間の業界の進歩を踏まえて僅かながらアップデートしてありますので、ベースとなっているスキル要件につい…

名著『パニックの心理』が解説する「社会不安に駆られた人々が買い占めに走る」理由

パニックの心理―群集の恐怖と狂気 (講談社現代新書 364)作者:安倍 北夫メディア: 新書趣味が悪いと言われるかもですが、中高生の頃から何故か愛読していた本の中に『パニックの心理』(安倍北夫・講談社現代新書)があります。この書籍が論じている内容が時…

ML design: 機械学習を確かならしめる「メタ」な枠組み

(By Gufosowa - Own work, CC BY-SA 4.0, https://commons.wikimedia.org/w/index.php?curid=82298768)ここ最近、事あるごとに僕が色々な人たちに提案している概念として"ML design"というものがあります。これは元々"ML Ops"(DevOpsと同じように機械学習の…

実務の専門家として機械学習や統計分析を手掛けたい人にオススメの書籍初級5冊&中級8冊+テーマ別11冊(2020年2月版)

(Image by Pixabay)この記事は以下のオススメ書籍リスト記事のアップデートです。 毎回の断り書きで恐縮ですが、この記事では「データサイエンティストや機械学習エンジニアなどデータ分析の実務の専門家として」*1機械学習や統計分析を手掛けていきたいとい…

シンガポール訪問記(1年半ぐらいぶり6回目)

私事ですが、最近デルタ航空以外にも乗るようになった嫁さんが「ワンワールド系列でマイル修行をしたい」というので様々な事情*1で最近激安になっているキャセイパシフィック航空で香港まで行って、そこからどこかに乗り継いで簡単な海外旅行でもしてこよう…

『効果検証入門』はマーケティング実験&分析に関わる全ての人にお薦めの統計的因果推論の入門書

このブログを普段からお読みになっている皆さんはご存知かと思いますが、僕は割と口を酸っぱくして「マーケティングに携わるならきちんと実験して効果検証せよ、その介入がピュアな施策だろうと機械学習システムによるものだろうと変わらない」ということを…

Fashion-MNIST: 簡単になり過ぎたMNISTに代わる初心者向け画像認識ベンチマーク

(MNIST database - Wikipedia) 僕は画像認識分野は門外漢なのですが、ここ最近初心者向けにCNNのトレーニングを行うことを企画していて、その目的に適した画像認識のオープンデータセットを探していたのでした。 というと誰しも思いつくのがMNISTではないか…

「データサイエンティストが『その会社の本業部門』にしかいない」問題

(Image by Pixabay)ちょっと前にこんなことを書きました。洋の東西を問わずどこの事業会社でもあるあるなのが、プロダクト部門には山ほど優秀なデータサイエンティストや機械学習エンジニアがいるのに、広告・マーケ部門にはDSやMLエンジニアはおろか普通の…

Scalabilityを追求するということ

(Image by Pixabay)今年も恒例の年末振り返り記事の季節になりました(笑)。なおここ数年の年末振り返り記事はこちらから。 去年まではどちらかと言うと「stats/ML分野の進歩が早過ぎてついていけない」という愚痴半分諦め半分みたいな話をしていたわけです…

機械学習の説明可能性(解釈性)という迷宮

ちょっと前に、しょうもないことを某所で放言したら思いの外拡散されてしまいました。機械学習の説明可能性(解釈性)、大半のケースで求められているのは厳密な分類・回帰根拠ではなく受け手の「納得感」なので、特に実ビジネス上は説明可能性に長けたモデ…

Mac OSでR 3.6.1にアップデートしたらRStanが走らなくなったので、復旧させた話

この記事は完全に備忘録です。必要最低限の情報しか記されていませんので悪しからずご了承ください。色々事情があってつい最近Rを3.6.1にアップデートして、いつも通りパッケージをインストールし直していたのですが、こういう時に毎回コケるのはRStanと相場…

平均への回帰:愚かな誤謬を惹き起こす美しきrandomness

元々はQuoraでこういうアンサーを書いたのがきっかけです。本文中では「厳密性を一切考慮しない平易な説明で良ければ(※僕自身も数理統計学的な意味での確率論に関してはど素人なのでそもそも厳密な説明はできませんが)」と断り書きを入れましたが、厳密で…

全くのゼロから「駆け出しデータサイエンティスト」を育てる方法論

(Image by Pixabay)「データサイエンティスト」の第一次ブーム勃興から6年余り、人工知能ブームに便乗した第二次ブームで人口に膾炙してから3年余り、気が付いたら何やかんや言われながらもデータサイエンティスト及びその類似職が、じわじわと日本国内の産…

データサイエンティストが企業にとって有用な理由、そして新たにデータサイエンスを自社に導入するための3要件

(Image by Pixabay)この国では未だに訳の分からない、何も実態を反映しない「データサイエンティスト論」がそこら中に流布されている模様ですが、そんな中Harvard Business Reviewにこんな素晴らしい記事が出ていたのを見つけたのでした。その公式日本語記事…

LA旅行記(後編):サンタモニカ&ベニス、そしてLA市街

この記事は前半のカリフォルニアディズニー旅行記の続きです。アナハイムには9/22-25といて、その後サンタモニカに移動して9/25-28(現地時間)と滞在していました。こちらでは旅行の3日目〜6日目*1まで滞在及び訪問したサンタモニカ、ベニスビーチ 、そして…

LA旅行記(前編):アナハイムのカリフォルニアディズニーランド・リゾート

私事ですが、9/22-29即ち6泊8日の日程でLA(アナハイム→サンタモニカ)に行ってきました。何故LA?かと言うと、一つはディズニーファンの嫁さんの「Galaxy Edgeに行きたい!」というリクエストがあったのと、もう一つはLAは空港(LAX)で乗り継ぐことはあって…