渋谷駅前で働くデータサイエンティストのブログ

元祖「六本木で働くデータサイエンティスト」です / 道玄坂→銀座→東京→六本木→渋谷駅前

名著『パニックの心理』が解説する「社会不安に駆られた人々が買い占めに走る」理由

趣味が悪いと言われるかもですが、中高生の頃から何故か愛読していた本の中に『パニックの心理』(安倍北夫・講談社現代新書)があります。この書籍が論じている内容が時節柄タイムリーな話題と思われたので、このブログの主題とは直接関連しませんがちょっとご紹介させていただこうかと思います。


ちなみに、実家にいた頃は親父が趣味で買い集めた新書類が廊下の戸棚にぎっしりと並んでいたので、それを暇に任せて読み漁るのが中高生以来のちょっとした趣味だったのでした。今の僕の雑学知識を支えているのはそれらの新書たちなのですが、その中でも特に僕の印象に残り続けたうちの一冊が本書です。


なお、僕自身はかつて認知神経科学認知心理学神経科学のハイブリッド分野)を専門としていた元研究者で多少心理学に関する学識もありますが、本書が扱う災害心理学及びその母体となる社会心理学については完全に専門外ですので、内容が不確かな点についてはご容赦ください&どしどしご指摘ください。また、50年近く前の本ゆえその内容についてもout of dateかもしれませんので、その点も予めご了承ください。

続きを読む

ML design: 機械学習を確かならしめる「メタ」な枠組み

f:id:TJO:20200212152810p:plain
(By Gufosowa - Own work, CC BY-SA 4.0, https://commons.wikimedia.org/w/index.php?curid=82298768)

ここ最近、事あるごとに僕が色々な人たちに提案している概念として"ML design"というものがあります。これは元々"ML Ops"(DevOpsと同じように機械学習のシステム基盤などを包含する考え方)に対して「機械学習モデリングを運用する上で注意すべき点って多いよね」ということで、その注意点をまとめたものを一つの体系として扱えないかという趣旨で僕が勝手に言い出したものです。


言い方を変えると、統計分析に適したデータを集めるための実験計画法(experimental design)があるのと同じように、機械学習に適したデータの集め方やその交差検証などのやり方についてもまとめた計画法(design)があっても良いのでは、というのが僕が考えたオリジナルの課題意識です。実験計画法だとラテン方格とか色々習うわけですが、機械学習の世界ではそういう話は意外とまとまって教科書には載っていません。勿論それがコンペの成績に直結するKagglerや実データによる性能検証が論文の肝になるような研究者の間では常識なのでしょうが、近年になって急増した機械学習エンジニアを初めとする実務家の、特にジュニアレベルの人たちには意外と知られていないことが少なくないという印象があります。


これ自体は割と以前から考えていたことで大した話ではないと思っていたのですが、最近になってその重要性を実感する機会が増えてきました。それは、AutoML技術の普及です。

大手tech各社含めて非常に多くのML enterprise playersがAutoML即ち機械学習の自動化ソリューションを提供するようになって久しく、特にこの1-2年でそのユーザーもグッと増えた感がありますが。。。それまで全く機械学習の経験も全くないのに巷で付け焼き刃でAutoMLを触っている人たちを見ていると「???」となることが少なくないんですね。


例を挙げていくと「人工知能なんだから何でも出来るよね」と言って回帰でも分類でもないLTV (Life Time Value)推定モデルを何故か走らせようとしたり、不均衡データの補正を全く行わずに分類モデルを作って「ACC 98%だ、これすげー!」と喜んでいたり、はたまた全力でリークだらけのデータをかませて「ACC 100%だ、俺完璧じゃん!」とドヤ顔していたり。。。そんな光景、皆様の周りでも見られたりしませんでしょうか?*1


というような悲喜劇や狂騒曲を避けるべく、機械学習モデリング手法や理論やアルゴリズムといったコアの「外側」にある「メタ」な枠組みについて、僕が個人的に考えたところをまとめてみようと思います。なお、毎度のことで恐縮ですがここで挙げているのは僕の個人的な理解に基づく個人的な持論に過ぎません。以前同様に誤りや理解不足の点がありましたらどしどしご指摘いただけると有難いですm(_ _)m

*1:個人的には見たくなかったんですががが

続きを読む

実務の専門家として機械学習や統計分析を手掛けたい人にオススメの書籍初級5冊&中級8冊+テーマ別11冊(2020年2月版)

f:id:TJO:20200106115831p:plain
(Image by Pixabay)

この記事は以下のオススメ書籍リスト記事のアップデートです。

毎回の断り書きで恐縮ですが、この記事では「データサイエンティストや機械学習エンジニアなどデータ分析の実務の専門家として」*1機械学習や統計分析を手掛けていきたいという、主に初級ないし中級ぐらいのスキルレベルの人たちにお薦めしたい書籍を、初級向け5冊・中級向け8冊及び細かいテーマ別に11冊、それぞれ挙げていきます。スタンスとしては相変わらず「当座の最終到達点を『中級』に置いた時に最初に読んで内容をマスターしておくべき書籍」を初級に置いているので、世の中のこの手のお薦め書籍リストに比べると若干ハードな内容のものが初級向けに多いかもしれません。


後はちょっと気が早いかもしれませんが、機械学習パートに関しては「AutoML時代にあっても実務の専門家であれば知っておくべき知識」を収めた書籍を選んでおきました。そのため、実装を重視した本は逆に割愛されていたりします。


もう何回目か分からないほどこのブログではお馴染みのネタなので改めて説明することはないかと思いますが、言うまでもなく以下のリストは完全なる僕個人の独断と偏見で、最近出版されたり自分で読んだ本から選んだものです。このリストのご利用は皆様の自己責任でお願いいたしますm(_ _)m

*1:つまり研究者や研究よりの開発者ではないということ

続きを読む