渋谷駅前で働くデータサイエンティストのブログ

元祖「六本木で働くデータサイエンティスト」です / 道玄坂→銀座→東京→六本木→渋谷駅前

データサイエンティストは何を勉強すべきか:「教養」と「必須」と「差別化」と


(Image by Wokandapix from Pixabay)

個人的な観測範囲での話ですが、データサイエンティストという職業は「21世紀で最もセクシーな職業」として刹那的な注目を集めた第一次ブーム、人工知能ブームに煽られて火がついた第二次ブーム、そして「未経験から3ヶ月で人生逆転」ムーブメントと折からのDXブームに煽られる形で沸き起こった第三次ブームを経て、何だかんだで社会に定着してきた感があります。


で、このブログを始めた頃からの連綿と続くテーマになっていますが、いつの時代も話題になるのが「データサイエンティスト(になるに)は何を勉強すべきか」ということ。7年前から恒例にしてきた「スキル要件」記事では、基本的には「どれも必要な知識(学識)」であるという前提で分野・領域・項目を挙げてきました。少なくとも、最初の3回ぐらいはそういう認識でスキル要件記事を書いていた気がします。


ところが、データサイエンティストブームが始まってから10年が経ち、取り巻く学術・技術的な環境も大きく様変わりしていったことで、自分が見ている範囲では「必ずしも必要だから学ぶわけではない」「そのため最近参入した人だと知らなくて当たり前」という項目が徐々に増えてきたように思います。代表的なのが近年のNN手法の隆盛で、例えば「Transformerなら幾らでも自分で組んで回せるけどSVMが何なのか全く知らない学生が沢山いる」みたいな話を聞くことも増えてきています。ほんの5年前なら聞かなかったような技術トレンドが今は主流どころか既に廃れ始めている、というような話はもはや日常茶飯事です。


ということで、今回の記事ではこの10年に渡るデータサイエンティストという職業の歴史を踏まえつつ、「ビジネス実務家として働くデータサイエンティスト(になるに)は何を勉強すべきか」について改めて考察してみようと思います。なおいつもながらですが、記事中に事実誤認や理解不足などがあればコメントなどの形でご指摘くだされば幸いです。

続きを読む

再現性問題のはなし

最近は計量経済学統計学方面の方々との交流が多いんですが、そのご縁で『経済セミナー』の2022年6・7月号が再現性問題を取り上げていたと知り、入手して読んでみました。特集部分の目次を以下に引用すると、

特集= 経済学と再現性問題

  • 【鼎談】再現性の問題にどう向き合うか?……川越敏司×會田剛史×新井康平
  • 心理学における再現性の危機――課題と対応……大坪庸介
  • 経済学における再現性の危機――経済実験での評価と対応……竹内幹
  • フィールド実験・実証研究における再現性……高野久紀
  • 健全な研究慣習を身に付けるための実験・行動経済学101……山田克宣
  • 再現性問題における統計学の役割と責任……マクリン謙一郎

という内容で、幾つかの分野にまたがって論じられています。特に、このブログ含めて個人的に度々お世話になっているマクリン謙一郎さんも寄稿されていて、非常に読み応えがあると思いました。


再現性問題については僕自身が渦中の分野にかつて身を置いていたこともあり、興味を抱き続けていた一方でこれまでブログ記事にまとめたことはありませんでした。それにはやはり僕が企業に転じて渦中の業界から遠ざかったことで、一種の「対岸の火事」感があったという側面もあると思っています。そこに、現在交流のある計量経済学統計学方面で再現性問題に関する議論がなされたということで、改めてこの問題に目を向けようという気持ちになったのでした。


ということで、今回の記事では経済セミナーの特集(以下「本特集」とする)を下敷きとしつつ、僕の個人的な見聞や考察も交えて再現性問題についてまとめてみようと思います。その意味では書評というよりはむしろ文献を踏まえての独自議論といった方が良さそうですが、お付き合いくだされば幸いです。なおいつものように誤解や理解不足などの点があるかもしれませんので、お気付きの際はコメントなどで是非ご指摘ください。

続きを読む

NN時代のモダンな不均衡データ補正:undersamplingしたデータから得られたモデルを全データでfine-tuningする(論文紹介・ただし再現に失敗)

何だか不均衡データ補正の話題は毎回tmaeharaさんからネタを頂戴している気がしますが(笑)、今回も興味深いネタを拝見したので試してみようと思います。

端的にまとめると「under/upsamplingで均衡させた改変データセットで学習したNNを、改めて全データセットでfine-tuningすれば不均衡データ補正が上手くいく」という論文があるらしく、しかも割とうまくいくので採用している後発論文が少なからずあるようだ、というお話です。

tmaeharaさんが引用されていたのはこちらの論文なんですが、IEEE公式サイトのものは僕は読めないので適当にarXivで探したら以下のものが出てきました。

界隈ではtwo-phase trainingと呼ばれているようですね。基本的には画像データに対する不均衡データ多クラス分類課題で、多層CNNを適用する際に用いられる補正手法のようです。ということで、今回の記事ではこの手法がどれくらい有効かを過去記事の例を踏襲して検証してみます。


実は、この論文の検証をやるために事前に下調べをしておいたのでした。読んで字の如く、R版Kerasでfine-tuningを実装するというネタです。これで準備万端ということで、いざやってみようと思います。なお、毎回のことで尚且つ今回は特に強調しておきたいのですが、今回の検証について「ここに不具合がある」「ここが間違っている」「ここの理解がおかしい」という点がありましたら、コメントなどで是非ご指摘していただけると有難いです。

続きを読む