渋谷駅前で働くデータサイエンティストのブログ

元祖「六本木で働くデータサイエンティスト」です / 道玄坂→銀座→東京→六本木→渋谷駅前

2023-01-01から1年間の記事一覧

ヒトだからこそ価値を出せる余地は、AIやデータサイエンスの「外側」の本質への関わり方にある

恒例の年末振り返り記事ですが、もうタイトルが示す通りです。例年通りであれば淡々と1年間の業界動向や個人的な学び、はたまたちょっとした私事などを綴るのですが、今年はたまたま良いお題がやってきたのでまず最初にその話を書こうと思います。

「仮説ドリブン」という名の甘い罠

今回の記事では、ちょっと感覚的でふわっとした話をしようと思います。それは「『仮説ドリブン』という考え方には往々にして落とし穴があるのではないか?」という問題提起です。 そもそも、「仮説ドリブン」(仮説駆動型:hypothesis-driven)というアプロ…

CausalImpactは実装によって中身に重大な差異がある

CausalImpactについては、過去にこのブログでも何度か話題にしてきたかと思います。端的に言えば、seasonalityによるバイアスを補正するための実験計画であるDID(Difference in Differences:差分の差分法)によって得られたtest/controlグループの時系列デ…

データセットの本質的な性質を踏まえないデータ分析には、大抵何の意味もない

前回のブログ記事は、論文紹介という地味なテーマだったにしてはだいぶ話題を呼んだ*1ようで、個人的にはちょっと意外な感があったのでした。確かに、今をときめくTransformerにも苦手なものがあるという指摘は、NN一強の現代にあってはセンセーショナルなも…

「機械学習で時系列予測はできるのか」論議がTransformerと共に帰ってきた

先日、こちらのポストをお見かけしました。AI技術開発部の高橋が社内勉強会の資料「時系列予測にTransformerを使うのは有効か?」を公開しました。論文Are Transformers Effective for Time Series Forecastingの紹介を中心に、時系列予測について解説してい…

ビジネスにサイエンスを持ち込むということ

先日、『しっかり学ぶ数理最適化 モデルからアルゴリズムまで (KS情報科学専門書)』の梅谷先生がこんなポスト(ツイート)をされているのを拝見したのでした*1。個人的には「学問的なものでビジネスのボトルネックを解消する」や「学問的なものでビジネス…

MMM (Media/Marketing Mix Modeling)を回すなら、まずGeorge E. P. Boxの格言を思い出そう

「最後の統計学界の大御所」の一人で、2013年に亡くなったGeorge E. P. Box*1が残した格言 "All models are wrong; but some are useful"(全てのモデルは間違っている、だが中には役立つものもある)ですが、このブログでは過去に何度も紹介しているのでお…

10年経ってもついに消えずに残った、データサイエンティストという職業

このブログでも何度か引用しているこちらの記事で、「データサイエンティストという職業は10年以内に消える」という趣旨の議論がされていたのがちょうど10年前の2013年でした。ちなみにこの記事はついているブックマーク数に比して当時は結構注目を集めたと…

NN研究における再現性にまつわるエトセトラ

先日、ふとしたきっかけでしましま先生*1がこちらの論文について触れられているのを見かけたのでした。これは推薦システム分野におけるNN研究の再現性について検証した2019年の論文で、近年のトップ会議*2に採択されたNN手法18個に対して再現を試みたところ…

エンジニア・データ分析職の方々にお薦めしたい、LLM時代に不可欠な教養が身に付くテキスト3選

(『IT Text 自然語処理の基礎』より)3ヶ月ほど前に空前のLLMブームについて概観する記事を書きましたが、それ以降も世間のLLMに対する狂騒ぶりは収まるどころかますます拍車がかかるという有様で、あまつさえ僕自身の仕事における日常業務にもじわじわと影…

グアムに行ってきました

Hafa Adai!!*1 6月中旬、夏至のちょっと前にグアムに行ってきました。コロナ禍以降これまで全く海外に行っておらず、また昨年5月にDVT(深部静脈血栓症)に罹ってから*2は飛行機にすら乗っていなかったので、その両方を今回ようやく解禁したという次第です。…

シュートを外した後で、ゴールポストを動かして「入っていた」ということにしてはいけない

先日こんなことをコメントしたら、思ったよりも反応が多くて「皆さん同じことを思っていたのかな」と感じたのでした。シュートを外した後でゴールポストを動かして入ったことにするのはダメですよ / 「当初は有意差が認められなかったが、毛乳頭細胞が少ない…

LLMにデータ分析をさせてみる:テーブルデータの概要解釈

先日こんな記事を書いたのでした。はてブも400近くに達しており、良くも悪くもバズったようです。で、この記事の中で言いたかったことは幾つかあるのですが、その一つに「文書・テキスト要約など『そもそもLLMというかLM自体が得意な仕事』をさせると便利な…

マーケティングデータ分析で成果を挙げるには「統計分析(MMMなど)+A/Bテスト」のコンビネーションが有用

既に記事タイトルが雄弁に物語っていますが、「マーケティング分野におけるデータ分析でいかにして成果を挙げるか」というのはある意味永遠の課題であると言えると思います。誇張でも何でもなく、この地球上の全てのマーケティングに関わるデータ分析組織で…

ChatGPTに書かせた基礎統計学の教科書を公開しました

ChatGPT以下各種LLM chatbotが創り出すコンテンツが何かと話題を呼ぶ昨今ですが、僕もその世間の潮流に沿って試してみたことがあります。それが「統計学の教科書の自動執筆」です。 ということで、実際にChatGPTを使って基礎統計学の教科書を書いてみました…

LLM chatbotが人類にもたらすのは、絶望なのか希望なのか

ちょっと前に以下のようなことを放言したら、思いの外反響が多くてちょっとびっくりしたのでした。それだけ、現代のLLM chatbot / generative AIの台頭に期待と不安を抱いている人が多いということの裏返しなのでしょう。既に色々コメントが出ているけど、我…

データ分析部門にビジネス上のレゾンデートルを与えるということ

3月にばんくしさんとイベントでご一緒したり個人的に話をする機会*1があったんですが、その際に何度も話題にされていたのが「エンジニア部門やAI部門にビジネス上のレゾンデートル(存在意義)をどう与えるか」というテーマでした。これについては実際にご本…

2023年版:実務データ分析を手掛けるデータサイエンティスト向け推薦書籍リスト(初級6冊+中級8冊+テーマ別15冊)

(Image by wal_172619 from Pixabay)去年で恒例の推薦書籍リストの更新は一旦終了したつもりだったんですが、記事を公開して以降に「これは新たにリスト入りさせないわけにはいかない!」という書籍が幾つも現れる事態になりましたので、前言撤回して今年も…

K-meansのクラスタ数を決めるのにエルボー法を使うのはやめよう、という論文

クラスタリングに用いられるK-meansのクラスタ数決定方法については長く議論されてきた歴史があり、このブログでも以前ちょろっと取り上げたことがあります。で、Twitterを眺めていたらタイムラインに面白い論文が流れてきました。それがこちらです。タイト…