渋谷駅前で働くデータサイエンティストのブログ

元祖「六本木で働くデータサイエンティスト」です / 道玄坂→銀座→東京→六本木→渋谷駅前

データ分析

2026年版:生成AIでvibe codingの時代にこそお薦めしたい、データ分析を仕事にするなら読んでおくべき書籍リスト

今年も推薦書籍リスト記事の季節がやってまいりました。ということで、早速いってみようと思います。 昨年までとの差異ですが、まず陳腐化が極めて著しい定番テキストの一部をリストから除外しました。理由は簡単で、「そんなの生成AIに聞けばいくらでも教え…

データサイエンスは扱い方次第でscienceにもpoliticsにもなり得る

これまでの10年以上に渡って、僕個人としては「データサイエンスはscienceである」という信念を持って、このブログなり各種SNSなり様々なカンファレンス・セミナー・イベントなりで活動してきたつもりです。が、近年になって「どう見てもそれはデータサイエ…

深刻な不具合のあるデータ分析は、大抵の場合データも実装コードも見るまでもなくそれと分かってしまう

しばらく前に、こんなことを嘯いたら思いの外反応が伸びたのでした。「データも見られなければ統計的学習モデルのアルゴリズムも実装コードも見られない」状況で、そのデータ分析のどこにどんな不具合があるかを「分析結果だけを見る」ことで言い当てるのっ…

多重共線性のはなし

どうも昨年末にあちこちで多重共線性についての議論がなされていたようなんですが、些事にかまけていた僕はすっかりそのウェーブに乗り損ねてしまっていたのでした。そこで、今年最初の記事では遅ればせながらそのウェーブに乗る形で、また今までに学んだり…

自己回帰型モデルによる事前学習スキームの限界と、ビジネス実務の場で見える現実と

早いもので、2024年も恒例の年末回顧記事を書く時期になりました。ということで、今回は一年を通じて話題に事欠かなかった生成AIに関する最近の論争と、一方でBtoBのビジネスの現場で感じている現実とを綴ることで、今年の振り返りといたします。

ビジネス実務で「正しいデータ分析」を行うということ

一般に、ビジネス実務におけるデータ分析というと、経営者や各種ビジネス部門の責任者といったステークホルダーたちが「ビジネス上の意思決定のためのエビデンス」を得る目的で、往々にして社内外のデータ分析の専門家たちに依頼して実施させるものであるこ…

欠損値処理に関する備忘録

最近某所で話題になっていたのが「欠損値処理はどうやるべきか」というテーマ。これは太古の昔から「荒れるテーマ」として有名で、今回も大いに荒れていて傍観している側としては面白かったんですが(笑)、古老ともあろう身がただ面白がっているだけでは自…

AIや機械学習が持て囃されて、統計分析やデータ可視化がいまいち主流になれない理由

先日のことですが、こんなことを放言したら思いの外伸びてしまいました。データ可視化は一時期物凄く流行った割に今はパッとしない印象があるんだけど、それは結局のところデータ可視化が「見る人に『考えさせる』仕組み」だからだと思う。現実の世の中では…

ヒトだからこそ価値を出せる余地は、AIやデータサイエンスの「外側」の本質への関わり方にある

恒例の年末振り返り記事ですが、もうタイトルが示す通りです。例年通りであれば淡々と1年間の業界動向や個人的な学び、はたまたちょっとした私事などを綴るのですが、今年はたまたま良いお題がやってきたのでまず最初にその話を書こうと思います。

「仮説ドリブン」という名の甘い罠

今回の記事では、ちょっと感覚的でふわっとした話をしようと思います。それは「『仮説ドリブン』という考え方には往々にして落とし穴があるのではないか?」という問題提起です。 そもそも、「仮説ドリブン」(仮説駆動型:hypothesis-driven)というアプロ…

データセットの本質的な性質を踏まえないデータ分析には、大抵何の意味もない

前回のブログ記事は、論文紹介という地味なテーマだったにしてはだいぶ話題を呼んだ*1ようで、個人的にはちょっと意外な感があったのでした。確かに、今をときめくTransformerにも苦手なものがあるという指摘は、NN一強の現代にあってはセンセーショナルなも…

ビジネスにサイエンスを持ち込むということ

先日、『しっかり学ぶ数理最適化 モデルからアルゴリズムまで (KS情報科学専門書)』の梅谷先生がこんなポスト(ツイート)をされているのを拝見したのでした*1。個人的には「学問的なものでビジネスのボトルネックを解消する」や「学問的なものでビジネス…

マーケティングデータ分析で成果を挙げるには「統計分析(MMMなど)+A/Bテスト」のコンビネーションが有用

既に記事タイトルが雄弁に物語っていますが、「マーケティング分野におけるデータ分析でいかにして成果を挙げるか」というのはある意味永遠の課題であると言えると思います。誇張でも何でもなく、この地球上の全てのマーケティングに関わるデータ分析組織で…

データ分析部門にビジネス上のレゾンデートルを与えるということ

3月にばんくしさんとイベントでご一緒したり個人的に話をする機会*1があったんですが、その際に何度も話題にされていたのが「エンジニア部門やAI部門にビジネス上のレゾンデートル(存在意義)をどう与えるか」というテーマでした。これについては実際にご本…

難局を乗り越えた先に見えるもの

(Stable Diffusion 2.1でこの記事のタイトルをプロンプトとして与えて生成した画像)時が経つのは早いもので、あっという間に今年2022年も恒例の年末振り返り記事の時期が来てしまいました。ということで、例年通り何のオチも学びも技術的内容もない記事で…

「データ分析の民主化」の在り方を、「社員全員Excel経営」が「社員全員データサイエンス経営」へと進化していった事例に見る

以前こんな記事を書いたことがあります。「社員全員Excel経営」で名高い、ワークマン社のサクセスストーリーを論評したものです。2012年にCIOに就任した土屋哲雄常務のリーダーシップのもと、取引データの完全電子化を皮切りに「全社員がExcelを使いこなして…

新型コロナウイルス感染症の「真の」感染拡大状況を検索トレンドから何となく推測してみた

新型コロナウイルス感染症(COVID-19)のパンデミックに収まる気配が全く見られず、この記事を書いている2022年8月9日時点でも日本はオミクロン系統BA.5変異株を主体とする第七波に見舞われている有様です。東京でも毎日のように2万〜3万人という新規陽性者数…

蔓延防止等重点措置(まん防)の効果検証を「あえて」DID+TSclustによる時系列クラスタリング+CausalImpactでやってみた

少し前の話ですが、現在COVID-19の感染が拡大している地域で実施される「蔓延防止等重点措置(まん防)」に効果があったかどうかについて、計量経済学的な観点に基づいた政策評価レポートが公開されて話題になっていました。 追記本日午前中に元のレポート自…

生活者ターゲティングの時代は終わり、エコノメトリクスによるマーケティングが台頭する

(Image by Mediamodifier from Pixabay)実はもう1年以上前のことなのですが、LinkedInで以下の記事を見かけて「おー、ようやくこういう意見が公の場に出てくるようになったんだな」と思ったのでした。原文は英語ですが、短い文章なので英語が不得手な方でも…

犬は狼にはなれないが、狼は犬にもなれる

(Image by qimono from Pixabay)年月が過ぎるのは早いもので、2021年もあっという間にわずかな日数を残すのみとなってしまいました。ということで、恒例の1年の振り返りとともにちょっとした年末の気付きをポエムにまとめてみようと思います。

「あえて精度勝負をしない機械学習」という選択肢

少し前のことですが、こんな話題がありました。自分がこれまで現職で手がけた機械学習ソリューションでは1. そもそも「予測」ではなく「説明(解釈)」をアウトプットにする2. クラス分類確率の高いものだけアウトプットし、低いものは「未定」扱いにして捨…

シンプソンのパラドックスのはなし

今月はモデルナワクチンの2回目接種*1やら仕事でも負荷の高い分析業務やら、はたまた執筆*2やらでネタ切れなのもあってあまりブログ記事を書けていなかったので、最近話題になった件について簡単に論じてみようかと思います。元ネタはこちらです。 これはイ…

戦力になるレベルのデータサイエンティストを育成することの難しさ

(Image by Pexels from Pixabay)僕自身がデータサイエンティストという肩書きを与えられて働くようになった9年前から、一貫して問題意識を持ち続けてきたのが「データサイエンティストをどう育成すべきか」についてでした。その後、この9年の間に質の良し悪…

データドリブンの「文化」を組織に定着させる方法とは

(Image by Gerd Altmann from Pixabay)ハーバード・ビジネス・レビュー本誌に昨年3月に掲載された大御所ダベンポートの記事が、昨年末に日本語版の方に翻訳されて出ていました。今年初めに目は通していたのですが、ちょうどネタ切れで記事に困っていたので昨…

データサイエンティスト・機械学習エンジニア・データアーキテクトの定義とスキル要件(2021年版)

(Image by Dirk Wouters from Pixabay)この記事は毎年恒例のスキル要件記事の2021年版です。昨年版は以下のリンクからご覧ください。今回は、試験的に「データアーキテクト」についても触れています(詳細は後述)。残り2つの職種については基本的な内容はそ…

データサイエンティストにとっては「技術」も「課題解決」も等しく重要

旧知のシバタアキラさん*1が、こんなインタビュー記事に登場されていて話題を呼んでいるのを拝見しました。日本の第一次データサイエンティスト(DS)ブームの最初期から一貫してDSとして活動し、それ以前はポスドク研究者だったという、僕個人にとってはあま…

データ分析をする前に、まず生データを見てみよう

先日ですが、旧知の*1Grahamianさんのこんなツイートが話題になっていました。データ分析をするときシンプルに重要なことは「生のデータを眺める」と「データの分布をグラフにする」ことなんじゃないかと思うんですよね。すぐにクロスとかファネルとかコホー…

『AI・データ分析プロジェクトのすべて』は駆け出しからベテランまで全てのデータ分析者が読むべき仕事術大全

AI・データ分析プロジェクトのすべて[ビジネス力×技術力=価値創出]作者:大城 信晃(監修・著者),マスクド・アナライズ,伊藤 徹郎,小西 哲平,西原 成輝,油井 志郎,株式会社ししまろ発売日: 2020/12/21メディア: 単行本(ソフトカバー)旧知どころか僕が7年前に…

実験科学の考え方を転じて「ビジネスサイエンス」にする

ワークマンは 商品を変えずに売り方を変えただけで なぜ2倍売れたのか作者:酒井大輔発売日: 2020/06/25メディア: Kindle版先日までこちらの書籍を読んでいました。ここ数年「ワークマンのすごいデータ活用」としてそのデータ活用事例が大いにクローズアップ…

データサイエンス実務の典型的なワークフローを考える

元々Quora英語版で回答を書いた話題なのですが、「データサイエンティストの典型的なワークフロー」というのは当たり前の話題のようでいて意外と難しいトピックです。それこそ例えば巷の営業やエンジニアの人々に向かって「あなたの『職種』の典型的なワーク…