渋谷駅前で働くデータサイエンティストのブログ

元祖「六本木で働くデータサイエンティスト」です / 道玄坂→銀座→東京→六本木→渋谷駅前

データ分析

ヒトだからこそ価値を出せる余地は、AIやデータサイエンスの「外側」の本質への関わり方にある

恒例の年末振り返り記事ですが、もうタイトルが示す通りです。例年通りであれば淡々と1年間の業界動向や個人的な学び、はたまたちょっとした私事などを綴るのですが、今年はたまたま良いお題がやってきたのでまず最初にその話を書こうと思います。

「仮説ドリブン」という名の甘い罠

今回の記事では、ちょっと感覚的でふわっとした話をしようと思います。それは「『仮説ドリブン』という考え方には往々にして落とし穴があるのではないか?」という問題提起です。 そもそも、「仮説ドリブン」(仮説駆動型:hypothesis-driven)というアプロ…

データセットの本質的な性質を踏まえないデータ分析には、大抵何の意味もない

前回のブログ記事は、論文紹介という地味なテーマだったにしてはだいぶ話題を呼んだ*1ようで、個人的にはちょっと意外な感があったのでした。確かに、今をときめくTransformerにも苦手なものがあるという指摘は、NN一強の現代にあってはセンセーショナルなも…

ビジネスにサイエンスを持ち込むということ

先日、『しっかり学ぶ数理最適化 モデルからアルゴリズムまで (KS情報科学専門書)』の梅谷先生がこんなポスト(ツイート)をされているのを拝見したのでした*1。個人的には「学問的なものでビジネスのボトルネックを解消する」や「学問的なものでビジネス…

マーケティングデータ分析で成果を挙げるには「統計分析(MMMなど)+A/Bテスト」のコンビネーションが有用

既に記事タイトルが雄弁に物語っていますが、「マーケティング分野におけるデータ分析でいかにして成果を挙げるか」というのはある意味永遠の課題であると言えると思います。誇張でも何でもなく、この地球上の全てのマーケティングに関わるデータ分析組織で…

データ分析部門にビジネス上のレゾンデートルを与えるということ

3月にばんくしさんとイベントでご一緒したり個人的に話をする機会*1があったんですが、その際に何度も話題にされていたのが「エンジニア部門やAI部門にビジネス上のレゾンデートル(存在意義)をどう与えるか」というテーマでした。これについては実際にご本…

難局を乗り越えた先に見えるもの

(Stable Diffusion 2.1でこの記事のタイトルをプロンプトとして与えて生成した画像)時が経つのは早いもので、あっという間に今年2022年も恒例の年末振り返り記事の時期が来てしまいました。ということで、例年通り何のオチも学びも技術的内容もない記事で…

「データ分析の民主化」の在り方を、「社員全員Excel経営」が「社員全員データサイエンス経営」へと進化していった事例に見る

以前こんな記事を書いたことがあります。「社員全員Excel経営」で名高い、ワークマン社のサクセスストーリーを論評したものです。2012年にCIOに就任した土屋哲雄常務のリーダーシップのもと、取引データの完全電子化を皮切りに「全社員がExcelを使いこなして…

新型コロナウイルス感染症の「真の」感染拡大状況を検索トレンドから何となく推測してみた

新型コロナウイルス感染症(COVID-19)のパンデミックに収まる気配が全く見られず、この記事を書いている2022年8月9日時点でも日本はオミクロン系統BA.5変異株を主体とする第七波に見舞われている有様です。東京でも毎日のように2万〜3万人という新規陽性者数…

蔓延防止等重点措置(まん防)の効果検証を「あえて」DID+TSclustによる時系列クラスタリング+CausalImpactでやってみた

少し前の話ですが、現在COVID-19の感染が拡大している地域で実施される「蔓延防止等重点措置(まん防)」に効果があったかどうかについて、計量経済学的な観点に基づいた政策評価レポートが公開されて話題になっていました。 追記本日午前中に元のレポート自…

生活者ターゲティングの時代は終わり、エコノメトリクスによるマーケティングが台頭する

(Image by Mediamodifier from Pixabay)実はもう1年以上前のことなのですが、LinkedInで以下の記事を見かけて「おー、ようやくこういう意見が公の場に出てくるようになったんだな」と思ったのでした。原文は英語ですが、短い文章なので英語が不得手な方でも…

犬は狼にはなれないが、狼は犬にもなれる

(Image by qimono from Pixabay)年月が過ぎるのは早いもので、2021年もあっという間にわずかな日数を残すのみとなってしまいました。ということで、恒例の1年の振り返りとともにちょっとした年末の気付きをポエムにまとめてみようと思います。

「あえて精度勝負をしない機械学習」という選択肢

少し前のことですが、こんな話題がありました。自分がこれまで現職で手がけた機械学習ソリューションでは1. そもそも「予測」ではなく「説明(解釈)」をアウトプットにする2. クラス分類確率の高いものだけアウトプットし、低いものは「未定」扱いにして捨…

シンプソンのパラドックスのはなし

今月はモデルナワクチンの2回目接種*1やら仕事でも負荷の高い分析業務やら、はたまた執筆*2やらでネタ切れなのもあってあまりブログ記事を書けていなかったので、最近話題になった件について簡単に論じてみようかと思います。元ネタはこちらです。 これはイ…

戦力になるレベルのデータサイエンティストを育成することの難しさ

(Image by Pexels from Pixabay)僕自身がデータサイエンティストという肩書きを与えられて働くようになった9年前から、一貫して問題意識を持ち続けてきたのが「データサイエンティストをどう育成すべきか」についてでした。その後、この9年の間に質の良し悪…

データドリブンの「文化」を組織に定着させる方法とは

(Image by Gerd Altmann from Pixabay)ハーバード・ビジネス・レビュー本誌に昨年3月に掲載された大御所ダベンポートの記事が、昨年末に日本語版の方に翻訳されて出ていました。今年初めに目は通していたのですが、ちょうどネタ切れで記事に困っていたので昨…

データサイエンティスト・機械学習エンジニア・データアーキテクトの定義とスキル要件(2021年版)

(Image by Dirk Wouters from Pixabay)この記事は毎年恒例のスキル要件記事の2021年版です。昨年版は以下のリンクからご覧ください。今回は、試験的に「データアーキテクト」についても触れています(詳細は後述)。残り2つの職種については基本的な内容はそ…

データサイエンティストにとっては「技術」も「課題解決」も等しく重要

旧知のシバタアキラさん*1が、こんなインタビュー記事に登場されていて話題を呼んでいるのを拝見しました。日本の第一次データサイエンティスト(DS)ブームの最初期から一貫してDSとして活動し、それ以前はポスドク研究者だったという、僕個人にとってはあま…

データ分析をする前に、まず生データを見てみよう

先日ですが、旧知の*1Grahamianさんのこんなツイートが話題になっていました。データ分析をするときシンプルに重要なことは「生のデータを眺める」と「データの分布をグラフにする」ことなんじゃないかと思うんですよね。すぐにクロスとかファネルとかコホー…

『AI・データ分析プロジェクトのすべて』は駆け出しからベテランまで全てのデータ分析者が読むべき仕事術大全

AI・データ分析プロジェクトのすべて[ビジネス力×技術力=価値創出]作者:大城 信晃(監修・著者),マスクド・アナライズ,伊藤 徹郎,小西 哲平,西原 成輝,油井 志郎,株式会社ししまろ発売日: 2020/12/21メディア: 単行本(ソフトカバー)旧知どころか僕が7年前に…

実験科学の考え方を転じて「ビジネスサイエンス」にする

ワークマンは 商品を変えずに売り方を変えただけで なぜ2倍売れたのか作者:酒井大輔発売日: 2020/06/25メディア: Kindle版先日までこちらの書籍を読んでいました。ここ数年「ワークマンのすごいデータ活用」としてそのデータ活用事例が大いにクローズアップ…

データサイエンス実務の典型的なワークフローを考える

元々Quora英語版で回答を書いた話題なのですが、「データサイエンティストの典型的なワークフロー」というのは当たり前の話題のようでいて意外と難しいトピックです。それこそ例えば巷の営業やエンジニアの人々に向かって「あなたの『職種』の典型的なワーク…

DS/AIブームは「ソフトランディング」できるか

旧知の友人でもある、アラヤ創業者・社長の金井さん*1が興味深い記事を書かれて評判になっているようです。その内容はズバリ「AIブーム終焉」。AIブームが終焉すれば一種の「連れ高」として再燃していたデータサイエンス・データサイエンティスト(DS)ブーム…

機械学習や統計学を「社会実装」するということ

(Image by Pixabay)最近になって、こんな素晴らしい資料が公開されていたことを知りました。 この資料自体は著者のMoe Uchiikeさんが東大での講義に用いられたものだとのことですが、その内容の汎用性の高さから「これは全ての機械学習や統計学を実務で用い…

真の正解が分からない中で最適解を求めて探索と手戻りを繰り返すことこそが、データ分析の本質である

先日、こんな素晴らしい記事を読みました。 データ分析屋としてキャリアを積んでいる私にとってAgileの考え方はとても腑に落ちやすいものだった。そもそも、データ分析自体、繰り返しの検証をするものなのだ。 (太字原文ママ) 僕自身はソフトウェアエンジ…

新型コロナウイルス不況でデータサイエンティスト・機械学習エンジニアは失業するのか

(Image by Pixabay)のっけから不穏なタイトルで恐縮ですが、個人的に新型コロナウイルスの感染拡大初期の頃から懸念していた事態が徐々に現実になる流れが見え隠れしており、自分自身の警戒も込めて記事にしてみました。関連資料の誤読・理解不足・認識の誤…

2020年版:実務の現場で求められるデータサイエンティスト・機械学習エンジニアのスキル要件

(Image by Pixabay)この記事は、昨年の同様のスキル要件記事のアップデートです。 正直言って昨年バージョンとの差分は殆どないのですが、一応この1年間の業界の進歩を踏まえて僅かながらアップデートしてありますので、ベースとなっているスキル要件につい…

『仕事の説明書』はこれから仕事で独り立ちしたい若い人たちにこそ読んで欲しい「仕事というゲームの攻略本」

以前SQL黒魔術本をご恵贈いただいた旧友の田宮さんから、ちょっと異色な本をご恵贈いただきました。その名も『仕事の説明書』。副題に「あたなは今どんなゲームをしているのか?」とあるように、世の中の仕事をある種の「ゲーム」とみなして、これをどう攻略…

「データ分析をやるならRとPythonのどちらを使うべき?」への個人的な回答

(Background image by Pixabay)最近また「データ分析をやるならRとPythonのどちらでやるべきか」という話題が出ていたようです。 言語仕様やその他の使い勝手という点では、大体この記事に書いてあることを参考にすれば良いと思います。その上で、人には当然…

機械学習のビジネス上の価値を「効果測定」して「数値評価」する方法

(Image by Pixabay)気が付けば、日本における第一次データサイエンティストブームから6年、人工知能ブーム開始から3年が経ったようです。意外と言っては何ですが、これまでのところ人工知能ブームも、そしてそれにブーストされた形で起こった第二次データサ…