渋谷駅前で働くデータサイエンティストのブログ

元祖「六本木で働くデータサイエンティスト」です / 道玄坂→銀座→東京→六本木→渋谷駅前

ビジネス

「見せかけの回帰」の復習

先日のことですが、Querie.meでこんな質疑がありました。これは非常にご尤もなご意見であり、実際この問題提起に近いシチュエーションを見かけたことは五本の指では数え切れないくらいあります。ということで、今回の記事では元々の問題意識ともいえる「見せ…

AIや機械学習が持て囃されて、統計分析やデータ可視化がいまいち主流になれない理由

先日のことですが、こんなことを放言したら思いの外伸びてしまいました。データ可視化は一時期物凄く流行った割に今はパッとしない印象があるんだけど、それは結局のところデータ可視化が「見る人に『考えさせる』仕組み」だからだと思う。現実の世の中では…

実務において回帰分析を行うに当たっての注意点を改めて挙げてみる

先日のことですが、以下のニュースが統計的学習モデル界隈で話題になっていました。肝心の箇所が会員限定コンテンツなので簡潔にまとめると、従来モデルよりも説明変数に入れる海域の数を増やした上で、Lasso(L1正則化)回帰で多重共線性を抑えつつ汎化性能…

機械学習を使うデータサイエンスの仕事に比して、統計学を使うデータサイエンスの仕事が産業界に少ない理由

近年のデータサイエンティスト界隈では、僕が以前スキル要件記事でも提唱した通りの「ソフトウェアエンジニアの延長としての機械学習エンジニア」(機械学習メイン)と「アナリストの延長としてのデータサイエンティスト」(統計学メイン)とにキャリアもポ…

過学習(過剰適合)のはなし

すっかりおじさんになってしまった身としては近年の日本のミュージックシーンに極めて疎くなって久しいのですが、最近になってAdoさん*1の楽曲に『過学習』というタイトルのものがあるということを知ったのでした。一体どこで「過学習」なんてマニアックなテ…

ヒトだからこそ価値を出せる余地は、AIやデータサイエンスの「外側」の本質への関わり方にある

恒例の年末振り返り記事ですが、もうタイトルが示す通りです。例年通りであれば淡々と1年間の業界動向や個人的な学び、はたまたちょっとした私事などを綴るのですが、今年はたまたま良いお題がやってきたのでまず最初にその話を書こうと思います。

「仮説ドリブン」という名の甘い罠

今回の記事では、ちょっと感覚的でふわっとした話をしようと思います。それは「『仮説ドリブン』という考え方には往々にして落とし穴があるのではないか?」という問題提起です。 そもそも、「仮説ドリブン」(仮説駆動型:hypothesis-driven)というアプロ…

データセットの本質的な性質を踏まえないデータ分析には、大抵何の意味もない

前回のブログ記事は、論文紹介という地味なテーマだったにしてはだいぶ話題を呼んだ*1ようで、個人的にはちょっと意外な感があったのでした。確かに、今をときめくTransformerにも苦手なものがあるという指摘は、NN一強の現代にあってはセンセーショナルなも…

ビジネスにサイエンスを持ち込むということ

先日、『しっかり学ぶ数理最適化 モデルからアルゴリズムまで (KS情報科学専門書)』の梅谷先生がこんなポスト(ツイート)をされているのを拝見したのでした*1。個人的には「学問的なものでビジネスのボトルネックを解消する」や「学問的なものでビジネス…

MMM (Media/Marketing Mix Modeling)を回すなら、まずGeorge E. P. Boxの格言を思い出そう

「最後の統計学界の大御所」の一人で、2013年に亡くなったGeorge E. P. Box*1が残した格言 "All models are wrong; but some are useful"(全てのモデルは間違っている、だが中には役立つものもある)ですが、このブログでは過去に何度も紹介しているのでお…

10年経ってもついに消えずに残った、データサイエンティストという職業

このブログでも何度か引用しているこちらの記事で、「データサイエンティストという職業は10年以内に消える」という趣旨の議論がされていたのがちょうど10年前の2013年でした。ちなみにこの記事はついているブックマーク数に比して当時は結構注目を集めたと…

マーケティングデータ分析で成果を挙げるには「統計分析(MMMなど)+A/Bテスト」のコンビネーションが有用

既に記事タイトルが雄弁に物語っていますが、「マーケティング分野におけるデータ分析でいかにして成果を挙げるか」というのはある意味永遠の課題であると言えると思います。誇張でも何でもなく、この地球上の全てのマーケティングに関わるデータ分析組織で…

LLM chatbotが人類にもたらすのは、絶望なのか希望なのか

ちょっと前に以下のようなことを放言したら、思いの外反響が多くてちょっとびっくりしたのでした。それだけ、現代のLLM chatbot / generative AIの台頭に期待と不安を抱いている人が多いということの裏返しなのでしょう。既に色々コメントが出ているけど、我…

データ分析部門にビジネス上のレゾンデートルを与えるということ

3月にばんくしさんとイベントでご一緒したり個人的に話をする機会*1があったんですが、その際に何度も話題にされていたのが「エンジニア部門やAI部門にビジネス上のレゾンデートル(存在意義)をどう与えるか」というテーマでした。これについては実際にご本…

「データ分析の民主化」の在り方を、「社員全員Excel経営」が「社員全員データサイエンス経営」へと進化していった事例に見る

以前こんな記事を書いたことがあります。「社員全員Excel経営」で名高い、ワークマン社のサクセスストーリーを論評したものです。2012年にCIOに就任した土屋哲雄常務のリーダーシップのもと、取引データの完全電子化を皮切りに「全社員がExcelを使いこなして…

データサイエンティストという職業の10年間の変遷を振り返る

(Image by Gordon Johnson from Pixabay)TL;DR 今年の6月に僕自身がデータサイエンティストに転じて10年という節目の年を迎え、10月でDavenportの「データサイエンティストは21世紀で最もセクシーな職業である」HBR総説から10周年になるのを機に、この10年間…

データサイエンティストは何を勉強すべきか:「教養」と「必須」と「差別化」と

(Image by Wokandapix from Pixabay)個人的な観測範囲での話ですが、データサイエンティストという職業は「21世紀で最もセクシーな職業」として刹那的な注目を集めた第一次ブーム、人工知能ブームに煽られて火がついた第二次ブーム、そして「未経験から3ヶ月…

依然として高まり続ける「データサイエンティスト」への関心と、それを追う「データエンジニア」と

今回の記事はいつものようにネタが見つからなくて困ったので窮余の一策としての与太話です。話題はこのブログで時々やっている「データサイエンティスト&関連職に関するGoogle Trendsを用いた意識調査」です。 ちなみに、某協会が学生向けのアンケートで意…

データサイエンティスト(及び他のデータ関連職)のスキル要件(2022年版)

(Image by mohamed_hassan from Pixabay)この記事は毎年恒例のスキル要件記事の2022年版です。昨年版は以下のリンクからご覧ください。最初に正直に書いておくと、スキル要件自体は昨年版までとほぼ一緒で、大きなアップデートはありません。今回はまず最初…

犬は狼にはなれないが、狼は犬にもなれる

(Image by qimono from Pixabay)年月が過ぎるのは早いもので、2021年もあっという間にわずかな日数を残すのみとなってしまいました。ということで、恒例の1年の振り返りとともにちょっとした年末の気付きをポエムにまとめてみようと思います。

「実務者としてのデータサイエンティスト」になるということ

(Image by katielwhite91 from Pixabay)先日のことですが、大変に面白い記事を読みました。この記事では「データサイエンティスト職のインターンに応募してくる若いエンジニアや学生向け」の話題として語られていますが、全体として読むとそもそも論としての…

何故「データ『サイエンティスト』」と呼ばれるのか?という問いへの端的な答え

第一次データサイエンティスト・ブームから8年以上が経つわけですが、結構不思議なのが今でも「何故データ『サイエンティスト』という名前なのか?彼らは研究者ではないのだからおかしい」という議論が定期的に沸き起こる点です。 その理由は色々ありそうで…

「あえて精度勝負をしない機械学習」という選択肢

少し前のことですが、こんな話題がありました。自分がこれまで現職で手がけた機械学習ソリューションでは1. そもそも「予測」ではなく「説明(解釈)」をアウトプットにする2. クラス分類確率の高いものだけアウトプットし、低いものは「未定」扱いにして捨…

データドリブンの「文化」を組織に定着させる方法とは

(Image by Gerd Altmann from Pixabay)ハーバード・ビジネス・レビュー本誌に昨年3月に掲載された大御所ダベンポートの記事が、昨年末に日本語版の方に翻訳されて出ていました。今年初めに目は通していたのですが、ちょうどネタ切れで記事に困っていたので昨…

データサイエンティストにとっては「技術」も「課題解決」も等しく重要

旧知のシバタアキラさん*1が、こんなインタビュー記事に登場されていて話題を呼んでいるのを拝見しました。日本の第一次データサイエンティスト(DS)ブームの最初期から一貫してDSとして活動し、それ以前はポスドク研究者だったという、僕個人にとってはあま…

『AI・データ分析プロジェクトのすべて』は駆け出しからベテランまで全てのデータ分析者が読むべき仕事術大全

AI・データ分析プロジェクトのすべて[ビジネス力×技術力=価値創出]作者:大城 信晃(監修・著者),マスクド・アナライズ,伊藤 徹郎,小西 哲平,西原 成輝,油井 志郎,株式会社ししまろ発売日: 2020/12/21メディア: 単行本(ソフトカバー)旧知どころか僕が7年前に…

実験科学の考え方を転じて「ビジネスサイエンス」にする

ワークマンは 商品を変えずに売り方を変えただけで なぜ2倍売れたのか作者:酒井大輔発売日: 2020/06/25メディア: Kindle版先日までこちらの書籍を読んでいました。ここ数年「ワークマンのすごいデータ活用」としてそのデータ活用事例が大いにクローズアップ…

データサイエンス実務の典型的なワークフローを考える

元々Quora英語版で回答を書いた話題なのですが、「データサイエンティストの典型的なワークフロー」というのは当たり前の話題のようでいて意外と難しいトピックです。それこそ例えば巷の営業やエンジニアの人々に向かって「あなたの『職種』の典型的なワーク…

データサイエンティストの「真の実力」を測るための効果的な面接方法

最近こんな記事が出ていたようですが、僕にとっては既視感満載の話題でした。何故かというと、実は現職に来る以前に既にここで書かれている面接方法を実務担当者面接の責任者として実践していたからです。ちなみにその方法は2013年ぐらい当時のテック系メデ…

DS/AIブームは「ソフトランディング」できるか

旧知の友人でもある、アラヤ創業者・社長の金井さん*1が興味深い記事を書かれて評判になっているようです。その内容はズバリ「AIブーム終焉」。AIブームが終焉すれば一種の「連れ高」として再燃していたデータサイエンス・データサイエンティスト(DS)ブーム…