先日、Quora日本語版でこんなやり取りがありました。基本的にはここで述べた通りの話なのですが、折角なのでブログの方でも記事としてちょっとまとめておこうと思います。題して「何故データサイエンティストになりたかったら、きちんと体系立てて学ばなけれ…
これはただの備忘録です。既知の話題ばかりが並べられているので、特に新鮮味のない内容である点予めご容赦ください。クラスタリング手法として広く知られるK-meansは、その簡便さから非常に広汎に使われていますが、一方で「クラスタ数を恣意的に決め打ちせ…
元はと言えばアホなエイプリルフールネタを作るために勉強し始めたことなのですが、折角だしということで毎日15時過ぎにやっている「本日の東京都のCOVID-19陽性報告数を踏まえた感染拡大状況把握のためのフィッティング」ネタをRパッケージにまとめて簡単に…
ここしばらく機械学習を使う仕事が少なかったので近年のNNの進歩はあまりキャッチアップしていなかったのですが、最近になって自分が守備範囲とする広告・マーケティング領域でも様々な種類のデータにNNを適用して従来になかったタイプのインサイトやアウト…
2年ぐらい前に必要があって生TensorFlowとTensorFlow-Hubによる様々なモデルやフレームワーク並びに事前学習済みモデルの実装を試していたのですが、TF2の浸透に伴いそれらの多くの仕様が変更になっており、中には回らなくなっていたコードもあったので、そ…
(Image by Dirk Wouters from Pixabay)この記事は毎年恒例のスキル要件記事の2021年版です。昨年版は以下のリンクからご覧ください。今回は、試験的に「データアーキテクト」についても触れています(詳細は後述)。残り2つの職種については基本的な内容はそ…
しばらく前にQuoraにこんなアンサーを書いたことを思い出したので、ついでにリブログ記事として転載の上加筆修正したものを用意してみました。僕にしては珍しくコッテコテの頻度主義的な話題である上に、「p値なんか使うのはやめてしまえ」という記事を以前…
(Image by Pexels from Pixabay)今年も恒例の推薦書籍リストの季節がやって参りました。……なのですが、昨年はCOVID-19の影響で*1データ分析業界及び隣接分野の新刊書を読む機会が減ってしまいましたので、例年に比べてラインナップの変更をほとんど検討しな…
旧知のシバタアキラさん*1が、こんなインタビュー記事に登場されていて話題を呼んでいるのを拝見しました。日本の第一次データサイエンティスト(DS)ブームの最初期から一貫してDSとして活動し、それ以前はポスドク研究者だったという、僕個人にとってはあま…
先日ですが、旧知の*1Grahamianさんのこんなツイートが話題になっていました。データ分析をするときシンプルに重要なことは「生のデータを眺める」と「データの分布をグラフにする」ことなんじゃないかと思うんですよね。すぐにクロスとかファネルとかコホー…
これは年末恒例のポエムです。故に皆様にとって役に立ったりあまつさえ学術・技術的に価値ある内容などは何ひとつございませんので、予めご了承ください。
AI・データ分析プロジェクトのすべて[ビジネス力×技術力=価値創出]作者:大城 信晃(監修・著者),マスクド・アナライズ,伊藤 徹郎,小西 哲平,西原 成輝,油井 志郎,株式会社ししまろ発売日: 2020/12/21メディア: 単行本(ソフトカバー)旧知どころか僕が7年前に…
ウェブ最適化ではじめる機械学習 ―A/Bテスト、メタヒューリスティクス、バンディットアルゴリズムからベイズ最適化まで作者:飯塚 修平発売日: 2020/11/19メディア: 単行本(ソフトカバー)こちらの書籍を著者の飯塚修平さんからご恵贈いただきました*1。テー…
「新型コロナウイルス感染症における治療の進展(令和2年10月29日に開催された第13回新型コロナウイルス感染症対策分科会事務局提出資料を基に内閣官房・内閣府作成)」という資料が世間で物議を醸しているようです。ただ、これを見ていて僕が個人的に気にな…
ワークマンは 商品を変えずに売り方を変えただけで なぜ2倍売れたのか作者:酒井大輔発売日: 2020/06/25メディア: Kindle版先日までこちらの書籍を読んでいました。ここ数年「ワークマンのすごいデータ活用」としてそのデータ活用事例が大いにクローズアップ…
元々Quora英語版で回答を書いた話題なのですが、「データサイエンティストの典型的なワークフロー」というのは当たり前の話題のようでいて意外と難しいトピックです。それこそ例えば巷の営業やエンジニアの人々に向かって「あなたの『職種』の典型的なワーク…
これまで、RとPythonは両方使える人が少なくないながらも開発陣やコミュニティの思想が違うせいもあってか、「Rは統計学向け」「Pythonは機械学習向け」的な住み分けが年々進み、特に機械学習関連の重要なフレームワーク・ライブラリ類はPython向けのみがリ…
最近こんな記事が出ていたようですが、僕にとっては既視感満載の話題でした。何故かというと、実は現職に来る以前に既にここで書かれている面接方法を実務担当者面接の責任者として実践していたからです。ちなみにその方法は2013年ぐらい当時のテック系メデ…
この記事の前段として、まず事前に昨年書いた機械学習モデルの解釈性についての記事をご覧ください。僕が知る限り、機械学習実践のデファクトスタンダードたるPython側ではLIMEやSHAPといった解釈手法については既に良く知られたOSS実装が出回っており、相応…
先日Quora日本語版でこんな回答を書いたのですが、ついでなので少し文脈情報を付け足してブログの方に再録することにしました。理由は単純で、このブログでディープラーニングの歴史についてまとめた記事を今まで書いてきたことがなく、そしてブログ記事にし…
旧知の友人でもある、アラヤ創業者・社長の金井さん*1が興味深い記事を書かれて評判になっているようです。その内容はズバリ「AIブーム終焉」。AIブームが終焉すれば一種の「連れ高」として再燃していたデータサイエンス・データサイエンティスト(DS)ブーム…
先に結論から書いておきます。今のDSワナビーたちのやっていることは、「これから冬のマッターホルンに登ろうというのにTシャツ短パンにビーチサンダルでやってきて『公園のボルダリング用の壁で3日間壁登りの練習やってきたから余裕っしょ、真冬の真っ白な…
(Image by Pixabay)最近になって、こんな素晴らしい資料が公開されていたことを知りました。 この資料自体は著者のMoe Uchiikeさんが東大での講義に用いられたものだとのことですが、その内容の汎用性の高さから「これは全ての機械学習や統計学を実務で用い…
(Image by Pixabay)こんな記事が、しばらく前に我らが盟主タカヤナギ=サンによって言及されていました。データサイエンティストになる魅力がなくなってきた理由を4つの理由(ジュニアのポジションが減っている、アナリスト職種で良い、データサイエンスを…
先日、こんな素晴らしい記事を読みました。 データ分析屋としてキャリアを積んでいる私にとってAgileの考え方はとても腑に落ちやすいものだった。そもそも、データ分析自体、繰り返しの検証をするものなのだ。 (太字原文ママ) 僕自身はソフトウェアエンジ…
(Image by Pixabay)のっけから不穏なタイトルで恐縮ですが、個人的に新型コロナウイルスの感染拡大初期の頃から懸念していた事態が徐々に現実になる流れが見え隠れしており、自分自身の警戒も込めて記事にしてみました。関連資料の誤読・理解不足・認識の誤…
先日書いたこの記事ですが、「トイデータとは言え乱数シードを一つに決めて発生させたランダムウォークに対して実験をしているので、乱数シードを複数通りに変えてみたら結果は変わってくる(再現しない)のではないか?」という指摘を何人かの友人知人から…
COVID-19が世界中に感染拡大し、日本含め多くの国で外出や集会の制限(自粛)措置が取られて久しい昨今ですが、これに伴って多くのところでCOVID-19に関連したオープンデータが公開されるようになっており、データ分析を生業とする人間が実データを扱う良い…
追記再現性をチェックする実験を後日実施しています。併せてお読みください。 以前こんな記事を書きました。 この辺の話はとっくの昔に常識になっていると思っていたのですが、昨今様々な「モデル」が提唱されて公の場で喧伝されることが増えてきており、そ…
最近思い出したように趣味の自作インド料理の話題を各所で披露することが多いのですが、完全に趣味が高じた結果としてAIというか機械学習とインド料理を掛け合わせたら面白いことが出来るのではないか?と思い、ついにこの度本まで出すことになりました(笑…