Kaggleはすっかりただの野次馬の一人になって久しいんですが、しばらく前に行われたPetFinder.my - Pawpularity Contestというコンペで優勝者がSVR(サポートベクター回帰)を使ったことが話題になっていたというのを聞いて、NN全盛のこのご時世に意外だなと…
(Image by MasterTux from Pixabay)あまりこういう私事はブログでは書いてこなかったのですが、今後の備忘録も兼ねて記事として書き留めておこうと思います。Twitterなどでは既に書いている話ですが、タイミング悪く実家の親父が危篤になった時期に並行して…
今回の記事はいつものようにネタが見つからなくて困ったので窮余の一策としての与太話です。話題はこのブログで時々やっている「データサイエンティスト&関連職に関するGoogle Trendsを用いた意識調査」です。 ちなみに、某協会が学生向けのアンケートで意…
近年様々な議論もあるようですが、依然として「統計的仮説検定」を初めとする統計分析においては「p そこで、そんな人々のためになるようなハウツー本的な書籍をこの度上梓しました。題して『今日からはじめる達人p値ハッキング』ということで、p-hacking及…
計量経済学 ミクロデータ分析へのいざない作者:末石 直也日本評論社Amazonデータ分析業界の友人から「読んでみたら物凄く良かった」と勧められて買ったのが、こちらの一冊。同名の書籍は沢山あるので、ここでは著者の末石先生のお名前を取って「末石本」と呼…
少し前の話ですが、現在COVID-19の感染が拡大している地域で実施される「蔓延防止等重点措置(まん防)」に効果があったかどうかについて、計量経済学的な観点に基づいた政策評価レポートが公開されて話題になっていました。 追記本日午前中に元のレポート自…
(Image by mohamed_hassan from Pixabay)この記事は毎年恒例のスキル要件記事の2022年版です。昨年版は以下のリンクからご覧ください。最初に正直に書いておくと、スキル要件自体は昨年版までとほぼ一緒で、大きなアップデートはありません。今回はまず最初…
(Image by ElasticComputeFarm from Pixabay)今年も恒例の推薦書籍リストの季節がやって参りました。……なのですが、相変わらず続くCOVID-19の影響*1でデータ分析業界及び隣接分野の新刊書を読む機会が減ったままにつき、例年とほぼ同じラインナップになって…
前回の記事でも触れましたが、ここ最近いわゆる需要予測系のマーケティングモデル(特にMedia Mix Modeling: MMM)を手掛けることが増えています。この手の統計モデルは経済学で言うところの「実証分析」に当たると思われ、一般には「予測」よりも「説明」に…
(Image by Mediamodifier from Pixabay)実はもう1年以上前のことなのですが、LinkedInで以下の記事を見かけて「おー、ようやくこういう意見が公の場に出てくるようになったんだな」と思ったのでした。原文は英語ですが、短い文章なので英語が不得手な方でも…
(Image by qimono from Pixabay)年月が過ぎるのは早いもので、2021年もあっという間にわずかな日数を残すのみとなってしまいました。ということで、恒例の1年の振り返りとともにちょっとした年末の気付きをポエムにまとめてみようと思います。
ディープラーニング 学習する機械 ヤン・ルカン、人工知能を語る (KS科学一般書)作者:ヤン・ルカン講談社Amazon11月に入って勤務先のオフィスが本格的に再開されてから、久しぶりに会社のメールルームを覗きに行ったところ、届いていた(つまりご恵贈いた…
(Image by katielwhite91 from Pixabay)先日のことですが、大変に面白い記事を読みました。この記事では「データサイエンティスト職のインターンに応募してくる若いエンジニアや学生向け」の話題として語られていますが、全体として読むとそもそも論としての…
「誤差」「大間違い」「ウソ」を見分ける統計学作者:デイヴィッド・サルツブルグ共立出版Amazonしばらく前に共立出版様からご恵贈いただいたのがこちらの『「誤差」「大間違い」「ウソ」を見分ける統計学』。お気付きの方もいらっしゃるかもしれませんが、原…
多重共線性(multicolinearity)の代表的指標として頻繁に用いられるVIF (Variance Inflation Factor)というと、Rでは普通に{car}とか{usdm}とかのパッケージに実装された関数があるのでそれらを利用すれば良いのですが、ちょっと訳あって自分で実装してみるこ…
第一次データサイエンティスト・ブームから8年以上が経つわけですが、結構不思議なのが今でも「何故データ『サイエンティスト』という名前なのか?彼らは研究者ではないのだからおかしい」という議論が定期的に沸き起こる点です。 その理由は色々ありそうで…
少し前のことですが、こんな話題がありました。自分がこれまで現職で手がけた機械学習ソリューションでは1. そもそも「予測」ではなく「説明(解釈)」をアウトプットにする2. クラス分類確率の高いものだけアウトプットし、低いものは「未定」扱いにして捨…
今月はモデルナワクチンの2回目接種*1やら仕事でも負荷の高い分析業務やら、はたまた執筆*2やらでネタ切れなのもあってあまりブログ記事を書けていなかったので、最近話題になった件について簡単に論じてみようかと思います。元ネタはこちらです。 これはイ…
(Image by Pexels from Pixabay)僕自身がデータサイエンティストという肩書きを与えられて働くようになった9年前から、一貫して問題意識を持ち続けてきたのが「データサイエンティストをどう育成すべきか」についてでした。その後、この9年の間に質の良し悪…
ふと思い立ってこんなアンケートを取ってみたのでした。頻度主義統計学における「95%信頼区間」の95%というのは、以下のどちらだと思いますか— TJO (@TJO_datasci) 2021年7月16日 結果は物の見事に真っ二つで、95%信頼区間の「95%」を「確率」だと認識してい…
回帰分析(新装版) (統計ライブラリー)作者:隆光, 佐和朝倉書店Amazonタイトルに「古典的名著」とうたっておきながら、実は米倉さんのツイートで紹介されるまで浅学にして全然存じ上げなかったんですが、いざ読んでみたらあまりにも素晴らしい内容だったので…
(Image by Gerd Altmann from Pixabay)ハーバード・ビジネス・レビュー本誌に昨年3月に掲載された大御所ダベンポートの記事が、昨年末に日本語版の方に翻訳されて出ていました。今年初めに目は通していたのですが、ちょうどネタ切れで記事に困っていたので昨…
この記事は、以前『統計学のセンス』を読んだ時から気になっていたことを思い出したので、単にRで試してみたという備忘録です。非劣性検定(等価検定)の話題は、本書の最後にある8.3節「非劣性の検証とは?」であくまでも付録扱いとして登場します。ここで…
しましま先生(@shima__shima)こと神嶌敏弘先生から、訳書『マスターアルゴリズム』をご恵贈いただきました。マスターアルゴリズム 世界を再構築する「究極の機械学習」作者:ペドロ・ドミンゴス講談社Amazon本書はビル・ゲイツが「AIを知るための本」と絶賛し…
先日、Quora日本語版でこんなやり取りがありました。基本的にはここで述べた通りの話なのですが、折角なのでブログの方でも記事としてちょっとまとめておこうと思います。題して「何故データサイエンティストになりたかったら、きちんと体系立てて学ばなけれ…
これはただの備忘録です。既知の話題ばかりが並べられているので、特に新鮮味のない内容である点予めご容赦ください。クラスタリング手法として広く知られるK-meansは、その簡便さから非常に広汎に使われていますが、一方で「クラスタ数を恣意的に決め打ちせ…
元はと言えばアホなエイプリルフールネタを作るために勉強し始めたことなのですが、折角だしということで毎日15時過ぎにやっている「本日の東京都のCOVID-19陽性報告数を踏まえた感染拡大状況把握のためのフィッティング」ネタをRパッケージにまとめて簡単に…
ここしばらく機械学習を使う仕事が少なかったので近年のNNの進歩はあまりキャッチアップしていなかったのですが、最近になって自分が守備範囲とする広告・マーケティング領域でも様々な種類のデータにNNを適用して従来になかったタイプのインサイトやアウト…
2年ぐらい前に必要があって生TensorFlowとTensorFlow-Hubによる様々なモデルやフレームワーク並びに事前学習済みモデルの実装を試していたのですが、TF2の浸透に伴いそれらの多くの仕様が変更になっており、中には回らなくなっていたコードもあったので、そ…
(Image by Dirk Wouters from Pixabay)この記事は毎年恒例のスキル要件記事の2021年版です。昨年版は以下のリンクからご覧ください。今回は、試験的に「データアーキテクト」についても触れています(詳細は後述)。残り2つの職種については基本的な内容はそ…