機械学習
今年このブログでは、何度かTransformerなど自己回帰モデルベースのLLM/生成AIには「帰納的推論は出来ても演繹的推論が出来ていないが故の問題がある」という議論を扱ってきました。 例えば7月の記事では「世間で広く知られている複雑な論理パズルと、それと…
先日の記事で「CoTを用いて『推論』する生成AI」の「推論」能力の限界について、論文2点を挙げて論じたところ思いの外反響が大きくてちょっとびっくりしたのでした。なのですが、最近になって同じテーマに対して「厳密に条件統制されたデータセットを用いてL…
今回のテーマは以前からずっと言われ続けている話題なので特に目新しくも何ともないのですが、たまたま近い時期に2本の似通った内容の論文がarXivに出たので、まとめてダイジェスト的に紹介しようと思います。以下がそれらの論文です。1本目はApple、2本目は…
しばらく前に、こんなことを嘯いたら思いの外反応が伸びたのでした。「データも見られなければ統計的学習モデルのアルゴリズムも実装コードも見られない」状況で、そのデータ分析のどこにどんな不具合があるかを「分析結果だけを見る」ことで言い当てるのっ…
気付いたらこの企画をやるようになってもう12年も経つわけですが、今年も懲りずに推薦書籍リストを書いてみようかと思います。 昨年との差異ですが、まず「ホットトピックス」枠を削りました。理由は単純で、データサイエンス分野も昨今の多種多様な分野に細…
一般に、ビジネス実務におけるデータ分析というと、経営者や各種ビジネス部門の責任者といったステークホルダーたちが「ビジネス上の意思決定のためのエビデンス」を得る目的で、往々にして社内外のデータ分析の専門家たちに依頼して実施させるものであるこ…
X (Twitter)を眺めていたら、面白そうな論文が流れてきました。それがこちらです。実際に流れてきたのはこちらの紹介記事なんですが、その要約を読んだ限りでもなかなかに興味深い現象であるように思われます。ということで、何番煎じかもはや分かりませんが…
最近某所で話題になっていたのが「欠損値処理はどうやるべきか」というテーマ。これは太古の昔から「荒れるテーマ」として有名で、今回も大いに荒れていて傍観している側としては面白かったんですが(笑)、古老ともあろう身がただ面白がっているだけでは自…
先日のことですが、こんなことを放言したら思いの外伸びてしまいました。データ可視化は一時期物凄く流行った割に今はパッとしない印象があるんだけど、それは結局のところデータ可視化が「見る人に『考えさせる』仕組み」だからだと思う。現実の世の中では…
すっかりおじさんになってしまった身としては近年の日本のミュージックシーンに極めて疎くなって久しいのですが、最近になってAdoさん*1の楽曲に『過学習』というタイトルのものがあるということを知ったのでした。一体どこで「過学習」なんてマニアックなテ…
因果推論: 基礎から機械学習・時系列解析・因果探索を用いた意思決定のアプローチ作者:金本 拓オーム社Amazon著者の金本さんからご指名でご恵贈いただいたのが、こちらの『因果推論 ―基礎から機械学習・時系列解析・因果探索を用いた意思決定のアプローチ―』…
毎年四の五の言いながら書いている推薦書籍リスト記事ですが、何だかんだで今年も書くことにしました。なお昨年度版の記事を上にリンクしておきましたので、以前のバージョンを読まれたい方はそちらをお読みください。 今回のバージョンでは、趣向をちょっと…
最近の話ですが、以下のようなニュースが話題になっているのを見かけました。 データサイエンス系の学部は文理融合の学びを掲げ、文系の受験生も集めるため、受験科目に「数学」を含まない入試方式を設ける大学も少なくない。河合塾によると、私立大のデータ…
前回のブログ記事は、論文紹介という地味なテーマだったにしてはだいぶ話題を呼んだ*1ようで、個人的にはちょっと意外な感があったのでした。確かに、今をときめくTransformerにも苦手なものがあるという指摘は、NN一強の現代にあってはセンセーショナルなも…
先日、こちらのポストをお見かけしました。AI技術開発部の高橋が社内勉強会の資料「時系列予測にTransformerを使うのは有効か?」を公開しました。論文Are Transformers Effective for Time Series Forecastingの紹介を中心に、時系列予測について解説してい…
先日、ふとしたきっかけでしましま先生*1がこちらの論文について触れられているのを見かけたのでした。これは推薦システム分野におけるNN研究の再現性について検証した2019年の論文で、近年のトップ会議*2に採択されたNN手法18個に対して再現を試みたところ…
(『IT Text 自然語処理の基礎』より)3ヶ月ほど前に空前のLLMブームについて概観する記事を書きましたが、それ以降も世間のLLMに対する狂騒ぶりは収まるどころかますます拍車がかかるという有様で、あまつさえ僕自身の仕事における日常業務にもじわじわと影…
(Image by wal_172619 from Pixabay)去年で恒例の推薦書籍リストの更新は一旦終了したつもりだったんですが、記事を公開して以降に「これは新たにリスト入りさせないわけにはいかない!」という書籍が幾つも現れる事態になりましたので、前言撤回して今年も…
クラスタリングに用いられるK-meansのクラスタ数決定方法については長く議論されてきた歴史があり、このブログでも以前ちょろっと取り上げたことがあります。で、Twitterを眺めていたらタイムラインに面白い論文が流れてきました。それがこちらです。タイト…
(Image by Wokandapix from Pixabay)個人的な観測範囲での話ですが、データサイエンティストという職業は「21世紀で最もセクシーな職業」として刹那的な注目を集めた第一次ブーム、人工知能ブームに煽られて火がついた第二次ブーム、そして「未経験から3ヶ月…
何だか不均衡データ補正の話題は毎回tmaeharaさんからネタを頂戴している気がしますが(笑)、今回も興味深いネタを拝見したので試してみようと思います。深層学習時代の class imbalance 対応が面白い。適当にバランシングしたデータセットで十分学習した後…
この記事は、別にちょっとした理由があってR版Kerasで自前のDNNモデルをfine-tuningしたいと思ったので、調べて得られた知識をただまとめただけの備忘録です。既にやり方をご存知の方や、興味がないという方はお読みにならなくても大丈夫です。ただし「この…
Kaggleはすっかりただの野次馬の一人になって久しいんですが、しばらく前に行われたPetFinder.my - Pawpularity Contestというコンペで優勝者がSVR(サポートベクター回帰)を使ったことが話題になっていたというのを聞いて、NN全盛のこのご時世に意外だなと…
(Image by mohamed_hassan from Pixabay)この記事は毎年恒例のスキル要件記事の2022年版です。昨年版は以下のリンクからご覧ください。最初に正直に書いておくと、スキル要件自体は昨年版までとほぼ一緒で、大きなアップデートはありません。今回はまず最初…
(Image by ElasticComputeFarm from Pixabay)今年も恒例の推薦書籍リストの季節がやって参りました。……なのですが、相変わらず続くCOVID-19の影響*1でデータ分析業界及び隣接分野の新刊書を読む機会が減ったままにつき、例年とほぼ同じラインナップになって…
前回の記事でも触れましたが、ここ最近いわゆる需要予測系のマーケティングモデル(特にMedia Mix Modeling: MMM)を手掛けることが増えています。この手の統計モデルは経済学で言うところの「実証分析」に当たると思われ、一般には「予測」よりも「説明」に…
ディープラーニング 学習する機械 ヤン・ルカン、人工知能を語る (KS科学一般書)作者:ヤン・ルカン講談社Amazon11月に入って勤務先のオフィスが本格的に再開されてから、久しぶりに会社のメールルームを覗きに行ったところ、届いていた(つまりご恵贈いた…
少し前のことですが、こんな話題がありました。自分がこれまで現職で手がけた機械学習ソリューションでは1. そもそも「予測」ではなく「説明(解釈)」をアウトプットにする2. クラス分類確率の高いものだけアウトプットし、低いものは「未定」扱いにして捨…
しましま先生(@shima__shima)こと神嶌敏弘先生から、訳書『マスターアルゴリズム』をご恵贈いただきました。マスターアルゴリズム 世界を再構築する「究極の機械学習」作者:ペドロ・ドミンゴス講談社Amazon本書はビル・ゲイツが「AIを知るための本」と絶賛し…
これはただの備忘録です。既知の話題ばかりが並べられているので、特に新鮮味のない内容である点予めご容赦ください。クラスタリング手法として広く知られるK-meansは、その簡便さから非常に広汎に使われていますが、一方で「クラスタ数を恣意的に決め打ちせ…