渋谷駅前で働くデータサイエンティストのブログ

元祖「六本木で働くデータサイエンティスト」です / 道玄坂→銀座→東京→六本木→渋谷駅前

初めてこのブログに来た方へ

f:id:TJO:20200106165910p:plain
これは初めてこのブログに来た方々向けのトップ固定記事です。最新記事の更新状況に応じて随時更新されます。

はじめに


公式のプロフィールはLinkedInに掲載しております。


このブログの内容は個人の意見・見解の表明であり、所属組織の意見・見解を代表しません。またブログ記事の内容の正確性については一切保証いたしません。学術的・技術的コンテンツを求めて来訪された方は、必ず学術書や論文などのオーソライズされた資料を併せてご参照ください。むしろ僕自身の学習のプロセスを記録しているだけの備忘録的記事が多いため、誤りもまた多いはずです。後学のため、誤りを見つけた場合はコメント欄などでお知らせいただけると有難いです。


また、ブログの中で取り上げられているデータ分析事例・データセット・分析上の知見など全ての記述は、いずれも特別に明記されていない限りはいかなる実在する企業・組織・機関の、いかなる個別の事例とも無関係です。ブログ記事内容は予告なく公開後に改変されることがあります。改変した事実は明示されることもあれば明示されないこともあります。


このブログはあくまでも僕自身にとっての備忘録であり、利便を考えてweb上に公開しているだけという位置付けのものです。中にはその見かけとは全く別の真の目的をもって書かれた記事もあります。以上の点をご理解の上、お読み下さると有難いです。

id:TJOとは何者なのか

データサイエンティスト・機械学習人工知能)エンジニアとは何か

データ分析を仕事にしたければ読むべき本は何か

続きを読む

RでK-meansの最適なクラスタ数をAIC / BICに基づいて求める

これはただの備忘録です。既知の話題ばかりが並べられているので、特に新鮮味のない内容である点予めご容赦ください。

クラスタリング手法として広く知られるK-meansは、その簡便さから非常に広汎に使われていますが、一方で「クラスタ数を恣意的に決め打ちせざるを得ない」という難点があり、「最適なクラスタ数をどうやって決めるか」という課題が長年に渡ってあります。この課題の解決策についてちょっと調べてみたので、以下にまとめてみました。

続きを読む

今更ながら自分でRパッケージを作ってみた(RStan連携も含めて)

f:id:TJO:20210331153629p:plain

元はと言えばアホなエイプリルフールネタを作るために勉強し始めたことなのですが、折角だしということで毎日15時過ぎにやっている「本日の東京都のCOVID-19陽性報告数を踏まえた感染拡大状況把握のためのフィッティング」ネタをRパッケージにまとめて簡単に出来るようにしたのでした。が、そのプロセスが結構落とし穴が多くて大変だったので、後々の自分のための備忘録として書き残しておくことにします。

続きを読む

NNで様々なマーケティング分析を自動的に行うRパッケージを作りました

f:id:TJO:20210326153606p:plain

ここしばらく機械学習を使う仕事が少なかったので近年のNNの進歩はあまりキャッチアップしていなかったのですが、最近になって自分が守備範囲とする広告・マーケティング領域でも様々な種類のデータにNNを適用して従来になかったタイプのインサイトやアウトプットを出していこうという機運が高まってきておりまして、一念発起して僕もちょっとやってみようと思ったのでした。


で、ただ実装コードを垂れ流すだけというのも芸がないなぁと考えたもので、ついでにRパッケージにしてみました。

このパッケージの概要ですが、devtoolsでGitHubからインストールすれば、後はrun_nnmrktという関数を実行するだけでその威力を実感していただけるかと思います。

devtools::install_github('ozt-ca/nnmrkt')
library(nnmrkt)
run_nnmrkt()

是非皆さんに使っていただいて、どしどしフィードバックを送っていただきたいです。特にRパッケージ開発は初心者なので、そちらの側面からのフィードバックをいただけると大変に有難いです。何卒よろしくお願いいたします。


(※エイプリルフールネタです)