渋谷駅前で働くデータサイエンティストのブログ

元祖「六本木で働くデータサイエンティスト」です / 道玄坂→銀座→東京→六本木→渋谷駅前

2014-02-01から1ヶ月間の記事一覧

パッケージユーザーのための機械学習(7):K-meansクラスタリング

本シリーズ記事のカテゴリからPythonが消えて久しい今日この頃ですが、皆様いかがお過ごしでしょうか*1。とかいう前口上はどうでも良くて、とっとと今回のお題に入りましょう。今回はクラスタリングのド定番、K-means(k平均)クラスタリングです。 K-means…

効果量(effect size)のはなし

統計学的検定の話を始めたら自分の勉強の方が止まらなくなってしまったので(笑)、ついでにやってみようと思います。ちなみにこの記事は前回のやたらブクマを集めた記事の続きみたいなものです。 そもそもビジネスの現場ではどういう「レベル」の統計学を使…

「データサイエンティスト」というか"Data Scientist"になりたかったら、英語が出来なきゃダメかも?

「また煽り記事書きやがって」と怒られそうな気しかしないんですが(笑)、最近とみに感じるようになってきていることなので備忘録的にちょっと書いてみます。あ、今回も僕の個人的経験と見聞に基づくポジショントークみたいなものなので、話半分でお願いし…

Stanで統計モデリングを学ぶ(2): そもそもMCMCって何だったっけ?

(前回記事はこちらから) ベイジアンの知識もいい加減な僕がこんなシリーズ記事を書くとかほとんどギャグの領域なんですが(汗)*1、2回目の今回の記事ではそもそもMCMCって何だったっけ?ってところから始めようと思います。 今回参考にするのは、主に久保…

パッケージユーザーのための機械学習(6):階層的クラスタリング

さて、教師あり学習の方はひと段落ついたので、今度は教師なし学習の話をやっていこうかと思います。と言っても僕が知っている範囲でなおかつ常用するような教師なし学習はRでの実装が割と貧弱なので、シリーズとしてはあまり面白くない感じになりそうです(…