六本木で働くデータサイエンティストのブログ

元祖「銀座で働くデータサイエンティスト」です / 道玄坂→銀座→東京→六本木

Rで異常検知(3): 非正規データからの異常検知(カーネル密度推定・EMアルゴリズム・K-means・1クラスSVM)

(注:ただの備忘録ゆえ、ほぼ確実に後で追記が出る見込みです)

今回はコロナ社井手本の第3章を取り上げます。

とは言っても全部丸写しするのはさすがに問題があるので、個人的に興味のあるトピックスだけを取り上げて、なおかつあくまでも個人的な備忘録として記する程度に留めておきます。本格的に勉強したい方はちゃんとコロナ社井手本をお求めの上ご自身で独学するようにして下さい。


ということで、今回個人的に取り上げるのは第3章の中のカーネル密度推定とクラスタリングSVMの箇所です。なおコロナ社井手本ではここでEMアルゴリズムそのものの説明もなされていますが、EMアルゴリズム自体はこのブログでも一度取り上げているので既知のものとしてこの記事では取り扱います。

ただし、個人的にはコロナ社井手本p.71に載っている混合モデル+EMアルゴリズムの簡単な実践例は割と親切で良いというか、多分知っている限りで最も分かりやすいEMアルゴリズムの解説だと思うので、EMアルゴリズム自体が初見という人はそこの前後の箇所をよく読んで勉強してみるのをお薦めいたします。少なくとも僕には非常に良い復習になりました。


ちなみに今回の記事はちょっと色々手が回らなかったのもあって結構手抜き気味です。後で追記の形で勉強し直した結果などが加わる可能性がありますので、どうしても気になるという方は後ほど改めてご覧ください。。。

続きを読む

論文メモ:Empirical assessment of published effect sizes and power in the recent cognitive neuroscience and psychology literature (Szucs & Ioannidis, PLoS Biol, 2017)

以下のメタアナリシス論文がしばらく前に話題になっていました。

このようなメタアナリシスを紐解くことで検定力・効果量がどういうものかという理解も進むのではないかと思われますので、以前の機械学習系論文の輪読まとめと同様に全引用or全訳にならない程度にまとめてみることにします。また斜め読みに近いまとめなので、間違っているところがチラホラあるかと思います。お気付きの際はコメント欄でも何でも良いのでご指摘下されば幸いです。

続きを読む

『ビッグデータ分析・活用のためのSQLレシピ』はデータ分析でSQLクエリを叩く人なら必読の黒魔術大全

こちらの本をご恵贈いただきました。

ビッグデータ分析・活用のためのSQLレシピ

ビッグデータ分析・活用のためのSQLレシピ

一般的なSQLの本というのはDB管理の一環としてのインフラエンジニア向けの技術書であることが多く、意外にもデータ分析を主目的としたSQLの使い方やクエリの工夫の仕方について書かれた本というのはあまり多くないんですよね。故に、多くのデータ分析者は難解なテーマを実現するクエリを書きたくても参考になる資料が乏しく、途方に暮れるわけです。僕もHive / Redshift / BigQueryのクエリを書きながら「こんな分析がしたいんだけど、それを実現できるクエリってないよなぁ。。。」と何度天を仰いだことか。


そんなところに突然降って湧いてきたのがこちらの新刊書。もう目次を見ただけで笑いが止まらなくなるほどのSQL黒魔術のオンパレードで、「これぞSQL黒魔術大全」と言いたくなるほどの素晴らしい(そして恐ろしい笑)内容に脱帽。ということで、発売から若干日が経っていますが遅ればせながら書評させていただこうと思います。


ちなみにconflict of interestとして、著者のお一人である田宮さんとは前々職以来の友人であり、これはそのご縁でご恵贈いただいた書籍の書評記事であることを予めお断りしておきます。

続きを読む