渋谷駅前で働くデータサイエンティストのブログ

元祖「六本木で働くデータサイエンティスト」です / 道玄坂→銀座→東京→六本木→渋谷駅前

論文メモ:Empirical assessment of published effect sizes and power in the recent cognitive neuroscience and psychology literature (Szucs & Ioannidis, PLoS Biol, 2017)

以下のメタアナリシス論文がしばらく前に話題になっていました。

このようなメタアナリシスを紐解くことで検定力・効果量がどういうものかという理解も進むのではないかと思われますので、以前の機械学習系論文の輪読まとめと同様に全引用or全訳にならない程度にまとめてみることにします。また斜め読みに近いまとめなので、間違っているところがチラホラあるかと思います。お気付きの際はコメント欄でも何でも良いのでご指摘下されば幸いです。

続きを読む

『ビッグデータ分析・活用のためのSQLレシピ』はデータ分析でSQLクエリを叩く人なら必読の黒魔術大全

こちらの本をご恵贈いただきました。

ビッグデータ分析・活用のためのSQLレシピ

ビッグデータ分析・活用のためのSQLレシピ

一般的なSQLの本というのはDB管理の一環としてのインフラエンジニア向けの技術書であることが多く、意外にもデータ分析を主目的としたSQLの使い方やクエリの工夫の仕方について書かれた本というのはあまり多くないんですよね。故に、多くのデータ分析者は難解なテーマを実現するクエリを書きたくても参考になる資料が乏しく、途方に暮れるわけです。僕もHive / Redshift / BigQueryのクエリを書きながら「こんな分析がしたいんだけど、それを実現できるクエリってないよなぁ。。。」と何度天を仰いだことか。


そんなところに突然降って湧いてきたのがこちらの新刊書。もう目次を見ただけで笑いが止まらなくなるほどのSQL黒魔術のオンパレードで、「これぞSQL黒魔術大全」と言いたくなるほどの素晴らしい(そして恐ろしい笑)内容に脱帽。ということで、発売から若干日が経っていますが遅ればせながら書評させていただこうと思います。


ちなみにconflict of interestとして、著者のお一人である田宮さんとは前々職以来の友人であり、これはそのご縁でご恵贈いただいた書籍の書評記事であることを予めお断りしておきます。

続きを読む

データ前処理コンペサイト"Struggle"を開設しました

機械学習コンペと言えばKaggleというのはもはや世の中の常識(一部誇張表現あり)になりつつありますが、「データ分析プロジェクトの8割が前処理」という現実を目の当たりにし続けている身としては「そんなRDBSにデータが入った先の綺麗なところで戦うのもあまり実践的ではないような」と思っているのも事実だったりします。


そこで、まずはお試しですがこんなものを始めてみました。その名もずばり"Struggle"。

もう見たまんまで、現実にありがちな(もしくは各協賛企業から提供された本物の)「汚い」データセットをひたすら前処理して学習ラベル+特徴量のテーブルに直し、予め用意されたブラックボックスのモデル(中身はコンペ終了後に公開される)に入力して得られたパフォーマンスの高さで、前処理の腕の良し悪しを競うというコンペを各種集めたポータルです。


まだβ版なので今のところは僕が自宅のIoTセンサで集めた我が家の家族のとある行動に関して集めたデータセットを置いてあるだけですが、そうは言っても複数ファイルに分かれた生CSVで全体で15.0TBほどある正真正銘のゴミデータです(笑)。これを僕自身でも色々悪戦苦闘して前処理し、その際に試しに回してみた簡単な機械学習モデルをデータの送り先として指定してあります。


ということで、第1回のコンペはベンチマークをACC = 0.8になるように設定しておきました。前処理の腕に覚えのある皆さんの参戦を心からお待ちしております!