読者です 読者をやめる 読者になる 読者になる

六本木で働くデータサイエンティストのブログ

元祖「銀座で働くデータサイエンティスト」です / 道玄坂→銀座→東京→六本木

『ビッグデータ分析・活用のためのSQLレシピ』はデータ分析でSQLクエリを叩く人なら必読の黒魔術大全

こちらの本をご恵贈いただきました。

ビッグデータ分析・活用のためのSQLレシピ

ビッグデータ分析・活用のためのSQLレシピ

一般的なSQLの本というのはDB管理の一環としてのインフラエンジニア向けの技術書であることが多く、意外にもデータ分析を主目的としたSQLの使い方やクエリの工夫の仕方について書かれた本というのはあまり多くないんですよね。故に、多くのデータ分析者は難解なテーマを実現するクエリを書きたくても参考になる資料が乏しく、途方に暮れるわけです。僕もHive / Redshift / BigQueryのクエリを書きながら「こんな分析がしたいんだけど、それを実現できるクエリってないよなぁ。。。」と何度天を仰いだことか。


そんなところに突然降って湧いてきたのがこちらの新刊書。もう目次を見ただけで笑いが止まらなくなるほどのSQL黒魔術のオンパレードで、「これぞSQL黒魔術大全」と言いたくなるほどの素晴らしい(そして恐ろしい笑)内容に脱帽。ということで、発売から若干日が経っていますが遅ればせながら書評させていただこうと思います。


ちなみにconflict of interestとして、著者のお一人である田宮さんとは前々職以来の友人であり、これはそのご縁でご恵贈いただいた書籍の書評記事であることを予めお断りしておきます。

続きを読む

データ前処理コンペサイト"Struggle"を開設しました

機械学習コンペと言えばKaggleというのはもはや世の中の常識(一部誇張表現あり)になりつつありますが、「データ分析プロジェクトの8割が前処理」という現実を目の当たりにし続けている身としては「そんなRDBSにデータが入った先の綺麗なところで戦うのもあまり実践的ではないような」と思っているのも事実だったりします。


そこで、まずはお試しですがこんなものを始めてみました。その名もずばり"Struggle"。

もう見たまんまで、現実にありがちな(もしくは各協賛企業から提供された本物の)「汚い」データセットをひたすら前処理して学習ラベル+特徴量のテーブルに直し、予め用意されたブラックボックスのモデル(中身はコンペ終了後に公開される)に入力して得られたパフォーマンスの高さで、前処理の腕の良し悪しを競うというコンペを各種集めたポータルです。


まだβ版なので今のところは僕が自宅のIoTセンサで集めた我が家の家族のとある行動に関して集めたデータセットを置いてあるだけですが、そうは言っても複数ファイルに分かれた生CSVで全体で15.0TBほどある正真正銘のゴミデータです(笑)。これを僕自身でも色々悪戦苦闘して前処理し、その際に試しに回してみた簡単な機械学習モデルをデータの送り先として指定してあります。


ということで、第1回のコンペはベンチマークをACC = 0.8になるように設定しておきました。前処理の腕に覚えのある皆さんの参戦を心からお待ちしております!

データサイエンティストもしくは機械学習エンジニアを目指すならお薦めの初級者向け6冊&中級者向け15冊(2017年春版)

f:id:TJO:20150308132412j:plain
(Photo credit: https://pixabay.com/en/books-door-entrance-italy-colors-1655783/)

この記事は一昨年のこの書籍紹介記事のアップデート版です。

相変わらず毎月のように新刊書が出続けるデータ分析業界ですが、良い本が増え続けてきたせいでついに初級者向けは6冊、中級者向けは何と15冊にまで膨れ上がってしまいました(汗)。ともあれ、自分のところにアフィリエイトの類は一銭も入らないにもかかわらず*1懲りずに書籍紹介をやろうと思います。


あ、最初に断っておきますが僕の知識レベルは極めて適当なので、極めていい加減なことを書いている可能性があります。また最初に読んでから時間が経っていて記憶があやふやなせいで、内容に関する記述が不正確な書評が混じっている可能性もあります。誤っているところやおかしいところがあったらバンバン突っ込んでください。よろしくお願いいたしますm(_ _)m

*1:はてなには入るのでそれすら気に入らないという皆様はアフィリエイトコードを削除したURLからお求めください笑

続きを読む