六本木で働くデータサイエンティストのブログ

元祖「銀座で働くデータサイエンティスト」です / 道玄坂→銀座→東京→六本木

データ分析

個人的に5年間のデータ分析業界見聞録をまとめてみた

(Photo credit: https://pixabay.com/en/data-dataset-word-data-deluge-1188512/) 人工知能ブームで世間が喧しい昨今ですが、それに伴って往年に見かけたような内容のビッグデータ論やデータサイエンティスト論や機械学習システム論が再び出回るようになっ…

データ分析職に採用されるために必要な「実務経験」をいかにして積むべきか

(Photo credit: https://pixabay.com/en/team-businessmen-competence-2651909/) 元々書いていたネタが間に合わない*1っぽいので、ふと色々な記事を眺めていて思い出したネタで与太記事を書きます(笑)。と言ってもこれは実は色々なところで色々な人から相…

データサイエンティストもしくは機械学習エンジニアになるためのスキル要件とは(2017年夏版)

この記事は2年前の以下の記事のアップデートです。前回はとりあえずデータサイエンティストというかデータ分析職一般としてのスキル要件として、「みどりぼん程度の統計学の知識」「はじパタ程度の機械学習の知識」「RかPythonでコードが組める」「SQLが書け…

『ビッグデータ分析・活用のためのSQLレシピ』はデータ分析でSQLクエリを叩く人なら必読の黒魔術大全

こちらの本をご恵贈いただきました。ビッグデータ分析・活用のためのSQLレシピ作者: 加嵜長門,田宮直人出版社/メーカー: マイナビ出版発売日: 2017/03/27メディア: Kindle版この商品を含むブログを見る一般的なSQLの本というのはDB管理の一環としてのインフ…

データ前処理コンペサイト"Struggle"を開設しました

機械学習コンペと言えばKaggleというのはもはや世の中の常識(一部誇張表現あり)になりつつありますが、「データ分析プロジェクトの8割が前処理」という現実を目の当たりにし続けている身としては「そんなRDBSにデータが入った先の綺麗なところで戦うのもあ…

データサイエンティストもしくは機械学習エンジニアを目指すならお薦めの初級者向け6冊&中級者向け15冊(2017年春版)

(Photo credit: https://pixabay.com/en/books-door-entrance-italy-colors-1655783/)この記事は一昨年のこの書籍紹介記事のアップデート版です。相変わらず毎月のように新刊書が出続けるデータ分析業界ですが、良い本が増え続けてきたせいでついに初級者向…

実務の現場においてモデリング(統計学的・機械学習的問わず)を行う上での注意点を挙げてみる

気が付いたら僕がデータ分析業界に身を置くようになってそろそろ5年近くになるんですね*1。この5年間の間に色々勉強したり業界内で見聞してきた経験をもとに、「実務の現場においてモデリングを行う上での注意点」についてだらだらと書いてみようと思います。…

「人工知能」ブームに乗り遅れた!という方々に捧げる人工知能(機械学習)まとめ記事

(Photo credit: A Health Blog via Visual Hunt / CC BY-SA) 「人工知能」ブームが本格化してまだほんの数ヶ月だと思うんですが、気がついたらTV含む大手メディアが皆こぞって毎日のように「人工知能」を取り上げ、あまつさえ政府や与党の諮問会議でまで「人…

「p値や有意性に拘り過ぎるな、p < 0.05かどうかが全てを決める時代はもう終わらせよう」というアメリカ統計学会の声明

以前から同様の指摘は様々な分野から様々な人々が様々な形で出してきていましたが、アメリカ統計学会が以下のような明示的な声明をこの3月7日(現地時間)に発表したということで注目を集めているようです。AMERICAN STATISTICAL ASSOCIATION RELEASES STATE…

ビジネス実務の現場で有用な統計学・機械学習・データマイニング及びその他のデータ分析手法10+2選(2016年版)

そう言えば3年前にこんなまとめ的エントリを書いたのでした。この内容はそのままかなりの部分が2年前に刊行した拙著の原案にもなったということで、色々思い出深いエントリです。なのですが。・・・この3年の間に統計学・機械学習・データマイニングの諸手法…

データ分析の「7つの進化のステップ」を今一度おさらいしてみる

2016年最初の記事ということで、もはや1月下旬に差し掛かりつつありますがこちらでは改めて、あけましておめでとうございます&本年もよろしくお願いいたします。 で、新年一発目のお題は。。。実は似たようなお題で過去にも記事を書いていますが(笑)、年…

まがい物のデータサイエンティストは滅びゆく:USのトップ5データサイエンティストたちが語る2016年の展望

(Photo via VisualHunt.com) 僕も会員になってるData Science Central*1に、こんな面白い論説が載っているのを見つけました。 Data science and statistical modeling will be further automated, with better black-box products Frontiers between data sc…

2015年J1最終節の全てのチームの得点を予測せよ:Data League 2015年大会講評の補遺

先日こちらの学生データ分析コンペの表彰式に、プレゼンター&解説者として登壇してまいりました。正直言って、データを提供して下さったData Stadium社の皆様からも「これほどまでの結果になるとは」という感嘆の声が上がるほどハイレベルな戦いぶりで、参…

ヒトの直感的理解は単変量モデルまで、直感を超えたければ多変量モデルへ

ちょっと前に「ワインの味わいとデータサイエンス」というお題で話してきたわけですが。 実は「単変量モデルという名の還元主義」vs.「多変量モデルに基づくデータサイエンス」というテーマを一貫して置いていたのですが、あまりそこにスポットライトが当た…

『岩波データサイエンス』vol.1発刊しました

岩波データサイエンス Vol.1作者: 岩波データサイエンス刊行委員会出版社/メーカー: 岩波書店発売日: 2015/10/08メディア: 単行本(ソフトカバー)この商品を含むブログ (4件) を見る 実はこの刊行委員会に昨年の秋頃?に招かれまして、ずっと水面下であれや…

フルオートで何でもやってくれるデータ分析ツールが登場したら、データサイエンティストは本当に失業するのか

先日、とあるデータ分析フレームワーク*1の営業をうちのチームの人たちが受けたそうで、後で色々話を聞きました。 何でもそのプロダクトは名立たる国際データ分析コンペ*2上位入賞者という猛者たちが作った代物だそうで、宣伝文句やデモによれば「データの前…

『新しいワインの科学』に見えるワインとデータ分析との関係

本当は今週はとあるリクエストをいただいた関係でdoc2vecの記事でも書こうかと思っていたんですが、予想以上に前処理に難儀して間に合いそうもないので今回は別の話題でお茶を濁します(笑)。 それは、ワインとデータ分析との関係について。というのも、シ…

「統計学と機械学習の違い」はどう論じたら良いのか

何かこんなメディア記事が出ていたようです。 これを読んで色々な人がツッコミを入れまくっている模様ですが、この記事の不思議なところは「完全に間違った説明というわけでもないのに何故か(両分野に詳しい)誰が読んでも猛烈な違和感を覚える」ところなん…

『みんなのR』(原題:"R for Everyone")ご恵贈いただきました

みんなのR ?データ分析と統計解析の新しい教科書?作者: Jared P. Lander,Tokyo.R(協力),高柳慎一,牧山幸史,簑田高志出版社/メーカー: マイナビ発売日: 2015/06/30メディア: 単行本(ソフトカバー)この商品を含むブログ (2件) を見る ということで、訳者の…

シリーズUseful R『データ分析プロセス』ご恵贈いただきました

データ分析プロセス (シリーズ Useful R 2)作者: 福島真太朗,金明哲出版社/メーカー: 共立出版発売日: 2015/06/25メディア: 単行本この商品を含むブログ (1件) を見る 著者の福島さんからご恵贈いただきました。ということで、早速書評させていただきます。

本日発売の拙著新刊です

構想1年、満を持しての発売です。 目次 1. データマエショリストとは 2. 前処理の具体的手法 2.1 Excelの場合 2.2 CSVの場合 2.3 MS Accessの場合 2.4 JSONの場合 2.5 メール添付ファイルの場合 3. 前処理のための組織作り 3.1 クライアントとの認識合わせ 3…

データサイエンティストというかデータ分析職に就くための最低限のスキル要件とは

追記(2017年7月)こちらのスキル要件ですが、2017年版を新たに書きましたので是非そちらをご覧ください。 「データサイエンティストというかデータ分析職に就くためのスキル要件」という話題が某所であったんですが、僕にとって馴染みのあるTokyoR界隈で実…

同じデータセットに対するアプローチの違いから見る「データ分析のステージ」

追記 (2015/02/21) いくつか抜けてるところがあったなぁと思ったので、後から追記や加筆修正してみました。最初のオリジナル版から少し内容が変わっているところがありますがご了承ください。 ちょっと前の記事でこんなネタをやってみたわけですが。 UCI機械…

レバテックタイムの12/24付対談記事で話し切れなかったこと

データサイエンティストが生き残るために必要なのは「本質を見抜く力」|小川卓氏x尾崎隆氏対談 レバテックタイムさんのお招きで、そして正確にはこちらの記事で田宮直人さん(id:naototamiya)から誘われまして(笑)、こんな対談を先日小川卓さん(id:ryuka0…

2014年を振り返る:Stan, KDD, RでDeep Learning, 初の自著出版, そしてデータ分析業界のあれこれ

魂の限界まで前処理をし続けている間にもう年の瀬が来ちゃいました。。。ということで、昨年末同様に今年もざっくり振り返ってみようかと思います。 柔軟な統計モデリングを目指してStan導入しました BUGS/Stan - 銀座で働くData Scientistのブログ これは1…

杜氏のいない蔵元が示した「データ分析さえすれば職人の技を職人抜きでも再現できる」という事実の凄み(追記あり)

先日、とあるコンサルの社長さんとお酒を飲みながらお話していて出てきた話題が「畢竟データ分析って何の役に立つんだろう?」というものだったんですが、そこで僕が思い出して紹介したのが「獺祭」で世界進出を成功させている旭酒造のエピソードだったので…

シリーズUseful R『戦略的データマイニング』『金融データ解析の基礎』ご恵贈いただきました

戦略的データマイニング (シリーズ Useful R 4)作者: 里洋平,金明哲出版社/メーカー: 共立出版発売日: 2014/08/23メディア: 単行本この商品を含むブログを見る金融データ解析の基礎 (シリーズ Useful R 8)作者: 高柳慎一,井口亮,水木栄,金明哲出版社/メーカ…

相変わらず海の向こうのData ScientistたちはPh.D.が多いらしい

お盆休みということで僕も今週はずっとお休みなのですが、こんな記事がWSJから出ていたと知りました。 ビッグデータ活用に向け需要増す「データサイエンティスト」 - WSJ 以前HBRのDavenport論説についてコメントしたかと思いますが、あれから2年経ってどう…

ハッカーズチャンプルー2014に参加してきました

7/11(金)-13(日)にかけて、沖縄で開催されたハッカーズチャンプルー2014にゲストスピーカーとして参加してきました。弊社の公式エンジニアブログにも同様の内容で記事を書くことになっているので、こちらでは個人的なお話を。 Hackers Champloo これは沖…

施策の「レイヤー」とその規模に合わせて、データ分析の方向性を決める

これまで色々なデータ分析案件を自ら持ち(持たされ)、また色々な他所の現場のデータ分析の実態を聞いてきたわけですが、意外と未だに統一された共通認識が形成されてないのかなぁと思うのが「施策レイヤー&規模とデータ分析の方向性とのベストマッチ」。…