渋谷駅前で働くデータサイエンティストのブログ

元祖「六本木で働くデータサイエンティスト」です / 道玄坂→銀座→東京→六本木→渋谷駅前

2015-01-01から1年間の記事一覧

まがい物のデータサイエンティストは滅びゆく:USのトップ5データサイエンティストたちが語る2016年の展望

(Photo via VisualHunt.com) 僕も会員になってるData Science Central*1に、こんな面白い論説が載っているのを見つけました。 Data science and statistical modeling will be further automated, with better black-box products Frontiers between data sc…

リクルートコミュニケーションズを退職しました

(Photo credit: Team Lane via Visual hunt / CC BY-ND) 私事ですが、本日をもって2年半勤めてきた株式会社リクルートコミュニケーションズ(RCO)を退職しました。また同時にリクルートグループからも離れることになりました*1。正式には12月31日大晦日が退職…

データサイエンティストを目指すというかデータ分析を生業にするなら読んでおきたい初級者向け5冊&中級者向け12冊(2015年冬版)

(Photo via VisualHunt) 追記2017年3月現在の最新書籍リストはこちらです。 最近になってまた色々とデータサイエンティストを目指す人向けのお薦め書籍リストとか資料リストとかが出てきてるんですが、個人的には何かと思うところがあるので僕も適当にまとめ…

"Gradient Boosted Feature Selection" (Xu et al., KDD 2014) メモランダム

本日の輪読会で僕が担当した論文のメモランダムということで、置いときます。 概要 Gradient Boosted Feature Selection (Xu, Huang, Weinberger and Zheng, KDD 2014)タイトルが示すように特徴量選択をやりたいというのが第一のモチベーションで、これをgra…

グラフ・ネットワーク分析で遊ぶ(5):何となくNIPS2015の共著者グラフを描いてみた

先日閉幕したNIPS2015ですが*1、そう言えばサイト上に全論文のタイトル&著者一覧があるなと思い出したのでした。 ということで、これまでの4回のグラフ・ネットワーク分析特集で学んだことをこの著者一覧に応用してみようかと思います。やったことはごくご…

グラフ・ネットワーク分析で遊ぶ(4):コミュニティ検出(クラスタリング)

ネットワーク全体指標はあまりビジネス的に扱うことが多くないので、代わりに今回はコミュニティ検出(要はグラフ構造内でのクラスタリング)について取り上げます。ただし前回まで参考にしていた『ネットワーク分析』はあまりコミュニティ検出についてそこ…

グラフ・ネットワーク分析で遊ぶ(3):中心性(PageRank, betweeness, closeness, etc.)

ビジネス的に重要度が高いのがこの辺の話題ではないかな?ということで、今回は中心性(centrality)の話題を取り上げてみようと思います。参考文献はいつも通りこちら。 ネットワーク分析 (Rで学ぶデータサイエンス 8)作者: 鈴木努,金明哲出版社/メーカー: 共…

2015年J1最終節の全てのチームの得点を予測せよ:Data League 2015年大会講評の補遺

先日こちらの学生データ分析コンペの表彰式に、プレゼンター&解説者として登壇してまいりました。正直言って、データを提供して下さったData Stadium社の皆様からも「これほどまでの結果になるとは」という感嘆の声が上がるほどハイレベルな戦いぶりで、参…

ヒトの直感的理解は単変量モデルまで、直感を超えたければ多変量モデルへ

ちょっと前に「ワインの味わいとデータサイエンス」というお題で話してきたわけですが。 実は「単変量モデルという名の還元主義」vs.「多変量モデルに基づくデータサイエンス」というテーマを一貫して置いていたのですが、あまりそこにスポットライトが当た…

グラフ・ネットワーク分析で遊ぶ(2):最短経路長など

前回の記事に引き続き主に{igraph}の各関数で遊びながらグラフ理論・ネットワーク分析を学ぶこのシリーズですが、今回は様々なノード間の特徴量について見てみます。もちろん今回も参考文献はこちら。 ネットワーク分析 (Rで学ぶデータサイエンス 8)作者: 鈴…

確率的勾配降下法を最適化に使える{sgd}パッケージを一通り試してみる

ちょっと前に話題になってたんですが、何でもCRANに確率的勾配降下法(Stochastic Gradient Descent)を実装した{sgd}というパッケージが公開されているそうで。JSS掲載予定のVignetteもあるみたいです。 CRAN - Package sgd Stochastic gradient decent metho…

グラフ・ネットワーク分析で遊ぶ(1):グラフ可視化・描画手法

ちょっと興味が湧いてきたので、今後しばらくグラフ理論・ネットワーク分析に力を入れてみようかなと思ってます。ということで『レ・ミゼラブル』の時同様にオープンデータセットを取ってきましょう。 Network data 今回使うのは"Neural network"。これは(…

データサイエンスでワインの味の評価を予測したい

Taste of Wine vs. Data Science from Takashi J OZAKI 先日、とある勉強会で話してきた内容がこちらです。ネタとしてはもう皆さんお分かりでしょうが、以前書いた記事の続きみたいなものです。 ある程度自動的にテイスティング・スコアが付けられれば、世の…

『岩波データサイエンス』vol.1発刊しました

岩波データサイエンス Vol.1作者: 岩波データサイエンス刊行委員会出版社/メーカー: 岩波書店発売日: 2015/10/08メディア: 単行本(ソフトカバー)この商品を含むブログ (4件) を見る 実はこの刊行委員会に昨年の秋頃?に招かれまして、ずっと水面下であれや…

【PR】「学生データサイエンティスト日本一決定戦Data League」2015年大会開催中です

去年も同じ趣旨の学生データサイエンティスト日本一決定戦のPR記事書きましたが、今年も懲りずに書きます。 去年は日本のプロ野球のデータセットを使いましたが、今年はJリーグのデータセットを使います。今年も3位までの入賞者には総額18万円の賞金が出ると…

フルオートで何でもやってくれるデータ分析ツールが登場したら、データサイエンティストは本当に失業するのか

先日、とあるデータ分析フレームワーク*1の営業をうちのチームの人たちが受けたそうで、後で色々話を聞きました。 何でもそのプロダクトは名立たる国際データ分析コンペ*2上位入賞者という猛者たちが作った代物だそうで、宣伝文句やデモによれば「データの前…

『新しいワインの科学』に見えるワインとデータ分析との関係

本当は今週はとあるリクエストをいただいた関係でdoc2vecの記事でも書こうかと思っていたんですが、予想以上に前処理に難儀して間に合いそうもないので今回は別の話題でお茶を濁します(笑)。 それは、ワインとデータ分析との関係について。というのも、シ…

「統計学と機械学習の違い」はどう論じたら良いのか

何かこんなメディア記事が出ていたようです。 これを読んで色々な人がツッコミを入れまくっている模様ですが、この記事の不思議なところは「完全に間違った説明というわけでもないのに何故か(両分野に詳しい)誰が読んでも猛烈な違和感を覚える」ところなん…

『データサイエンティスト養成読本 機械学習入門編』ご恵贈いただきました

タイトルを読んで字の如しですが、前作同様に*1技評さんから正式発売日より前に見本冊子をご恵贈いただきました。 データサイエンティスト養成読本 機械学習入門編 (Software Design plus)作者: 比戸将平,馬場雪乃,里洋平,戸嶋龍哉,得居誠也,福島真太朗,加藤…

"A Safe Screening Rule for Sparse Logistic Regression" (Wang et al., NIPS2014) メモランダム

今日のうちのチームの輪読会で"A Safe Screening Rule for Sparse Logistic Regression" (Wang et al., NIPS2014)を読んできた*1ので、その時の資料をついでにこちらにもupしておきます。 なお、この論文の筆者のGitHubとかに実装上がってないかなーと思って…

パリ旅行に行ってきました

ということで先週分(隔週1回)のブログ更新をスキップして行ってまいりました、夢の都パリ。僕にとっては初めてのヨーロッパで、なおかつここ最近では久しぶりの完全プライベートでの海外旅行だったので*1、だいぶ満喫してまいりました。 (ノートルダム大…

パリ旅行中です

ということで今週分はお休みです。また再来週。なお1枚目はヴェルサイユ宮殿の鏡の間、2枚目はサン=ジェルマン・デ・プレで見かけたその名も『モンドリアン』という名のカフェです(笑)。

因果フェスでGranger因果について話してきたら、色々いじれば非線形でもやれるんじゃないかという気がしてきた

本日8月6日に駒場で開かれた日本生態学会関東地区会公開シンポジウム「非ガウス性/非線形性/非対称性からの因果推論手法:その使いどころ・原理・実装を学ぶ」通称因果フェスにて、Granger因果について話してきました。 ちなみに事前に林岳彦(id:takehiko-…

不均衡データの分類をクラス重み付けではなくクラス分類事後確率の閾値で補正するとどうなるか

先日ask.fmでこんな質問をいただいたのでやってみました。 不均衡データの分類についてブログを拝見しました。 不躾な質問で恐縮ですが、正例の少ない不均衡データをRandomforestで2値分類を行う際に、ウェイトを使うのであれば、単純にProbで出力される「正…

『みんなのR』(原題:"R for Everyone")ご恵贈いただきました

みんなのR ?データ分析と統計解析の新しい教科書?作者: Jared P. Lander,Tokyo.R(協力),高柳慎一,牧山幸史,簑田高志出版社/メーカー: マイナビ発売日: 2015/06/30メディア: 単行本(ソフトカバー)この商品を含むブログ (2件) を見る ということで、訳者の…

シリーズUseful R『データ分析プロセス』ご恵贈いただきました

データ分析プロセス (シリーズ Useful R 2)作者: 福島真太朗,金明哲出版社/メーカー: 共立出版発売日: 2015/06/25メディア: 単行本この商品を含むブログ (1件) を見る 著者の福島さんからご恵贈いただきました。ということで、早速書評させていただきます。

UCI機械学習リポジトリのデータ(など)で遊ぶ(3):クレジットカードの加入審査データ

このシリーズ、前回はUCIリポジトリではないデータセットを使ってしまって本義に悖る内容になってしまったので(笑)、今回はUCIのデータセットを使ってみることにします。そのデータがこちら。 Credit Approval Data Set Data set descriptionを見ると、こ…

海の向こうでも日本でも「データサイエンティスト」は雌伏の時

「データサイエンティストはつらいよ」、注目職種も求人が多くない理由 なかなか刺激的な翻訳記事が出ていたようで。ちなみに本家版の原典記事はこちら。 Data science jobs not as plentiful as all the hype indicates 大体こういう話をするとよく炎上する…

パッケージユーザーのための機械学習(12):Xgboost (eXtreme Gradient Boosting)

今やKaggleやKDD cup以下名だたる機械学習コンペで絶大な人気を誇る分類器、Xgboost (eXtreme Gradient Boosting)。特にKaggleのHiggs Boson Machine Learning Challengeの優勝チームが駆使したことで有名になった感があるようで。 その実装ですが、C++ベー…

{xgboost}パッケージのインストールについて(ハマった体験談含む)

ここ数日KaggleのOttoを暇潰しにやってみたりした都合で{xgboost}も初挑戦してみたんですが、そのインストールの際に猛烈にトラブったケースが幾つかあったので備忘録的に記事に書き起こしておきます。実は英語圏でもあまりまとまった記事がないというか、元…