2013-01-01から1年間の記事一覧
早いもので、2013年も過ぎようとしているこの年末ですが。一応ブログのタイトルに「データサイエンティスト」と入っているので(笑)、せっかくなのでこの1年間のデータサイエンティストにまつわる狂想曲と、僕自身の今年のヒストリーとを簡単に振り返ってみ…
(※はてなフォトライフの不具合で正しくない順番で画像が表示されている可能性があります) さて、こんな記事をクリスマス・イヴのプレゼントにするのはアレなんですが(笑)、教師あり学習&分類器系では一旦これでシリーズを〆る予定です。 トリを飾るのは…
これを見れば一目瞭然でしょう。 (Google トレンド - ウェブ検索の人気度: データサイエンティスト - すべての国, 2004年 - 現在) ものの見事に、ピークを描いていたカーブがガクンと2013年9月期に下がって、そのまま低い位置を保っています。
ビジネスの現場のデータ分析における理想と現実 from Takashi J Ozaki 先日Zansaの会でお話してきたんですが、その際にShannon Labの田中社長からこんなコメントをいただいたのでした。 「実際のデータ分析の現場ではデータの前処理にかかる技術的・金銭的コ…
(※はてなフォトライフの不具合で正しくない順番で画像が表示されている可能性があります) 実は僕は普段全くニューラルネットワークを使ってない上に、すぐ隣に再帰ニューラルネットワークでバリバリNIPSに通していたことのある教授氏がいるので*1、こんな…
これは先日うちの教授氏と話していて出てきた話題なんですが、 データ分析とは「データドリブンなソリューション」を提供すること アルゴリズム実装=定量的ソリューション アドホック分析=定性的ソリューション だよね、という。これは結構一般的なコンセ…
12/4~12/9(現地時間)の日程で、当地米ネバダ州タホ湖で開催中のNIPS 2013に参加してました。内容的にはdeep learning, online learning, active learningまわりを軸に、朝一番のオーラルではビッグデータやビジネス展開の話も出るなど*1なかなか面白かっ…
(※はてなフォトライフの不具合で正しくない順番で画像が表示されている可能性があります) PythonでSMO-SVM書き下すという宿題がまだ終わってないくせにこれ書いていいのか物凄く迷うんですが(笑)、R Advent Calendar 2013の12月6日分第6回の担当に当たっ…
今やデータサイエンティスト論の「古典」となりつつあるThomas H. DavenportのHarvard Business Review掲載記事ですが。 Data Scientist: The Sexiest Job of the 21st Century - Harvard Business Review 現在は有料記事になっているものの、実はHBR web版…
(※はてなフォトライフの不具合で正しくない順番で画像が表示されている可能性があります) だらだらと機械学習をパッケージで回していく様子を眺めるこのシリーズ、今回はロジスティック回帰をやってみようと思います。ロジスティック回帰はどちらかという…
先日、Twitter上&FB上にこんな記事が出回っていたので読んでみました。 日本型データサイエンティスト、CDO、CAO:日本型データサイエンティストの登場を契機に活用が進展、野村総合研究所が予想 - ITmedia マーケティング データ分析をビジネスに活用する…
(※はてなフォトライフの不具合で正しくない順番で画像が表示されている可能性があります) だいぶ前に「糞コードで頑張る機械学習シリーズ」と言うのを始めようとしたんですが、パーセプトロンをPythonで実装した次にMatlabで書いたSMO-SVMコードをPythonに…
発売から間もなくその内容についてTwitter上で妙な伝聞やら伝言ゲームが飛び交っていたこの本。実は僕もその伝言ゲームに巻き込まれた*1もので、だったら現物を読んで書評してやろうじゃないかということで有楽町の三省堂で買ってきたのでした。それがこちら…
最近また色々な新刊書で「パラメトリックvs.ノンパラメトリック検定の違い」について正確でない説明を見かけることが増えてきたので、ちょっと出典を明示して備忘録的に書いておこうと思ったのでした。
誰かの参考になるかもしれないと思って、僕の前職時代の取り組み方や他の現場で僕とよく似たアドホック分析系の仕事をされている方から聞き取った内容をもとに、適当にまとめてみました。 ということで、これは正確には「アドホック分析系データサイエンティ…
何だかふと思い付いたので、つらつら書いてみました。10個全てを口走ってしまったことのある人は要注意ということで(笑)。 「データサイエンティストなんてただのバズワード」 誰でも言って構わないセリフとして広く認められています。ただし、これを言っ…
ちらっとTwitterでもコメントしましたが、現職場でも公式ブログ始まりました。テックブログ45選という記事には間に合わなかったのが残念ですが。。。 RCO アドテクLabブログ もうタイトル見たまんまです(笑)。基本的には社内エンジニアによるテックブログ…
肝心のMCMCの勉強はどこ行ったゴルァとか怒られるとアレなんですが、先にツールの使い方覚えてしまおうと思ってStanで簡単な練習をやってみました。ちなみに参考にした資料はこちら。 Stanチュートリアルの資料を作成しました。 - Analyze IT. StanTutorial …
この三連休にはてブで盛り上がってたこちらの記事、なかなか面白く拝読しました。 「あいつ・・・なにやってるの?」データサイエンティストを殺す4つの環境 - dataminer.me データサイエンティストを殺すための4つの環境 データサイエンティストの評価者が…
Rで計量時系列分析シリーズでだいぶ時系列データの話をしてきたわけですが、最近個人的に季節変動のあるデータを扱うケースが増えてきたので、備忘録的にまとめてみようかなと。 一般に、webデータサイエンスの領域で季節変動というと業種や領域にもよるもの…
id:dscaさんのタダでは引き受けてはいけないネタが大ブレークしてるみたいですね。 データの分析をタダで引き受けてはならない10の理由 - ネガティブにデータサイエンティストでもないブログ 受託系便利屋的なポジションの悲哀が大変よく透けて見える良記事…
回帰・分類・推定・予測
タイトルを読んで字の如く、昨日10/19(土)開催のこちらの勉強会でお話してきました。 第30回 データマイニング+WEB@東京( #TokyoWebmining 30th)−機械学習活用・マーケティング 祭り− を開催しました - hamadakoichi blog TokyoRの時と同様、いつもTwitte…
最近になって、前よりもさらに多くの方々から「データサイエンティストになりたいと思ってるんだけどどうしたらいいか」と相談されることが増えてきました。まぁ、これだけ新しいキャリアとして喧伝されていれば当然かと(笑)。 で、新卒ならどうしたら良い…
前回の書籍リストは、基本的には「そこそこ統計学のことは知っていて」「機械学習とはどんなものかというイメージがあって」「Pythonの初歩ぐらいはできて」「本を見ながらで良ければRを使える」人たちを対象にしたものでした。 なのですが、世の中そんな最…
5ヶ月前に書いた記事がだいぶ陳腐化してきた*1気がするので、それ以降出版された書籍や、他にも学術的知識を得るだけでなく「データサイエンティストとして働く上で必要なスキル」について書かれた書籍などを加えて、「2013年秋版」の10冊をチョイスしてみま…
最近こんな素晴らしい勉強会があったと知りまして。主催は7月の1ヶ月間で何故か3回も一緒に飲んだこの人。 第1回BUGS/Stan勉強会を開催しました 元々WinBUGSは{R2WinBUGS}経由で使っていたんですが、やっぱり{Rcpp}経由でC++コンパイラで高速で走るStan良さ…
ちょっと前の記事なんですが、面白かったので紹介します。 Confessions of a Data Scientist データサイエンティストのConfession(告白)というよりただの暴露談義なんですが、もっと言ってしまうとこれって「データサイエンティストあるある」ですよね(笑…
TL上にものすごーく刺激的な情報が飛び込んできたので、思わずご紹介。 一部の方にはお伝えしておりますが、hive/hadoop上でスケーラブルに機械学習(今のとこクラス分類、回帰分析)を行うライブラリをオープンソース(LGPL)でリリースしました。mahout等よ…
先日Amazonから届いて読了したので、Twitterでも公言していた通り書評をやってみようと思います。RMeCabやその他R関連書籍多数でお世話になっている方も多いであろう、石田基広先生の新刊書です。 とある弁当屋の統計技師(データサイエンティスト) ―データ分…