渋谷駅前で働くデータサイエンティストのブログ

元祖「六本木で働くデータサイエンティスト」です / 道玄坂→銀座→東京→六本木→渋谷駅前

データサイエンス

データサイエンティストにとっては「技術」も「課題解決」も等しく重要

旧知のシバタアキラさん*1が、こんなインタビュー記事に登場されていて話題を呼んでいるのを拝見しました。日本の第一次データサイエンティスト(DS)ブームの最初期から一貫してDSとして活動し、それ以前はポスドク研究者だったという、僕個人にとってはあま…

データ分析をする前に、まず生データを見てみよう

先日ですが、旧知の*1Grahamianさんのこんなツイートが話題になっていました。データ分析をするときシンプルに重要なことは「生のデータを眺める」と「データの分布をグラフにする」ことなんじゃないかと思うんですよね。すぐにクロスとかファネルとかコホー…

人類未曾有の危機に抗いながら、前を向く

これは年末恒例のポエムです。故に皆様にとって役に立ったりあまつさえ学術・技術的に価値ある内容などは何ひとつございませんので、予めご了承ください。

『AI・データ分析プロジェクトのすべて』は駆け出しからベテランまで全てのデータ分析者が読むべき仕事術大全

AI・データ分析プロジェクトのすべて[ビジネス力×技術力=価値創出]作者:大城 信晃(監修・著者),マスクド・アナライズ,伊藤 徹郎,小西 哲平,西原 成輝,油井 志郎,株式会社ししまろ発売日: 2020/12/21メディア: 単行本(ソフトカバー)旧知どころか僕が7年前に…

実験科学の考え方を転じて「ビジネスサイエンス」にする

ワークマンは 商品を変えずに売り方を変えただけで なぜ2倍売れたのか作者:酒井大輔発売日: 2020/06/25メディア: Kindle版先日までこちらの書籍を読んでいました。ここ数年「ワークマンのすごいデータ活用」としてそのデータ活用事例が大いにクローズアップ…

データサイエンス実務の典型的なワークフローを考える

元々Quora英語版で回答を書いた話題なのですが、「データサイエンティストの典型的なワークフロー」というのは当たり前の話題のようでいて意外と難しいトピックです。それこそ例えば巷の営業やエンジニアの人々に向かって「あなたの『職種』の典型的なワーク…

ビジネス実務の現場で有用な統計学・機械学習・データマイニング及びその他のデータ分析手法10+2選(2016年版)

そう言えば3年前にこんなまとめ的エントリを書いたのでした。この内容はそのままかなりの部分が2年前に刊行した拙著の原案にもなったということで、色々思い出深いエントリです。なのですが。・・・この3年の間に統計学・機械学習・データマイニングの諸手法…

グラフ・ネットワーク分析で遊ぶ(5):何となくNIPS2015の共著者グラフを描いてみた

先日閉幕したNIPS2015ですが*1、そう言えばサイト上に全論文のタイトル&著者一覧があるなと思い出したのでした。 ということで、これまでの4回のグラフ・ネットワーク分析特集で学んだことをこの著者一覧に応用してみようかと思います。やったことはごくご…

グラフ・ネットワーク分析で遊ぶ(4):コミュニティ検出(クラスタリング)

ネットワーク全体指標はあまりビジネス的に扱うことが多くないので、代わりに今回はコミュニティ検出(要はグラフ構造内でのクラスタリング)について取り上げます。ただし前回まで参考にしていた『ネットワーク分析』はあまりコミュニティ検出についてそこ…

グラフ・ネットワーク分析で遊ぶ(3):中心性(PageRank, betweeness, closeness, etc.)

ビジネス的に重要度が高いのがこの辺の話題ではないかな?ということで、今回は中心性(centrality)の話題を取り上げてみようと思います。参考文献はいつも通りこちら。 ネットワーク分析 (Rで学ぶデータサイエンス 8)作者: 鈴木努,金明哲出版社/メーカー: 共…

グラフ・ネットワーク分析で遊ぶ(2):最短経路長など

前回の記事に引き続き主に{igraph}の各関数で遊びながらグラフ理論・ネットワーク分析を学ぶこのシリーズですが、今回は様々なノード間の特徴量について見てみます。もちろん今回も参考文献はこちら。 ネットワーク分析 (Rで学ぶデータサイエンス 8)作者: 鈴…

グラフ・ネットワーク分析で遊ぶ(1):グラフ可視化・描画手法

ちょっと興味が湧いてきたので、今後しばらくグラフ理論・ネットワーク分析に力を入れてみようかなと思ってます。ということで『レ・ミゼラブル』の時同様にオープンデータセットを取ってきましょう。 Network data 今回使うのは"Neural network"。これは(…

データサイエンスでワインの味の評価を予測したい

Taste of Wine vs. Data Science from Takashi J OZAKI 先日、とある勉強会で話してきた内容がこちらです。ネタとしてはもう皆さんお分かりでしょうが、以前書いた記事の続きみたいなものです。 ある程度自動的にテイスティング・スコアが付けられれば、世の…

UCI機械学習リポジトリのデータ(など)で遊ぶ(2):『レ・ミゼラブル』の人物相関図

第2回にして既にUCIのデータセットではないんですが(笑)、ちょっと自分の練習も兼ねてご紹介。今回はグラフというかネットワークがお題です。ぶっちゃけ僕自身はグラフ理論&ネットワーク分析は全くもって真面目に勉強してないので、炎上ラーニングも兼ね…

KDD2014に行ってきました

KDD 2014, 8/24-27, New York: Data Mining for Social Good ということで報告が遅くなりましたが、行って参りましたKDD2014 in NYC。かつてアメリカ横断ウルトラクイズで福留さんの「ニューヨークへ、行きたいかーーー!!!」を毎年TVで見ていた世代*1とし…

シリーズUseful R『戦略的データマイニング』『金融データ解析の基礎』ご恵贈いただきました

戦略的データマイニング (シリーズ Useful R 4)作者: 里洋平,金明哲出版社/メーカー: 共立出版発売日: 2014/08/23メディア: 単行本この商品を含むブログを見る金融データ解析の基礎 (シリーズ Useful R 8)作者: 高柳慎一,井口亮,水木栄,金明哲出版社/メーカ…

『手を動かしながら学ぶ ビジネスに活かすデータマイニング』(技術評論社)を書くに当たって気を付けたこと&補足など(追記あり)

追記(2015/03/14) 第7章の決定木のところで取り上げた{mvpart}パッケージのサポートが切れ、CRANから削除されてしまったためinstall.packages関数ではインストールできなくなっています。現在のインストール方法を最後に追記しました。 追記(2014/09/18) 実…

今月下旬に『手を動かしながら学ぶ ビジネスに活かすデータマイニング』(技術評論社)という本を出します

本日、出版元の技術評論社(gihyo)様の公式サイトでオープンになりました。 手を動かしながら学ぶ ビジネスに活かすデータマイニング:書籍案内|技術評論社 そして書影はまだ反映されていないようですが、Amazonでも予約受付が始まった模様です*1。 手を動か…

アソシエーション分析+グラフ構造可視化 ({arules} + {arulesViz}) で教師あり学習の変数重要度を可視化する

グローバルTokyoRで何話そうかなー、と思っていたんですがそう言えば主賓がvisualizationの人なんだったっけなぁということで、可視化の話にでもしようかなと。ということで、僕の大好きなネタでもやろうかと思います。 それは、「とにかく{arules} + {aruls…

前処理なしのトランザクションデータを{arules}パッケージで読み込む方法

実は僕は結構頻繁に{arules}パッケージを使うんですが*1、個人的には汎用性を考えて必ず素性ベクトルの形になるようにデータを前処理して読み込むようにしています。例えばこんな感じ。 ビール ソーセージ 牛肉 ... 1 0 1 ... 0 1 0 ... 1 1 1 ... ... ... .…

「前処理」のフォーマット共通化やOSS化はできないんだろうか

ビジネスの現場のデータ分析における理想と現実 from Takashi J Ozaki 先日Zansaの会でお話してきたんですが、その際にShannon Labの田中社長からこんなコメントをいただいたのでした。 「実際のデータ分析の現場ではデータの前処理にかかる技術的・金銭的コ…

アルゴリズム実装=定量的ソリューション、アドホック分析=定性的ソリューション

これは先日うちの教授氏と話していて出てきた話題なんですが、 データ分析とは「データドリブンなソリューション」を提供すること アルゴリズム実装=定量的ソリューション アドホック分析=定性的ソリューション だよね、という。これは結構一般的なコンセ…

NIPS 2013に参加していました

12/4~12/9(現地時間)の日程で、当地米ネバダ州タホ湖で開催中のNIPS 2013に参加してました。内容的にはdeep learning, online learning, active learningまわりを軸に、朝一番のオーラルではビッグデータやビジネス展開の話も出るなど*1なかなか面白かっ…

現職場の公式テックブログ始まりました

ちらっとTwitterでもコメントしましたが、現職場でも公式ブログ始まりました。テックブログ45選という記事には間に合わなかったのが残念ですが。。。 RCO アドテクLabブログ もうタイトル見たまんまです(笑)。基本的には社内エンジニアによるテックブログ…

たとえ有償でも絶対に引き受けてはいけないデータ分析依頼の3タイプ

id:dscaさんのタダでは引き受けてはいけないネタが大ブレークしてるみたいですね。 データの分析をタダで引き受けてはならない10の理由 - ネガティブにデータサイエンティストでもないブログ 受託系便利屋的なポジションの悲哀が大変よく透けて見える良記事…

第30回データマイニング+WEB@東京(#TokyoWebmining 30th)でお話してきました

タイトルを読んで字の如く、昨日10/19(土)開催のこちらの勉強会でお話してきました。 第30回 データマイニング+WEB@東京( #TokyoWebmining 30th)−機械学習活用・マーケティング 祭り− を開催しました - hamadakoichi blog TokyoRの時と同様、いつもTwitte…

Googleトレンドに見る「データ分析関連キーワード」の栄枯盛衰

最近Googleトレンドを用いて"Statisticians died, as data scientists rise"みたいなひどいことを言っている記事をAnalytic Bridgeで見かけたので、同じようなことを日本語でもやってみようと思ったのでした。 The death of the statistician これに倣っても…

単純な集計とデータサイエンスによる分析とで結果が食い違うかもしれない3ケース

一般に、データ分析の大半はそれほど高度なテクニックの類を必要としないものです。僕も常日頃から口に出して言うことが多いんですが、「統計学だの機械学習だのの出番なんてそもそも少なくて当たり前」。工数もかかるし、できればやらない方が良いです。ぶ…

意外と見極めにくい「CVR向上に最も貢献する行動パターン」

割とどこの現場でもやっている分析として「CVR向上に最も貢献する行動パターン」の同定・抽出というのがあると思うんですが、これって簡単なようで意外と難しいポイントがゴロゴロしてるんですよね。 例えばユーザー行動ログDBからソシャゲのイベントA, B, C…

データサイエンティストを目指すに当たって、ぜひ揃えておきたいテキストたちを挙げてみる

追記2 2015年末の時点での最新リストはこちらです。 追記 この記事の5カ月後にもう少し更新した内容の「お薦め本リスト」記事を2つupしてますのでそちらもお読みください。 2013年秋版:データサイエンティストを目指すなら揃えておくべき10冊 - 六本木で働…