渋谷駅前で働くデータサイエンティストのブログ

元祖「六本木で働くデータサイエンティスト」です / 道玄坂→銀座→東京→六本木→渋谷駅前

2017-01-01から1年間の記事一覧

最先端と泥臭い実務の現場とのはざまで、生きる

(Photo by Pixabay)これはただの年末ポエムです。何ひとつとして高度に技術的な話もなければ、ためになる話もありませんので予めご了承ください。時が流れるのは早いもので、僕がインダストリーにおけるデータ分析の仕事を手がけるようになってから5年目の今…

「人工知能」と「データサイエンティスト」の2つのブームの関係性をGoogleトレンドのデータから眺めてみる

そう言えば、ちょっと前のデータ分析業界5年間振り返り記事で「人工知能ブームに引っ張られてデータサイエンティストブームも再燃しつつある」みたいなことを書いたわけですが、本当にそうなんだっけ?というところをこれまでに検証したことはなかったなぁと…

(追記5件あり)統計モデリング基礎論再び:データの生成過程から見てGLMが最適な場合にあえて線形回帰を当てはめてみる

この記事は、遥か昔のこちらの記事の続きのようなものです。また何度も何度も恐縮ですが、今回の記事内容も付け焼き刃で書いているので色々間違っている可能性があります。お気付きの方は是非ご指摘くださいm(_ _)m各方面のエコノメトリシャンの方々と上記記…

まとめて書評:ネットワーク分析第2版・Rによる自動データ収集・仕事ではじめる機械学習

今年も何冊か書籍をご恵贈いただいたんですが、忙しかったり他に書きたい記事があったりでそのタイミングで書評を書きそびれたものを、大変恐縮ですがこのタイミングでまとめて書かせていただこうかと思います。

生TensorFlow七転八倒記(5):ようやくCNNまでたどり着いた

前回の記事でようやくDeepっぽいところまで来たので、そのままさっさとDeepらしさの象徴でもあるCNN (Convolutional Neural Network)にいってしまおうと思います。ちなみに今回も大して参照していませんが、参考文献として深層学習青本を掲げておきます。深…

生TensorFlow七転八倒記(4):簡易版MNISTをMLPで分類してみる

出張していたり足底筋膜炎にかかったりしているうちに、すっかり生TensorFlowの勉強が滞ってしまっていました。とりあえず先に進みます。いつも通りですが、特に意味はないものの教科書としてこちらを挙げておきます。深層学習 (機械学習プロフェッショナル…

シリコンバレーそしてマウンテンビューに行ってきました

単に仕事で出張してきただけでぶっちゃけ何か特別なことをしたわけではないので、とりあえず適当に写真ギャラリーを並べておきます。

個人的に5年間のデータ分析業界見聞録をまとめてみた

(Photo credit: https://pixabay.com/en/data-dataset-word-data-deluge-1188512/) 人工知能ブームで世間が喧しい昨今ですが、それに伴って往年に見かけたような内容のビッグデータ論やデータサイエンティスト論や機械学習システム論が再び出回るようになっ…

生TensorFlow七転八倒記(3):まずは神妙に隠れ層1個のNNで誤差逆伝播をやってみる

何となくTFのお作法が分かってきたのでどんどん先に行きます。そう言えばただの備忘録なので何一つ出典とか参考文献とか書いてませんが、このシリーズでやっていることの理論的基礎は深層学習青本がほぼ全てカバーしています。深層学習 (機械学習プロフェッ…

生TensorFlow七転八倒記(2):線形回帰を無意味に勾配法でやる

前回はロジスティック回帰をやったんですが、そう言えば普通の線形回帰やってなかったのでやっておきます。線形回帰は漫然とOLSでやるなら普通に逆行列計算しておしまいなんですが、それだと面白くないのであえて勾配法でやるという間抜けなことをやろうと思…

生TensorFlow七転八倒記(1):基本的なロジスティック回帰まで

よくよく考えてみたら、TensorFlowをバックエンドとしてKerasを回したりさらにR上で動かしたりしたことはあるものの、肝心のTensorFlowを生で書いたことって数えるくらいしかなかったのでした。これではいかんと思うので、今更ながらですがTensorFlowを生で…

実務の現場に多い時系列データ分析の際に注意しておきたい点を列挙してみる

こういうメタ分析系の記事を書く時というのは大抵ネタ切れの時なんですが(汗)、最近になってこの辺のポイントでつまずいて困っているビジネスデータ分析の現場の話を聞くことがまた増えてきたので自分向けの備忘録も兼ねて記事としてまとめておきます。 そ…

データ分析職に採用されるために必要な「実務経験」をいかにして積むべきか

(Photo credit: https://pixabay.com/en/team-businessmen-competence-2651909/) 元々書いていたネタが間に合わない*1っぽいので、ふと色々な記事を眺めていて思い出したネタで与太記事を書きます(笑)。と言ってもこれは実は色々なところで色々な人から相…

NN Playgroundに出てくる「渦巻きサンプルの二値分類」を学習器を変えながら試してみる(追記あり)

A Neural Network PlaygroundというDeep Learningのパラメータを変えながらその挙動を見て学べる(楽しめる)サイトがTensorFlowプロジェクトからの提供であるんですが、そのサンプルデータセットの4番目に「渦巻きサンプル」(別名「スイスロール」)があり…

不均衡データをundersampling + baggingで補正すると汎化性能も確保できて良さそう

弊社のランチゲストにお招きしたことのある[twitter:@tmaehara]さんが、こんなことをツイートしておられました。imbalanced data に対する対処を勉強していたのだけど,[Wallace et al. ICDM'11] https://t.co/ltQ942lKPm … で「undersampling + bagging を…

トレンド・季節調整付き時系列データの回帰モデルを交差検証してみる

これは実は既に元ネタのあるテーマです。 Cross-validation for time series | Rob J Hyndman 個人的にはトレンド・季節調整付き時系列データの回帰モデルをやる場合はほぼ例外なくベイジアンモデリングで回すんですが、一般にベイズ系のモデルは例えばWAIC…

ハワイに行ってきました:アウラニ&ワイキキ滞在記

7/2-8の日程で、6月の登壇仕事*1のお疲れ様会も兼ねてハワイ旅行に行ってきました。5泊7日の旅程のうち、3泊はオアフ島西海岸カポレイ地区のコオリナ・リゾート内にあるアウラニ・ディズニー・リゾート&スパに滞在し、残り2泊はワイキキに滞在するという日…

データサイエンティストもしくは機械学習エンジニアになるためのスキル要件とは(2017年夏版)

この記事は2年前の以下の記事のアップデートです。前回はとりあえずデータサイエンティストというかデータ分析職一般としてのスキル要件として、「みどりぼん程度の統計学の知識」「はじパタ程度の機械学習の知識」「RかPythonでコードが組める」「SQLが書け…

RにTensorFlow + Kerasを実装した{keras}パッケージがやって来たので試してみた(追記2件あり)

Python側でのTensorFlowの隆盛を他所に、R側では{tensorflow}も使いにくいし*1これはPythonistaに転生しなければならんのかなぁ。。。ということを思っていたら、出ました。あのKerasのRパッケージです。インストール手順は普通にhttps://rstudio.github.io/…

企業に移って5年が経ちました

月日が経つのは早いもので、かつてボンクラ研究者だった僕が企業(そしてインダストリー*1)に移ってからちょうど今日で5年が経ちました。インダストリーに移ってからのこの5年間で様々なことを体験し、あるいは見聞し、あるいは決断したりしてきたわけです…

異常検知に用いられる1クラスSVMの決定境界をパラメータを変えながら描いてみた

これは前回の記事の補足です。もう見たまんまで「そもそも1クラスSVMの決定境界を具体的に描画してみたらどうなるんだろう?」という興味を持ったので、漫然と2次元でやってみます。前回の記事同様、1クラスSVMの推定に用いるのは{e1071}パッケージのsvm関数…

Rで異常検知(3): 非正規データからの異常検知(カーネル密度推定・EMアルゴリズム・K-means・1クラスSVM)

(注:ただの備忘録ゆえ、ほぼ確実に後で追記が出る見込みです)今回はコロナ社井手本の第3章を取り上げます。入門 機械学習による異常検知―Rによる実践ガイド作者: 井手剛出版社/メーカー: コロナ社発売日: 2015/02/19メディア: 単行本この商品を含むブログ…

論文メモ:Empirical assessment of published effect sizes and power in the recent cognitive neuroscience and psychology literature (Szucs & Ioannidis, PLoS Biol, 2017)

以下のメタアナリシス論文がしばらく前に話題になっていました。このようなメタアナリシスを紐解くことで検定力・効果量がどういうものかという理解も進むのではないかと思われますので、以前の機械学習系論文の輪読まとめと同様に全引用or全訳にならない程…

『ビッグデータ分析・活用のためのSQLレシピ』はデータ分析でSQLクエリを叩く人なら必読の黒魔術大全

こちらの本をご恵贈いただきました。ビッグデータ分析・活用のためのSQLレシピ作者: 加嵜長門,田宮直人出版社/メーカー: マイナビ出版発売日: 2017/03/27メディア: Kindle版この商品を含むブログを見る一般的なSQLの本というのはDB管理の一環としてのインフ…

データ前処理コンペサイト"Struggle"を開設しました

機械学習コンペと言えばKaggleというのはもはや世の中の常識(一部誇張表現あり)になりつつありますが、「データ分析プロジェクトの8割が前処理」という現実を目の当たりにし続けている身としては「そんなRDBSにデータが入った先の綺麗なところで戦うのもあ…

データサイエンティストもしくは機械学習エンジニアを目指すならお薦めの初級者向け6冊&中級者向け15冊(2017年春版)

(Photo credit: https://pixabay.com/en/books-door-entrance-italy-colors-1655783/)この記事は一昨年のこの書籍紹介記事のアップデート版です。相変わらず毎月のように新刊書が出続けるデータ分析業界ですが、良い本が増え続けてきたせいでついに初級者向…

ベイズ構造時系列モデルを推定する{bsts}パッケージを試してみた

Rパッケージ紹介ばかりが続いていて恐縮ですが。。。最近になってこんなものがFacebookからリリースされていたのを知りました。これはこれで使いやすそうだなと思ったんですが、実はGoogleからも同様のMCMCサンプリングベースの時系列分析向けCRANパッケージ…

メモリに乗り切らない大容量データ相手にL1正則化回帰を回せる{biglasso}パッケージを試してみた

今回は小ネタ。ボサーっとCRAN Task View: Machine Learningを眺めていたらこんなものを見つけました。これ、カラクリは簡単で単にR側にはデータのポインタしか渡さず、データの実体はストレージからオンライン(ストリーミング)で読み込むようにしていると…

単変量時系列分析の続き:ARIMA vs. ETS vs. Robust ETS

この記事は4年前の以下の過去記事の続きです。大変遅まきながら*1、最近になって単変量時系列モデリングの手法としてARIMA / DLM以外にも幾つか方法があるのだということを知りました。一つは指数平滑法というかExponential Smoothing State Space Model (ET…

Rで異常検知(2): 正規分布に従うデータからの異常検知(ホテリング理論・MT法)

さて、気紛れから始まったこのシリーズですが。今回は第2章を取り上げます。入門 機械学習による異常検知―Rによる実践ガイド作者: 井手剛出版社/メーカー: コロナ社発売日: 2015/02/19メディア: 単行本この商品を含むブログ (4件) を見る多変量かつ非正規デ…