渋谷駅前で働くデータサイエンティストのブログ

元祖「六本木で働くデータサイエンティスト」です / 道玄坂→銀座→東京→六本木→渋谷駅前

Python

2024年版:独断と偏見で選ぶ、データ分析職の方々にお薦めしたいホットトピックス&定番の書籍リスト

毎年四の五の言いながら書いている推薦書籍リスト記事ですが、何だかんだで今年も書くことにしました。なお昨年度版の記事を上にリンクしておきましたので、以前のバージョンを読まれたい方はそちらをお読みください。 今回のバージョンでは、趣向をちょっと…

CausalImpactは実装によって中身に重大な差異がある

CausalImpactについては、過去にこのブログでも何度か話題にしてきたかと思います。端的に言えば、seasonalityによるバイアスを補正するための実験計画であるDID(Difference in Differences:差分の差分法)によって得られたtest/controlグループの時系列デ…

2023年版:実務データ分析を手掛けるデータサイエンティスト向け推薦書籍リスト(初級6冊+中級8冊+テーマ別15冊)

(Image by wal_172619 from Pixabay)去年で恒例の推薦書籍リストの更新は一旦終了したつもりだったんですが、記事を公開して以降に「これは新たにリスト入りさせないわけにはいかない!」という書籍が幾つも現れる事態になりましたので、前言撤回して今年も…

Lightweight MMM:NumPyroで実装されたベイジアンMMMフレームワーク

以前「Ads carryover & shape effects付きのMedia Mix Modeling」という記事で取り上げたベイジアンMMMのtechnical report (Jin et al., 2017)ですが、当時RStanで実装されていたものが4年の時を経て時代の趨勢に沿う形でPythonベースのOSSとしてリリースさ…

生TensorFlow七転八倒記(11):TensorFlow周りの最近のアップデートについて

2年ぐらい前に必要があって生TensorFlowとTensorFlow-Hubによる様々なモデルやフレームワーク並びに事前学習済みモデルの実装を試していたのですが、TF2の浸透に伴いそれらの多くの仕様が変更になっており、中には回らなくなっていたコードもあったので、そ…

TensorFlow Probabilityを試してみる(1): 定番のEight SchoolsのモデリングをRStanと比較する

先日の記事でも書いたように、どうもここ最近RStan周りの環境が色々厳しくなっている気がしていて、仮にRStanが今後環境面での不具合やミスマッチなどで使えなくなったらベイジアンモデリングやれなくなって困るかも。。。という危惧を最近抱きつつあります…

Fashion-MNIST: 簡単になり過ぎたMNISTに代わる初心者向け画像認識ベンチマーク

(MNIST database - Wikipedia) 僕は画像認識分野は門外漢なのですが、ここ最近初心者向けにCNNのトレーニングを行うことを企画していて、その目的に適した画像認識のオープンデータセットを探していたのでした。 というと誰しも思いつくのがMNISTではないか…

「データ分析をやるならRとPythonのどちらを使うべき?」への個人的な回答

(Background image by Pixabay)最近また「データ分析をやるならRとPythonのどちらでやるべきか」という話題が出ていたようです。 言語仕様やその他の使い勝手という点では、大体この記事に書いてあることを参考にすれば良いと思います。その上で、人には当然…

AutoML Natural Languageで青空文庫に収録された作家8名の文章を分類してみる

先日の記事ではAutoML Tablesを試してみましたが、調子に乗ってこれまで触ってこなかったAutoML Natural Languageも試してみようと思ったのでした。 以前の記事にも書いたように、僕は元々自然言語処理が苦手でTensorFlow Hubのpre-trained modelによるfine-…

AutoML Tablesと他の機械学習モデルとのパフォーマンス比較をしてみた(追記あり)

以前よりGoogleではCloud AutoMLという"Learning to learn"フレームワークによる「人手完全不要の全自動機械学習モデリング&API作成」サービスを展開してきていましたが、それらは画像認識や商品推薦はたまた自然言語処理がメインで、最もオーソドックスな…

TensorFlow Probabilityのtfp.stsモジュールを使って構造時系列モデリングを回してみる

TensorFlow Probability (TFP)がリリースされてからしばらく経ちますが、最近になってこんなモジュールが公開されたと知りました。 Framework for Bayesian structural time series modelsと題されている通りで、ズバリTFPでベイズ構造時系列モデルを推定す…

生TensorFlow七転八倒記(10):テキストデータをTF-Hubでfeature vectorに直してからt-SNEにかけてみる

今回もただの備忘録ですが、どちらかというと番外編です。TensorFlow部分はあくまでもTF-Hubでテキストデータをfeature vectorに直すところまでのみで、そこから先は今まであまり試してこなかったt-SNE (t-distributed stochastic neighbor embedding)を使っ…

生TensorFlow七転八倒記(9):TF-Hub embeddingを利用して感情分析してみる

これまた小ネタです。大したことはしていないので、興味のない方は読み飛ばしてくださって結構です。今回のお題は、感情分析(sentiment analysis)です。題材として選んだのは、上記のオープンデータセットです。 一般に、感情分析自体はNLPが苦手な僕から見…

『機械学習のエッセンス』はゼロからガチで機械学習を生業にしたい人が「いの一番に」読むべき一冊

機械学習のエッセンス -実装しながら学ぶPython,数学,アルゴリズム- (Machine Learning)作者: 加藤公一出版社/メーカー: SBクリエイティブ発売日: 2018/09/21メディア: 単行本この商品を含むブログを見る発売されてからだいぶ経ちますが、構想段階の頃より著…

生TensorFlow七転八倒記(8):YouTubeのコメントデータセットをTF-Hub embeddingで特徴量変換してスパム判定してみる

せっかくの週末にもかかわらず台風が来てしまい、テニスも出来なければ街歩きも出来ず暇を極めることになってしまったので、UCI ML repositoryを眺めていて見つけた適当なデータセットに対してTensorFlowで遊ぶということをしてみました。 基本的にはこのシ…

生TensorFlow七転八倒記(7):TensorFlow Hubの通常の英語コーパスではなくWikipedia英語版コーパスのtext embeddingを使ってみた

これは前回の記事の続きです。 小ネタにしてただの備忘録ですので、予めご了承ください。 前回の記事で元々参考にさせていただいた以下のブログ記事なんですが、これは基本的に英語NNLMの128次元embeddingで試したものなんですね。そのままやるとACC 0.965ぐ…

生TensorFlow七転八倒記(6):TensorFlow Hubのtext embeddingsを使って日本語テキストを分類してみた(追記あり)

だいぶ久しぶりの生TensorFlow七転八倒記です。今回もただの備忘録につき、何一つ新しいことも参考になることも書いておりませんし、クソコードの羅列でしかありませんので、何か調べ物でたどり着かれた方はこの記事のリンク先などなどをご覧ください。 今回…

機械学習をやる上で必要な数学とは、どの分野のどのレベルの話なのか(数学が大の苦手な人間バージョン)

しばらく前にこんな記事が出ていたのをお見かけしました。 明らかにこれは僕が某所(笑)で適当に放言したことがきっかけで巻き起こった議論の一旦なのではないかと思うのですが、個人的にはこちらの@yohei_kikutaさんの仰る通りで大体良いのではないかと考…

まとめて書評:ネットワーク分析第2版・Rによる自動データ収集・仕事ではじめる機械学習

今年も何冊か書籍をご恵贈いただいたんですが、忙しかったり他に書きたい記事があったりでそのタイミングで書評を書きそびれたものを、大変恐縮ですがこのタイミングでまとめて書かせていただこうかと思います。

生TensorFlow七転八倒記(5):ようやくCNNまでたどり着いた

前回の記事でようやくDeepっぽいところまで来たので、そのままさっさとDeepらしさの象徴でもあるCNN (Convolutional Neural Network)にいってしまおうと思います。ちなみに今回も大して参照していませんが、参考文献として深層学習青本を掲げておきます。深…

生TensorFlow七転八倒記(4):簡易版MNISTをMLPで分類してみる

出張していたり足底筋膜炎にかかったりしているうちに、すっかり生TensorFlowの勉強が滞ってしまっていました。とりあえず先に進みます。いつも通りですが、特に意味はないものの教科書としてこちらを挙げておきます。深層学習 (機械学習プロフェッショナル…

生TensorFlow七転八倒記(3):まずは神妙に隠れ層1個のNNで誤差逆伝播をやってみる

何となくTFのお作法が分かってきたのでどんどん先に行きます。そう言えばただの備忘録なので何一つ出典とか参考文献とか書いてませんが、このシリーズでやっていることの理論的基礎は深層学習青本がほぼ全てカバーしています。深層学習 (機械学習プロフェッ…

生TensorFlow七転八倒記(2):線形回帰を無意味に勾配法でやる

前回はロジスティック回帰をやったんですが、そう言えば普通の線形回帰やってなかったのでやっておきます。線形回帰は漫然とOLSでやるなら普通に逆行列計算しておしまいなんですが、それだと面白くないのであえて勾配法でやるという間抜けなことをやろうと思…

生TensorFlow七転八倒記(1):基本的なロジスティック回帰まで

よくよく考えてみたら、TensorFlowをバックエンドとしてKerasを回したりさらにR上で動かしたりしたことはあるものの、肝心のTensorFlowを生で書いたことって数えるくらいしかなかったのでした。これではいかんと思うので、今更ながらですがTensorFlowを生で…

KerasをTensorFlowバックエンドで試してみた:「もっと多くの人に機械学習とDeep Learningを」という時代の幕開け

(左:Keras、右:MXnet)Kaggle Masterの間ではMXnetよりさらに人気なDeep Learningフレームワークというかラッパーが、@fchollet氏の手によるKeras。 Keras Documentation 結構苦心したのですが、ようやく手元のPython環境で走るようになったので、試して…

PTGH:機械学習パラメータチューニングをDeep LearningとMCMCで高速に最適化するフレームワーク

苦節2年、とうとう完成しました。機械学習のパラメータチューニングに悩める皆さんのために、コーディングも数学も大の苦手な僕が頑張って作りました。それがPTGH (Parameter Tuning by God's Hand)フレームワークです。RでもPythonでも動きます。中身として…

ビジネス実務の現場で有用な統計学・機械学習・データマイニング及びその他のデータ分析手法10+2選(2016年版)

そう言えば3年前にこんなまとめ的エントリを書いたのでした。この内容はそのままかなりの部分が2年前に刊行した拙著の原案にもなったということで、色々思い出深いエントリです。なのですが。・・・この3年の間に統計学・機械学習・データマイニングの諸手法…

不均衡データをSVMでクラス分類するにはどうすれば良いか

今年のKDD cupが絵に描いたような不均衡データ(正例と負例との数的比率が極端に偏っているデータ)で苦労させられたので、ちょっと調べたら色々と良い方法があるなぁと気が付きましたよということで備忘録的に紹介しておきます。 ちなみにググったら普通に@…

青空文庫のデータを使って、遅ればせながらword2vecと戯れてみた

もう既に山ほど解説記事が出回っていて、あまつさえそれを利用したwebサービスまで出てきてしまっているword2vecですが、うちの現場でも流行っているのでせっかくなので僕もやってみようと思い立ったのでした。 word2vecそのものについては昨年来大量にブロ…

2014年春版:ビジネスにおけるデータ分析のプロを目指すなら揃えておくべき12冊

さて、前回リストの記事から半年ぐらい経ちましたよーということで、それ以降に発刊された書籍などを吟味した上で更新したリストをお届けしたいと思います。といっても引き続き今回のリストにも入っているものが多いので変わり映えしないかもですが。。。 前…