渋谷駅前で働くデータサイエンティストのブログ

元祖「六本木で働くデータサイエンティスト」です / 道玄坂→銀座→東京→六本木→渋谷駅前

生TensorFlow七転八倒記(9):TF-Hub embeddingを利用して感情分析してみる


これまた小ネタです。大したことはしていないので、興味のない方は読み飛ばしてくださって結構です。今回のお題は、感情分析(sentiment analysis)です。題材として選んだのは、上記のオープンデータセットです。


一般に、感情分析自体はNLPが苦手な僕から見ると鬼門も良いところで、例えば以下のQiitaの記事などを拝見していると「こういう細かく丁寧な分析は自分には難しいなぁ」と思ったりしてました。

ところが、NLPそのものは既にこのシリーズ記事でも見てきたようにある程度TF-HubのNNLMを使えばスキップすることが可能で、しかもよくよく見たらTF-Hubのtutorial自体がそもそも感情分析のデモなんですね。

なので、先に感情スコアのラベルがついた学習データ&テストデータがあれば、簡単に実践できるのではないかなと思ったのでした。


ということで、これまで通りTF-HubのNNLMを使って適当にやってみることとします。いつもながらですが、誤っている部分などあればご指摘いただけると幸いですm(_ _)m

続きを読む

単純なK-meansと{TSclust}のDTWによる時系列クラスタリングとではどう違うのか実験してみた

これは単なる備忘録です。詳細を知りたいという方は、この記事の元ネタになった以下のid:sinhrksさんの記事をお読みください。



ここでの問題意識は非常にシンプルで「そもそも時系列クラスタリングをかなり膨大な行数のデータに対して実行する際にどれほど厳密にやるべきか?」というお話です。というのも、たかだか数百行ぐらいのデータならリンク先にもあるように動的時間伸縮法(Dynamic Time Warping: DTW)で距離行列を求めてhclust関数で動く階層的クラスタリングでやるのが正しいと思うのですが、これが1万行とか10万行とかになるとそもそもdiss関数やhclust関数が重過ぎて動かないわけです。


そういうケースで、例えば原理的には正しくないのを承知の上で単純なK-means(リンク先にあるような{flexclust} + DTWでやるのではなく)でやっても、それなりの精度が出せるのであれば「仮に」使う目的で代用しても良いのかどうか?というのが気になった、というのが今回の記事のモチベーションです。言い方は悪いですが「K-meansで何とかなるのなら大規模データにはK-meansで代用してしまう」が是か非かを知りたい、ということです。


ということで、面倒なので一気に本題に行きたいと思います。

続きを読む

機械学習システム開発や統計分析を仕事にしたい人にオススメの書籍初級5冊&中級10冊+テーマ別9冊(2019年1月版)

f:id:TJO:20180930165417p:plain
(Image by Pixabay)

この記事は以前の書籍リスト記事のアップデートです。

機械学習エンジニアやデータサイエンティストとして(もしくはそうではない職名であったとしても)機械学習システム開発や統計分析を仕事にしたい人なら、最低限これだけは読んでおいて損はないだろうという書籍を初級向け5冊、中級向け10冊選定しています。ただし、以前とは若干異なり「仕事にする」イコール「プロフェッショナルを目指す」ということで、特に初級向けリストを若干レベルアップさせています。中には初学者でも結構読みこなすのが難しい本だけになっているかもしれませんが、中級向けリストに進む上でどうしてもこれだけは読破して欲しいという願望も込めました、ということで。


完全にお馴染みのネタなので特に説明することはないかと思いますが、言うまでもなく以下のリストは完全なる僕個人の独断と偏見で、最近出版されたり自分で読んだ本から選んだものです。このリストのご利用は皆様の自己責任でお願いいたしますm(_ _)m

続きを読む