だいぶ久しぶりの生TensorFlow七転八倒記です。今回もただの備忘録につき、何一つ新しいことも参考になることも書いておりませんし、クソコードの羅列でしかありませんので、何か調べ物でたどり着かれた方はこの記事のリンク先などなどをご覧ください。
今回やろうと思ったのはテキスト分類です。というのは、従前はテキスト分類と言えば特徴量(=単語)がスパースゆえ潜在的な意味の類似性とかを勘案してモデリングしようと思ったらトピックモデルでやるしかないと思っていたのでした。トピックモデルについてはこちらの解説が今でも分かりやすいと思います。
ところが、TensorFlow Hubで学習済みのword embeddingsモデルが提供されるようになり、トピックモデルを使わなくてもword2vecと同じ理屈で、個々のドキュメントの内容をある決まった次元の特徴空間に射影したベクトルを使って、機械学習分類器をモデリングできるようになったと知りました。これはやるしかないでしょう。
ということで、実際にTensorFlow Hubの学習済みtext embeddingsモデルを使ってやってみます。基本的にはTensorFlow Hubの公式チュートリアルをなぞっているだけですが、分かりやすくまとめてくださった方のブログ記事があるのでそちらを参照します。
ちなみに某所でコードの不具合を聞きまくったせいで、わざわざ追記していただいてしまったようで。。。有難うございますm(_ _)m