渋谷駅前で働くデータサイエンティストのブログ

元祖「六本木で働くデータサイエンティスト」です / 道玄坂→銀座→東京→六本木→渋谷駅前

生TensorFlow七転八倒記(7):TensorFlow Hubの通常の英語コーパスではなくWikipedia英語版コーパスのtext embeddingを使ってみた

これは前回の記事の続きです。

小ネタにしてただの備忘録ですので、予めご了承ください。


前回の記事で元々参考にさせていただいた以下のブログ記事なんですが、これは基本的に英語NNLMの128次元embeddingで試したものなんですね。そのままやるとACC 0.965ぐらい出ます。


で、ボサーッとTensorFlow Hubのサイトを眺めていたら、NNLMの中に英語版Wikipedia記事をコーパスにして500次元のembeddingにまとめるモデルがあるなと気付きまして。ということで、面白そうなのでこのモデルを使ってやり直してみました。以下にその詳細を書いておきます。

続きを読む

生TensorFlow七転八倒記(6):TensorFlow Hubのtext embeddingsを使って日本語テキストを分類してみた(追記あり)

だいぶ久しぶりの生TensorFlow七転八倒記です。今回もただの備忘録につき、何一つ新しいことも参考になることも書いておりませんし、クソコードの羅列でしかありませんので、何か調べ物でたどり着かれた方はこの記事のリンク先などなどをご覧ください。


今回やろうと思ったのはテキスト分類です。というのは、従前はテキスト分類と言えば特徴量(=単語)がスパースゆえ潜在的な意味の類似性とかを勘案してモデリングしようと思ったらトピックモデルでやるしかないと思っていたのでした。トピックモデルについてはこちらの解説が今でも分かりやすいと思います。

ところが、TensorFlow Hubで学習済みのword embeddingsモデルが提供されるようになり、トピックモデルを使わなくてもword2vecと同じ理屈で、個々のドキュメントの内容をある決まった次元の特徴空間に射影したベクトルを使って、機械学習分類器をモデリングできるようになったと知りました。これはやるしかないでしょう。


ということで、実際にTensorFlow Hubの学習済みtext embeddingsモデルを使ってやってみます。基本的にはTensorFlow Hubの公式チュートリアルをなぞっているだけですが、分かりやすくまとめてくださった方のブログ記事があるのでそちらを参照します。

ちなみに某所でコードの不具合を聞きまくったせいで、わざわざ追記していただいてしまったようで。。。有難うございますm(_ _)m

続きを読む

多重比較補正のはなし

最近になって、データ分析界隈で多重比較補正が話題に上ることが増えていると聞きまして。一方で、僕自身も何を隠そう研究者時代の専門分野が長年多重比較補正の問題に悩まされてきた分野だったこともあって、かなり若い頃から多重比較補正については色々勉強したり実践したり検討したりしてきたものでした。


ちなみに下記のリンクはその分野で広く使われている多重比較補正の方法論に重大な瑕疵があるのではないかと指摘した2年前の論文で、曰く「理論上は偽陽性(false positives)5%で済むはずのものが実際には偽陽性が最大70%に達する可能性がある」とのこと*1

事によっては15年間に渡る40000件の研究が実は偽陽性まみれだったという可能性もあるという話で、多重比較補正って怖いんだなぁとつくづく思う次第です。


閑話休題。このように多重比較補正というのは「偽陽性」という統計データ分析においては厄介な問題と密接に関わるものでもあります。そんなわけで、この記事では昔勉強した内容を思い出しながら多重比較補正にまつわるあれこれを書き綴ってみようとかと思います。特に学術的にきっちりとした議論をするつもりはないので、内容としてはほんのさわり程度に留めます。


そうそう、今回の話題も僕自身頑張って勉強していた頃から既に6年以上が経って曖昧な記憶を思い出しながら書いている有様なので、間違っているところが多々あるかもしれません。いつも通りご意見ご指摘などあればどしどしお寄せいただけると有難いですm(_ _)m

*1:興味のある人は論文に加えてここを読むとよろしいかと Statistical parametric mapping (SPM) - Scholarpedia

続きを読む