六本木で働くデータサイエンティストのブログ

元祖「銀座で働くデータサイエンティスト」です / 道玄坂→銀座→東京→六本木

データサイエンスでワインの味の評価を予測したい


先日、とある勉強会で話してきた内容がこちらです。ネタとしてはもう皆さんお分かりでしょうが、以前書いた記事の続きみたいなものです。



ある程度自動的にテイスティング・スコアが付けられれば、世の中にゴマンとあるWine AdvocateやWine Spectatorのサーチに引っかからないようなワインの数々にも化学測定指標だけからスコアを付けることができて、僕のような素人がワインを選ぶ際の良い参考になると思うんですよね。そんな思いを込めた発表をしてきました。


ところで会場での質疑でもあったんですが、この手の「ヒトの手で教師ラベルをつけた学習データ」を扱う上での最大の問題は、当然ながら「教師ラベルをつけた個々人の好みが出てしまう」点かと。なのでこれはもう仕方ないので、例えば「Wine Advocateの教師ラベル」とか「Wine Spectatorの教師ラベル」とか「Guia Peninの教師ラベル」みたいに目的変数を分けるとか、さもなくばそれらを平均するなどして統合するしかないのかなぁとは思います。


ちなみにランダムフォレストの結果は不均衡データのために74%程度とあまり高くならないのかなぁ、と思ってclasswt引数で補正をかけてみたところ何と73%に下がりましたorz なかなか難しいですね。。。