本当は今週はとあるリクエストをいただいた関係でdoc2vecの記事でも書こうかと思っていたんですが、予想以上に前処理に難儀して間に合いそうもないので今回は別の話題でお茶を濁します(笑)。
それは、ワインとデータ分析との関係について。というのも、シルバーウィーク期間中に某所のジュンク堂で立ち読みして感心した以下の本を最近買いましたもので。
- 作者: ジェイミーグッド,Jamie Goode,梶山あゆみ
- 出版社/メーカー: 河出書房新社
- 発売日: 2014/11/12
- メディア: 単行本
- この商品を含むブログを見る
この本はどちらかというとワインそのものと物質科学(特に化学的側面)にスポットライトを当てており、必ずしもデータ分析に関わる話題ばかりを取り上げているわけでもないのですが、それでも市井のワイン愛好家ぐらいではあまり知らないような話がたくさん載っています。
(スペインでは珍しいピノ・ノワールの銘醸ワイン『アクスプ』2011年)
ということで市井のワイン愛好家としての僕は後ほど全文をゆっくり読んで深い薀蓄を味わうとして(笑)、この記事ではデータ分析エキスパートとしての僕が興味を惹かれたところをいくつかピックアップしてご紹介したいと思います。
現代のワイン向けブドウ栽培の主流は「精密ブドウ栽培」(PV: Precision Viticulture)
かつてカレラ・ワイナリーではロマネ・コンティの枝を持って帰ってきた時にそれを植える畑を人工衛星から得た土壌データに基づいて元のロマネ・コンティの畑の土壌に最も近い土地に開墾したという嘘か本当か分からない話が大変有名ですが*1、今やこの手のセンシングデータはワイン向けブドウ栽培ではかなり多用される、という話が本書には出ています。
それを体現する言葉として第1部4章で紹介されているのが「精密ブドウ栽培」(PV: Precision Viticulture)。リンク先のWikipedia英語版記事にもあるように、人工衛星画像・収量モニタ・GPS・マルチスペクトルカメラそして最先端のITシステムと言った、およそ「農家」のイメージからは程遠いようなセンサリングシステムが幅広く使われているんですね。
しかもこれは割と地域差があって、例えば区画ごとの収量の差を均して*2ブドウの果実の成熟度を揃えるために参照するデータとして、カリフォルニアでは衛星データが好まれる一方でオーストラリアでは収穫機に収量モニタを取り付けて対応するのだとか。どちらであってもより成熟した果実は高級ワイン銘柄向けに、やや未熟な果実はデイリーワイン銘柄向けに回され、それぞれ醸造されるように分別されるのだそうで。
なお、面白いのがこれらのリモートセンシングで得られたデータが実際のブドウの果実の状況を正確に反映しているかどうかについても分析がなされているという点。例えばカリフォルニアのロバート・モンダヴィと組んでいるNASAの研究者は「葉面積指数(LAI)」と称する衛星画像から見て取れる樹冠密度が、ブドウの果実の品質と収量とどれくらい関連しているかを調べているという話が紹介されています。他にも南アフリカの大規模ワイナリーでは、成熟度をブドウ果樹の外見からベテランが判定し、これを上記のLAIとよく似た衛星画像で測定可能な指標である「正規化植生指数(NDVI)」との相関を調べたところ有意であったので、養水分ポテンシャル(LWP)という給水に関連する指標*3と併せて活用しているという話も出てきます。
もちろんIoTの展望が開けつつある2013年に出版された本だけあって、将来のアイデアとして例えばIoT的なデータ収集ガジェットを畑全体に配置して明確に個々の果樹にターゲットを絞ったサンプリングを行うとか、地中探査レーダーを用いて畑に穴を掘らずとも地中の特徴を調べるといった展望が述べられています。
本書によればかつてワイン造りと言えば醸造所での仕事がメインでブドウ栽培はその前段階に過ぎないとされていたそうですが、近年はこうした「データドリブンなブドウ栽培」が成果を収め始めたこともありブドウ栽培責任者が注目を集めているそうです。
ビオディナミなど新規農法・醸造法の採用の可否は実験計画に基づくA/Bテストで決まることも
これはどちらかというとフィッシャー以来の農業試験場的な統計学の歴史を考えればむしろワイン向けブドウ栽培では当たり前なんじゃないかという気もするんですが、新しい農法や醸造法の採用を決めるには実験計画に基づく比較、つまりA/Bテストを行うことが多いという話も本書には出てきます。
本書の重要なテーマの一つにビオディナミ*4の科学的検証というものがあるんですが、これの採用の可否を実際にA/Bテストで決めたドメーヌの話が出てきます。曰く、とあるブルゴーニュのドメーヌでとある1級畑を2つに分けて1つの畑では通常の有機農法、もう1つの畑ではビオディナミでブドウを育ててそれぞれワインを仕込み、訪問したイギリスのワイン商の13名にブラインドテイスティングさせたところ、うち12名がビオディナミの方が美味いと答えたというお話。もちろんそのドメーヌでは以後全ての畑をビオディナミに切り替えたそうです。
醸造法でも同様のことが既になされていて、漫画『もやしもん』などでも言及されていますが現代のワイン醸造では熟成工程中の樽からサンプルを取ってきてワインの芳香に関連する化合物の濃度を測定し、それをレーダーチャートにしてまとめるのだとか。これを様々な条件間で比較することで、例えばどんな樽を使うべきか、どの樽職人に頼むべきか*5、はたまたどれくらいの熟成期間を置くべきか、といったことを決めるのに役立つというわけです。
ワインの味の評価はワインの液体に含まれる化合物類の濃度からなる多変量ベクトルによって決まり得る
本書の第3部はヒトの主観としての味覚とワインとの関係について触れていて、もちろんこれも科学的に測定可能な様々な化学指標に基づいて論じられています。そして、主観的な体験であるということを考慮してか、僕の以前の専門であったヒト脳研究であるとか、面白いところだと多数のワインテイスティングの専門家*6のワインを表現する語句を集めてテキストマイニングするとか、そんな取り組みも紹介されています。
興味深い取り組みとしては、そのワインが最も美味いと感じるアルコール度数を決めるというお話。現在だと実は特殊な濾過法でエタノール「のみ」を除去できるので、全く同じワインを少しずつアルコール度数を変えてテイスティングに出すなんて芸当ができるんですねー。他にもワインの味わいを決める揮発性の化合物として400種類ぐらいの物質が同定されているそうで、それぞれについて味わいへの影響が研究されているようですが、ここでは「還元主義的な取り組みでは限界がある」ということが言われていて、僕はちょっともにょったのでした。
というのも、データ分析の世界では単変量で表現できることには限界があり、概して多変量で表現する方がより多彩な現象を扱えると考えられているからです(Univariate stats sometimes fail, while multivariate modelings work well - Data Scientist in Ginza, Tokyo)。おそらく、ここで言われている還元主義とは単変量主義のことを指していて、これに対して僕は「ワインの味わいに影響する各種化合物の濃度からなる多変量ベクトル」こそがワインの味わいを決定し得るんじゃないかと思うのです。
実は、以前渋谷ヒカリエで開催したハンズオンでも紹介したUCI機械学習リポジトリのオープンデータセット"Wine Quality"(UCI Machine Learning Repository: Wine Quality Data Set)をちょろっと機械学習分類器にかけると分かるんですが、ワインに含まれる化合物の含有量から露骨にワインのテイスティングスコアってモデリング&予測可能なんですよね。
www.slideshare.net
確かハンズオンの席上では時間がなくて肝心のWine Qualityのパートは割愛したような記憶があるんですが(汗)、これにまつわる話題を10月に講演することになっていますのでその時にでもまた詳しくお話ししますということで。ちなみに"Wine Quality"のデータセットは説明変数として
- fixed acidity
- volatile acidity
- citric acid
- residual sugar
- chlorides
- free sulfur dioxide
- total sulfur dioxide
- density
- pH
- sulphates
- alcohol
の11種類を挙げています。以前試しにこれでワインのテイスティングスコアを多値カテゴリ変数としてランダムフォレストで適当に分類&予測(holdout)したら72%ぐらいだった、と手元のノートにはあります。今だったらxgboostですかねー。
その他のよしなしごと
なお、この本には他にも色々面白い話が載っていて、例えば「ミネラル」感はそもそも土壌中の無機物とは関係なくむしろ微生物や有機物に関係するとか、亜硫酸塩は多過ぎると良くないが十分に少なくかつ効果的な量を付加すれば大きな意味があるとか興味深いトピックばかりなので、こんな斜め読みもいいところのブログ記事書いただけで満足せずにもう少し精読してみようと思います(笑)。
*1:カレラは否定しているようですがワイン業界的には誰もが信じるネタのようで
*2:他の商業用果実栽培と同じく、収量が多過ぎて果実全体に養分が行き渡らなくなると果実の味が総じて落ちてしまうので、事前に選定や間引きなどで収量をしぼるのが一般的
*3:一般にブドウの果実は水分を含み過ぎると糖度が下がりワインの甘みもアルコール度数も下がってしまうので、果実の生育を妨げない範囲で給水を減らすことが望ましいとされる
*4:人智学に端を発し、時に「宗教的」とも表現される有機農法の一種。農薬使用を排除し、科学的根拠のはっきりしない有機調合剤を用い、農作業のスケジューリングに惑星の運行を参考にするなど、確かに神秘主義的な要素は濃いものの、例えばDRCロマネ・コンティで採用されるなどワイン業界ではそれなりに受け入れられている考え方でもある
*5:何と樽職人の腕によっても樽の芳香の付き方が変わるらしい