相変わらずうちのチームでは論文輪読会をやってまして、先日僕が担当したのが「21世紀の相関の本命」HSIC (Hilbert-Schmidt Independence Criteria)の原論文たるこいつ↓でした。
HSICと言えば@motivic_氏の手による一昨年夏のTokyoRでの発表が一番ナイスな解説だと思います。
追記
HSIC関連だと鈴木先生のこれもお勧め(昔紹介したかも Bayes Independence Test - HSIC と性能を比較する- http://t.co/IMWUpB5qEu
— motivic (@motivic_) 2015, 1月 15
だそうです。
ということではっきり言ってそっちを読んだ方が早いです&ここで公開するのは前回同様メモ形式の資料どころか逐次訳みたいな駄文ということで。。。"Understanding Dropout"論文の時と同様に本文を読みながら併せて参照するメモとしてご利用ください。
概要
問題意識として「非線形な関係の相関を見る」のは難しいというものがある。例えば、という放物線を考えた時にとの関係性を、普通にピアソンの積率相関係数で計算すると(当たり前だが)途方もなく低い値になる。だがそもそもの式を考えれば、ととの間には非常に密接な関係があるはずで、これを検出出来たら(それこそモデルとなる式やらその次数やらも考える必要すらなくて)素晴らしい話ではある。
それを実現するために、この論文ではデータを再生核ヒルベルト空間(RKHSs)に飛ばし、そこでの関係性を見ることで非線形でも関係性を見出す(≒独立性の検定を行う)という手法を提案している。なお、author listを見れば分かるようにSmolaも名前を連ねている。
1 Introduction
これまでの取り組みのおさらい。非線形相関の取り組みは色々あったが、ここではi)Renyiの独立性検定に属するものと、ii)カーネル法に基づくものを主にfeatureしている。そのii)の親玉としてここでは自らが提案するHSICを推しており、その理由として以下のように述べている。
- empirical estimateは単純で良い:グラム行列の積のtraceで済む。しかも追加で正則化などする必要もない
- サンプルサイズmに対しての学習係数という収束の速さ
- 有限サンプルバイアスはと低い
- そしてICAよりも「独立性」の検出という点では優れている
とりあえず詳細はこの後の2~3章で見ていきましょうということで。
2 Cross-Covariance Operators
ここからHSICの肝となる、RKHSs同士のcross-covarianceを与える作用素の話。以下参考資料など。
2.1 RKHS Theory
まずはカーネル法のおさらい(例えばSVMでのカーネル化を思い出そう*1)。
ここではからへの関数から成るヒルベルト空間を考える。定義としては各々のに対して、Dirac evaluation operator(←これ何だか分からない:ディラックのデルタ関数?)がからへの写像となる場合に、は有界関数的(bounded linear functional)であると呼ばれる。
の個々の要素に対して、が一意な正定値カーネルである時、なる要素に対応する。
なお、今後の議論のため特には可分(separable)であることを要件とする(完全な正規直交系を持っていなければならない)。
文献[12]の定理7で指摘されているように、可分なにおけるいかなる連続なカーネルも可分なRKHSを導く。
ここではとは異なる別のRKHSとして可分空間へのRKHS (カーネル、特徴写像から成る)を仮定する。
その次は具体的なHilbert-Schmidt (HS)各指標の定義。
(1)式がHSノルムの定義で、内積の二乗和で表される。を線形作用素として、 ただしはの正規直交基底。
その下の式がHS作用素。HSノルムが存在する場合、はHS作用素と呼ばれる。HS作用素の集合は可分なヒルベルト空間で、以下の内積を伴う。
(2)式はHSテンソル積。およびとすると、テンソル積作用素は全てのに対して
(3)式は(2)式をさらにHSノルムで書き換えたもの。
3 Empirical Criterion
HSICで独立性検定を実施するにはもう3ステップ必要。ここではその3ステップについて説明する。
まず、を有限なサンプルに対して近似させる必要がある。次に、この近似が正しくHSICに有効に収束することを示す必要がある。最後に、HSICの一致性について示す必要がある。3節では1つ目のステップについて論じ、2・3つ目は4節で論じる(以下の如く省略)。
5 Independent Tests Using HSIC
ここからいよいよHSICに基づく独立性検定のお話。
Theorem 4 ( and Independence)
RKHSs(対応するカーネルやドメインは従前通り)を置く。一般性を失うことなく、かつが全てのについて成り立つと仮定する。この時、とが独立であればである。
証明:Gretton et al. [11]を読まれたし。
5.1 Independence Tests
これでHSICを独立性検定に用いる準備が整った。
確率分布の集合を考える。一般に*3、は2つの部分集合に分けられる。は確率分布群を含み、は互いに独立である。一方は確率分布群を含み、は互いに従属関係にある。
次に、検定を導入する。これはデータ集合を取り、はから個ランダムに抽出してきた分布に対応する。この時、
を返す。ただし有限な標本しか見ていないため、これだけではどちらの確率分布からデータが抽出されたかを完全に決定することはできない。そこで検定を導入する。は検定と呼ばれ、
となる。上限は第一種の過誤の確率である。第二種の過誤の確率については(ここでは省略されている4節の)Theorem 3の説明を参照のこと。
5.2 Efficient Computation
計算負荷の問題は別に重要である。[3] (http://www.di.ens.fr/~fbach/bach_jordan_csi.pdf)で提案されているように、この論文では不完全コレスキー分解によるグラム行列のlow-rank decompositionを用いている。これはカーネル関数がfast decaying spectrum*4を伴う限りは正確なHSICの近似を与える。これは以下に示すような計算コスト削減につながっている。
Lemma 2 (Efficient approximation to HSIC)
かつ、ただし, とする。この時はの時間スケールで近似できる。
6 Experimental Results
完全に力尽きたので*5省略。比較手法はICA (FastICA, RADICAL, CFICA)。評価指標がAmari divergenceだって!
Appendix A, B
論文本文読んでも定理しか載ってないので、導出過程は付録の方をどうぞ。ぶっちゃけ付録の方を読んでる方が個人的には楽しいかも。
これまで同様、どこか間違っていたら突っ込んでいただけると助かります。。。ということでお後がよろしいようで。