渋谷駅前で働くデータサイエンティストのブログ

元祖「六本木で働くデータサイエンティスト」です / 道玄坂→銀座→東京→六本木→渋谷駅前

NNが心理学と生理学から離れていった瞬間:Back propagationに関するNature論文(1986)の意義を考える

f:id:TJO:20181022114417p:plain
(Fig. 1 from Rumelhart, Hinton & Williams, Nature, 1986)

これはちょっとした小ネタです。僕自身はニューラルネットワーク (Neural Network, NN)の学術的専門家でもなければ況してやNNの研究史家でもないので、たかだか僕自身がかつて脳の研究者だった頃に把握していた事由に基づいて、極めていい加減な私見を書いているに過ぎないことを予めお断りしておきます。よって、この辺の事情に詳しい方いらっしゃいましたら、後学のためにも是非ご遠慮なくツッコミを入れて下さると有難いですm(_ _)m


先日のことですが、@tmaeharaさんがこんなことを呟いておられました。

"Learning representations by back-propagating errors" (Rumelhart, Hinton & Williams, Nature, 1986)Hinton先生のGoogle Scholar Citationsを見れば分かるように、現在に至るまでに16000回近く引用されており、文字通りNN研究の金字塔とも言える論文です。それまで線形分離不可能パターンを分類できなかったRosenblattのパーセプトロンに、back propagation(BP: 逆伝播学習)という一見風変わりなアイデアを導入することで、ついに線形分離不可能パターンにも対応できるようになったという文字通りパラダイムシフトを起こした研究であるとも言えます。


言うまでもなく、現在のDeep Learningと呼ばれるNNも完全にBPに拠っていることから、この論文がなければ今のDeep Learningの隆盛もまたあり得なかったと言っても過言ではないでしょう*1。30年以上も前のこの短いレター論文から、現在の人工知能ブームが始まったとすら言えるのかもしれません。


ただ、実際に本文を読めば分かりますが@tmaeharaさんもご指摘のようにこの論文自体は割と退屈です。何ならその辺のNNの教科書にも良く載っているような、chain ruleで微分して勾配法を走らせるという式変形の下りが淡々と書かれているだけのようにも見えます。これだけ読むと「何でこれがそんな金字塔なん?」という印象を受けないでもありません。


一方で、@shima__shima先生によればこういう話もあるようです。


"Who Invented Backpropagation?"がその原文で、BPは1950〜60年代には別方面からアイデアとしては出てきており、70年代にはFORTRAN実装も存在したという事実が文献引用つきで指摘されています。これらに関してRumelhart / Hintonグループが引用もしなければ敬意も払わないのはおかしいのではないか?というのはそれなりに説得力のある指摘だと思います。


しかしながら、最初期のパーセプトロンからBPそしてDeep Learningに至るまでの道のりは「現在の我々が考えるようなNNの世界とはだいぶ異なった世界である」という点を考慮する必要があると個人的には考えています。そういう文脈を鑑みるに、1986年のNature論文の意義とは単にback propagationを提案したというだけでなく、「NNが心理学と生理学から離れていき『機械学習』へと移り変わっていく契機となった」ことだと個人的には見ています。以下、その理由を自分が学んだり書籍で得た知識*2を踏まえて簡単に論じてみようと思います。

かつてのNNは心理学と生理学のものだった

若い人たちはあまりピンと来ないかもしれませんが、かつてはNNと言えば主に心理学者や生理学者たちが扱う研究対象であり、コネクショニズムの根幹を成す概念でした。いわゆる「人工知能冬の時代」以前のムーブメントの筆頭に上がるのもこれです。「コネクショニズム」のWikipedia記事を見れば分かるように、そもそもNNと言うのは「ヒトの脳の情報処理を模倣する」ことを程度問題ながら大前提とした体系だったわけです。その方法論としては、認知科学が得意とする「ヒトの中身の(ある程度の)ブラックボックス化」に拠っており、心理学的な側面に即したモデルとしての説明をヒトの脳に対して試みるという性質のものだと言えると思います。端的に言えばNNを支えた心理学ですね。

一方で、その「ヒトの脳」との接点について生理学的な根拠をもとに論じた体系として、「計算論的神経科学」というものがあります。これもWikipedia記事を読めば分かるように*3、どちらかというとより生理学的な側面に即したモデルとしての説明をヒトの脳に対して試みるという性質のもので、コネクショニズムそしてNNが一種の抽象的・概念的モデルであるとすれば、計算論的神経科学はそのヒトの脳がどれほどNNと似ているか(あるいは似ていないか)を論じるものだとも言えます。もっとも計算論的神経科学というと単にNNのような脳そのもののニューロン的モデルを考えるだけでなく、例えば神経発火パターンがどのような信号を表しているのかと言った「神経活動の解釈(デコーディング)」のようなテーマも扱っており、ずっと広汎な概念である点に注意が必要です。これも端的に言えばNNを支えた生理学ですね。


いずれにせよ、どちらのアプローチであっても程度問題ながら常に「NN=ヒトの脳の模倣」という前提を伴っており、少なくとも2000年前後まではNNとヒトの脳とは不可分という認識がまだ残っていたように個人的には思います。言い方を変えると、NNは心理学and/or生理学の牙城であり、工学・情報科学的な視点はどちらかと言うと二次的なものと見做されていたという印象がありました。


それもそのはずで、例えば初期のNNとも言えるパーセプトロンも元はと言えば形式ニューロンに基づく脳の(特に小脳の)学習モデルとして考案されたものであり、しかもその構造が実際の小脳の生理学的構造と良く似ているということが、今でもコネクショニズムと計算論的神経科学の大きな成功例としてリンク先のWikipedia記事を初め多くの文献に記されています*4


ところで。現在では機械学習の総本山的存在としてあまりにも有名になってしまったトップカンファレンスのNIPSも、Conference on Neural Information Processing Systemsという名前が示す通りかつてはNNを含む計算論的神経科学メインのカンファレンスだったのでした。例えば1990年大会のproceedings一覧を見ると、現在からは想像もつかないくらいナマモノの脳について扱った研究がかなりの数に上ることが分かります。実は、僕がボンクラ研究者時代に理研BSIにいた頃のラボが「神経発火活動の同期」をメインテーマの一つとしていたこともあってその辺の研究には多少心得があるのですが、当時のproceedingsの中にもそう言った神経発火活動のモデリングのような研究がチラホラ入っているのが分かります*5。かつてのNNはそんな「コテコテの心理学(認知科学)と生理学のものだった」のでしょう。


必然的に、NNを進化させるような研究はかつてはその立場上「いかなる新手法であれ心理学的・生理学的根拠を伴うべき」という制約が暗黙裡に課せられていたのではないか?というのが、個人的な推測だったりします。実際、僕が神経科学分野のボンクラ研究者だった頃ですらも、様々なヒトの認知機能の計算理論的モデル研究論文を読むと「これこれの生理学的根拠があるから妥当である」というexcuseが添えられているのが常でした。視覚神経科学研究の大家Zekiが著した古典的大著"A Vision of the Brain"(邦題『脳のヴィジョン』)にも「David Marrの視覚情報処理モデル*6は生理学的根拠に乏しいので使えない」と厳しく批判する下りがあり、いかに生理学的根拠の有無が重視されていたかが垣間見えます。


なお、余談ですが僕が若い頃にこの辺を概観する書籍としてよく読まれていたのが『脳の計算理論』でした。既に絶版で入手困難なようですが、読めば当時の雰囲気がよく味わえると思います。


1986年のNature論文はNNを心理学と生理学から引き離した


そんなNNが心理学と生理学からまだ不可分だった時代に現れたのが、冒頭に紹介した1986年のNature論文だった、というのが僕の個人的な理解です。


多少神経科*7に詳しい人であれば、そもそもBPに該当するような「皮質内での高次領野から低次領野へのフィードバック投射」の意義が活発に議論されるようになったこと自体が、実は2000年前後と割と近年の話だということをご存知かもしれません*8。そこからさらに14年も遡れば、BPという概念に関する議論はまだまだエキセントリックだったのではないでしょうか?*9


そういう、BPなんて提唱したところで「どう見てもそれを支持する生理学的証拠がまだ殆どどこにも見当たらない」状況で、生理学的証拠の有無を半ば無視して、BPというパラダイムシフトの枠組みとBPに紐付く最適化問題解法としての勾配法を提案し、その有用性を高らかに示してみせた。それこそが、1986年のNature論文が持つ最大の意義なのだと個人的には思うのです。


最後のconclusionsに当たる部分で、Nature論文はこのように締め括っています。

The learning procedure, in its current form, is not a plausible model of learning in brains. However, applying the procedure to various tasks shows that interesting internal representations can be constructed by gradient descent in weight-space, and this suggests that it is worth looking for more biologically plausible ways of doing gradient descent in neural networks.
(太字筆者)

ここで「BPには生理学的証拠はないが有用である」と明言しているというわけです。それは言い換えれば、NNが心理学的・生理学的証拠に拠っていなければならないという軛から離れていこうとする、最初の試みだったのかもしれません。しかもそのような重大な提案を、応用数理学や情報工学などの「外野」ではなく、他ならぬコネクショニズムの担い手でもあったRumelhart, Hintonの2人が行ったということに大きな意義があったようにも思われます。なおHinton先生は今でこそDeep Learningの三大始祖にしてNNと機械学習の泰斗として知られていますが、Wikipedia英語版の記事を見れば分かるように元々の出自としては認知心理学者です(これはRumelhartも同じ)。


その後のNNは必ずしも完全に心理学・生理学から離れていったわけではなく、文献を見ている限りでは2000年ぐらいまではコネクショニズムの伝統の中に組み込まれたままだったという印象があります。しかしながら、NNが必ずしも心理学・生理学に拠らなくても良いという考え方が明示的に提示されたことで、徐々に心理学・生理学そしてコネクショニズムから離れていくようになったのではないでしょうか。


そして「パターン認識」「機械学習」へとシフトしていき、さらにDeep Learningへと移り変わっていった


僕もかつては情報工学系の専攻の学部生だったのですが、1999年当時はまだ「機械学習」という言葉はそこまで一般的ではなかったように記憶しています。その代わり広く使われていた言葉が「パターン認識」だったという認識です。参考までにWikipedia英語版の"Pattern recognition"の記事のreferencesを見ると、一部の嚆矢となった早い時期の文献を除けば概ね2000年前後のものが多く、当時の僕の印象と大体合致しています。


わかりやすいパターン認識

わかりやすいパターン認識

ちなみに、学部生当時パターン認識に関する講義を受けた時に使っていた教科書がこちらの古典的名著です。今では続編の方が有名な印象もありますが*10、それでもパターン認識分野の基礎的なところは概ねカバーしていて当時としては良い入門書だったのだと思います*11


そして、この本にも当然ながらNNとBPが出てきます。しかも、かつては神経科学などの教科書でNNが取り上げられれば必ず小脳パーセプトロンとの異同やその学説に到るまでの経緯といった話題が載っていたものですが、この本ではそういう長ったらしい説明はされていません*12。代わりに、様々な有名な教科書で取り上げられているのと同じように、chain ruleに基づくBPの導出とその実装の話題がメインに語られています。ちなみに、僕自身もデータサイエンティストの仕事を始めた最初の頃にこの本を自宅の本棚から引っ張り出して、勾配法の数式を見ながらスクラッチからBPを実装したものでした。


というように2000年頃には既に心理学・生理学という範疇から離れた「パターン認識」手法としてのNNが見られるようになり、その後の「機械学習」の隆盛(実際にはWikipedia英語版の記事にもあるように1990年頃から既に「機械学習」の概念が広まるようになっていたのですが*13)と共に代表的な統計的学習モデルの一つとして扱われるようになり、さらには2006年のHinton先生のScience論文、そして2012年のImageNet Challengeを経て、NN及びその究極形としてのDeep Learningは押しも押されもせぬ機械学習の王者として君臨していくようになるわけです。


今現在のNNはと言うと、様々な奇想天外なネットワークが乱舞する「俺が考えた最強のネットワーク選手権」状態でもあり、最先端の最適化計画解法が投入され続ける世界でもあり、一昔前では想像もつかなかった超大規模並列処理が走り、片や高度な数学的な理論解析の対象にもなれば新規物性の開拓のような応用研究の手段となるなど、工学系・情報科学系の諸潮流の粋を集めた天下一武道会のような有様になりつつあります。


ちなみに、Wikipedia日本語版の「ニューラルネットワーク」の記事にはこれまで述べてきたような一連の経緯を踏まえてか、以下のような記述がなされています。

ニューラルネットワーク(神経回路網、英: neural network、略称: NN)は、脳機能に見られるいくつかの特性を計算機上のシミュレーションによって表現することを目指した数学モデルである。研究の源流は生体の脳のモデル化であるが、神経科学の知見の改定などにより次第に脳モデルとは乖離が著しくなり、生物学や神経科学との区別のため、人工ニューラルネットワーク(artificial neural network、ANN)とも呼ばれる。
(太字筆者)

同様にWikipedia英語版の"Artificial Neural Network"の記事にも

Artificial neural networks (ANN) or connectionist systems are computing systems vaguely inspired by the biological neural networks that constitute animal brains...


...The original goal of the ANN approach was to solve problems in the same way that a human brain would. However, over time, attention moved to performing specific tasks, leading to deviations from biology.
(太字筆者)

とあり、明確に「もはやNNはヒトの脳そのものからは乖離している」旨が述べられています。1986年のNature論文から32年が経ち、NNは今やコネクショニズムに基づく原点から遠ざかる一方で、誰もが認める機械学習の王者となったわけです。


冒頭のフレーズの繰り返しになりますが、「NNが心理学と生理学から離れていき『機械学習』へと移り変わっていく契機を作った」ことこそが1986年のNature論文の最大の意義だった、というのがNNの歴史を紐解いてみて得られた偽らざる感想です。


今でもNNが"Neural"を冠し続ける理由


ところで、かつて神経情報処理を議論するトップカンファレンスだったNIPSのその後についてですが。Wikipedia英語版の記事には以下のように近年の変容ぶりが書かれています。

The conference had 5,000 registered participants in 2016 and 8,000 in 2017, making it the largest conference in Artificial Intelligence. Besides machine learning and neuroscience, other fields represented at NIPS include cognitive science, psychology, computer vision, statistical linguistics, and information theory. Although the 'Neural' in the NIPS acronym had become something of a historical relic, the resurgence of deep learning in neural networks since 2012, fueled by faster computers and big data, has led to impressive achievement in speech recognition, object recognition in images, image captioning, language translation...
(太字筆者)

「NIPSのNであるNeural(神経の)という語は過去の遺物になった」と臆面もなく書かれています。ちなみに2013年に僕がレイク・タホで開催されたNIPSを訪れた際には、まだごく一部に神経活動信号のデータ分析に関する研究が残っていて"Neural"未だ健在と思ったものですが、5年前当時でも既にDeep Learning関連研究だらけでした。


もっともこの後にはこう続けられています。

...and world championship performance in the game of Go, based on neural architectures inspired by the hierarchy of areas in the visual cortex (ConvNet) and reinforcement learning inspired by the basal ganglia (Temporal difference learning).

「それでもなお実際の脳から着想を得たNN(とその複合的応用)には未だに大きな可能性がある」と言っているわけで、これには僕も同意します。そしてそれこそが、もはやヒトの脳の模倣を目指さなくなった今でもNNが"Neural"の語を頭に冠し続ける理由なのだと個人的には思っています。


最後に


2000年以前の事情は神経科学と情報工学の両方についてたまたま学ぶ機会があった個人的な経験から、各種文献なり資料なりを参照した結果得られた知識に基づいているだけであり、勿論僕自身がその時期に身を以って見聞したものではありません。事実関係や解釈なども含めて、誤りなどあれば是非ご指摘いただけると有難いですm(_ _)m


追記1



NN研究史についてのある程度評価が定まっていると思われる文献を引いた上で「正しくない認識が多いのでは」というご指摘をいただきました。僕も勉強になりましたので、こちらにリンクを貼っておきます。


ただ、ご指摘の内容には首肯できるものの、これだと以下のポイントの説明がつきにくいのかなと思いました。

ただなぜ第二期ブームが鎮静したかと言うと、工学的にはもっと効率の良いアルゴリズムの開発があるだろうが、認知科学的には別の研究のブームが現れることによってなんとなく立ち消えになったとしか言いようがない(正直言うとよく分からない)

一応、PRMLにも載っているようにHinton先生やLeCun御大による各種NNの発展形の研究も続いていたわけで、NN自体の火が消えたわけではないのは事実です。他方で、分野としてのNN研究全体が萎んでいったのは見ての通りです。ここに例の多層化時の勾配消失の問題があったのかなという気もしますが、ちょっとそこは調べてみないと分からないので一旦ここでは保留としておきます。


追記2



上の追記1にこのようなコメントをいただきました。そう言えばご指摘の通りで、PRMLにはearly stopping問題が出ていたなぁと。。。その意味で言うと、第二期ブームの終焉はむしろ工学的な限界に至ったが故の帰結なのかなと。2006年のHinton先生のScience論文はそれらの工学的な限界を解決したと評されることが多いのですが、上述のような歴史的経緯に鑑みればその意義にも納得がいきます。


あとは1990年代終わり頃の雰囲気を卒論生前後で体験していた身としては、やはりfMRIなどの脳機能画像(脳機能イメージング)が登場して課題遂行中のヒトの脳を直接測れるようになったことが大きいのかなと。言い換えると、それまでブラックボックスでNNなどでシミュレーションすることによってしか知り得なかったヒトの脳の中での出来事が、脳機能画像の登場で手に取るように(当時)分かるようになったことで、NNなどによるシミュレーションが不要になったという側面はあると思います。実際、『脳の計算理論』の川人先生もfMRI隆盛以降はNN含めたヒト脳のブラックボックス的モデル化からfMRIへと研究テーマをシフトさせています。


それら脳機能画像を初めとした「ヒトの脳を直接測る・探る手段」が広まって以降は、実際の脳が想像よりも遥かに複雑で簡単にモデル化出来るような代物ではないと知られるようになった。。。というのが個人的な感覚です。「ブラックボックスのシミュレーションとしての」NNの有用性が薄れると同時に、そう言った「そもそものヒトの脳の模倣としての」NNの可能性についてもさらに悲観的に見るようになったのも、その頃だったのかもしれません。


そう言ったもろもろの経緯を経て「ヒトの脳のシミュレーションとしての」NNの役目が終わったのが1990年代末だったのではないでしょうか。実際に、当時同じ専攻の知人がNNをやりたいと言ってとあるラボの専攻を院試で受けるという話をした時に、聞きつけた卒論の指導教員が「脳の研究という意味ではもうNNは時代遅れだ」と言ったというのを聞いたことがあるんですが、それは確か2000年頃の話でした。

*1:無論その後のHinton先生の2006年のScience論文や2012年のImageNet Challengeも不可欠だと思いますが

*2:ただし書籍の中には手放してもう手元にないものもかなりある汗

*3:ただしこの記事は微妙に悪意ある記述が目立つので取扱注意

*4:小脳パーセプトロン理論は35歳で夭折した天才David Marrが提唱したということもあって、現在でも有名なサクセスストーリーとして語られることが多いようです

*5:例えばこの辺など https://papers.nips.cc/paper/421-analog-computation-at-a-critical-point-a-novel-function-for-neuronal-oscillations.pdf

*6:確か2と1/2次元スケッチモデルのこと

*7:特に各種感覚野など階層的構造を持つことが知られている部位の機能的神経解剖学

*8:Lamme and Roelfsema (Trends Neurosci., 2000)は卒論生当時繰り返し読んだものです http://www.kylemathewson.com/wp-content/uploads/2010/03/LammeRoelfsema-2000-TiN-Reentrant-Vision.pdf

*9:例えば「皮質内領野間におけるニューロン活動と階層間でのフィードバック投射の関係」に関する総説論文はどれほど遡っても2000年前後までに留まる https://www.ncbi.nlm.nih.gov/pubmed/?term=review+%5Bptyp%5D+feedback+%5Bti%5D+neuron+cortex

*10:某勉強会のメインテキストだったので

*11:ただしタイトルに比してわかりやすいという印象はない。。。

*12:あくまでもcoffee breakという挿話のところにMinskyによるパーセプトロン批判とRumelhartによるBP提案という反駁の歴史の話が出てくる程度

*13:例えばVapnik御大が最初にSVMを提案したのが1963年、非線形SVMへの拡張がなされたのが92年なので、実際にはだいぶ以前から工学系分野としての「機械学習」の萌芽は芽生えていた