SSブログ

『深層学習の原理に迫る 数学の挑戦』(今泉允聡) [読書(サイエンス)]

――――
 数学に基づく理論研究は長い歴史を持ち、深層学習以前のデータ分析手法の理解に貢献してきた。しかし、近年急速に発展した深層学習の挙動は、これらの既存理論と矛盾していることが明らかになった。深層学習の「たくさんの層を持つ」「膨大な数のパラメータがある」などの性質は、既存の理論では不必要・予測の精度を損なうものとして避けるべきとされてきた。しかし実際の深層学習は、理論的な主張と正反対の方法を用いて高い性能を実現している。この実際と理論のギャップが深層学習の理解を阻んでいる。本書はこれから、既存の理論で説明できていない深層学習の謎と、それを解決するための理論の試みをいくつか紹介する。
――――
単行本p.30


 第三次人工知能ブームの主役であるディープラーニング、深層学習。だが深層学習の動作は、既存理論とは矛盾していることがわかってきた。すなわち深層学習がどうしてうまく機能するのかを、私たちはきちんと理解できていないのである。深層学習を原理レベルで理解するための理論研究の現状を紹介する一冊。単行本(岩波書店)出版は2021年4月です。


〔目次〕

第1章 深層学習の登場
第2章 深層学習とは何か
第3章 なぜ多層が必要なのか
第4章 膨大なパラメータ数の謎
第5章 なぜパラメータの学習ができる?
第6章 原理を知ることに価値はあるか




第1章 深層学習の登場
――――
 深層学習の研究が行われている機械学習の研究領域においては、論文の大半を無料で公開・閲覧できる環境が、学会・学術雑誌によって整えられている。よって研究資金が潤沢ではない大学や研究機関であっても、低コストで論文を閲覧・公開して研究に貢献することができる。(中略)IT大企業は深層学習のための整った計算ライブラリを無料で公開しており、研究に参入する障壁は非常に低い。このように研究界隈がオープンなシステムを整えているため、他研究分野や産業界の研究者が深層学習の研究に参入することが容易で、深層学習の急速な発展を推進する一因となっている。
――――
単行本p.12

 深層学習の概要と急速な実用化の流れを示し、その背後にある背景や研究環境について解説します。




第2章 深層学習とは何か
――――
 深層学習の原理は未だに完全には理解されていない。すなわち、深層学習が既存のデータ分析手法より良い性能を発揮できる原因は、十分には解明されていない。驚くべきことに、我々はなぜ深層学習が優れた性能を持つのかを理解しないまま、その優れた性能の恩恵を受けている。理解がなくても深層学習を活用することはできるが、現状の深層学習の問題点を解決し、さらに優れた技術を開発するには、現状の深層学習の原理を理解することが必要である。
――――
単行本p.29

 深層学習の基盤であるニューラルネットワークとその数学的取り扱いについて解説します。




第3章 なぜ多層が必要なのか
――――
 この結果は1990年代の数学者・統計学者によって示されたもので、普遍近似定理と同様に層が2つあるニューラルネットワークが、十分に良い性質を持っていることを示している。特に2層のニューラルネットワークによる関数近似能力について、これよりも良い性能を達成することは数学的に不可能であることを意味している。(中略)
 しかしながら、前章紹介した近年の高性能なニューラルネットワークは、数十から100を超える層を持っている。すなわち実験的には、ニューラルネットワークの層を増やしてデータの変換を数十回繰り返すことが、高い性能に必要であることが分かっている。(中略)ここに数学的理論と実際の深層学習との間に矛盾が存在しており、これが深層学習の理解を阻む障害となっている。
――――
単行本p.35、36

 深層学習を構成するニューラルネットワークは多層であることが重要、多層であればあるほど良い結果が得られる、ということが実験的に判明している。しかし、この結果は既存の数学理論と矛盾してしまう。深層学習が示す挙動を説明しようとする理論研究について紹介します。




第4章 膨大なパラメータ数の謎
――――
 前項では、膨大なパラメータの数が自由度を通して過適合を起こす、という理論的な主張を紹介した。しかしながら、この数学的な主張は近年の深層学習の実性能とは大きく矛盾している。すなわち、膨大なパラメータを持つニューラルネットワークは、計算機上ではほとんど過適合せず、それゆえにデータ分析において高い正答率や精度を実現している。(中略)これは理論が不十分で現実を説明できていないためであり、この矛盾を解決するための新しい理論が求められている。
――――
単行本p.65

 深層学習を構成するニューラルネットワークの特徴は、多層であることに加えて、膨大な量のパラメータを配置していることにある。だが、パラメータが多すぎると学習の偏りが起きて性能が低下してしまうと既存の理論は予想している。なぜそうならないのか。深層学習が過適合問題を回避する現象を説明しようとする理論研究について紹介します。




第5章 なぜパラメータの学習ができる?
――――
 最後の大きな謎は、パラメータの学習の課程そのものである。数学的には、多層ニューラルネットワークのパラメータの学習は、非常に困難であると思われていた。しかし実際に使われている多くの学習アルゴリズムは、この数学的な予想を裏切る形で開発されている。ただ、未だそのメカニズムは十分には理解されていない。
――――
単行本p.91

 機械学習においては、十分に複雑なパラメータ空間におけるアルゴリズム探査は局所的適地に到達して安定してしまうため、最適解を得ることは非常に困難だと、既存の理論は予想している。しかし実際の深層学習は容易に最適化をなし遂げてしまう。その理由はなにか。パラメータ学習がどのように機能しているのかを理論的に理解するための試みを紹介します。




第6章 原理を知ることに価値はあるか
――――
 現状の深層学習は、探索的に発見された層の多いニューラルネットワークを用いているが、具体的にどういう理由でそれが有用なのか、理解は未だ発展途上である。今後、数学的解析によりこれが理解できれば、深層学習の利点のみを引き継ぎ、その問題点を解決した全く別の技術を提案することが可能になる。そういった将来的な発展の可能性に向けて、今後もさらなる理論的な解析が望まれている。
――――
単行本p.116

 深層学習がニューラルネットワーク構造を採用しているのは「たまたまうまくいった」からだ。もしかしたら、全く異なる構成により深層学習を超えるAI技術が可能になるかも知れない。そのためには、現状の構成でなぜうまくゆくのか、その本質を理解する必要がある。どう活用するか、だけでなく、理論的な「理解」を目指す研究の意義について解説します。





nice!(0)  コメント(0) 
共通テーマ:

nice! 0

コメント 0

コメントを書く

お名前:[必須]
URL:[必須]
コメント:
画像認証:
下の画像に表示されている文字を入力してください。

※ブログオーナーが承認したコメントのみ表示されます。