岡野原大輔　先生 | Correspondence and Fusion of Artificial Intelligence and Brain Science

Title：深層学習の現在と理論

岡野原大輔（おかのはら　だいすけ）
株式会社Preferred Networks (PFN)

　深層学習は近年大きく進展し、様々なタスクにおいて従来手法を大きく凌駕する成果をあげている。深層学習の研究では最初に実験的にうまくいく手法が発見的に見つかった後に、なぜそれがうまく行くのかという理論解析がされることが多い。本講義では現在のうまくいっている手法とそれらについての理論解析の結果を紹介するとともに、未解決問題について紹介する。

　一つ目は学習についてである。ニューラルネットの学習ではパラメータの対称性，多数の非線形関数の組合せから目的関数が鞍点、極小解を多く含む非凸関数である。それにも関わらず確率的勾配降下法（SGD）は最適解に近い解が見つけられることが実験的に分かっている。これに対し、様々な仮定を含めれば見つかる極小解の多くが最適解に近いと示されている[1][2]。さらにSGDは汎化性能向上に重要であることが分かってきている [3][4]。なぜSGDが良い解を見つけられるか、なぜ見つかった解の汎化性能が高いのかは未解決である。

　二つ目は多様体仮説およびそれに対する確率分布の学習についてである。現実世界にみられる多くのデータ分布は高次元空間に埋め込まれている低次元多様体とみなせる[5]。深層学習を使った変分自己符号化器（VAE）[6]や敵対的生成モデル（GAN）[7]は生成モデルの学習の結果，低次元多様体をその潜在表現として獲得することに成功している。特に敵対的生成モデルは非常に現実的な画像を生成でき注目されている。敵対的生成モデルは，最尤推定ではなくJensen-Shannonダイバージェンスを使って学習しているとみなせ、さらにその改良版であるWGANは低次元多様体の分布間同士の距離を正しく測れるワッサースタイン距離距離を使って確率分布を学習することができることがわかっている[9][10]。より複雑な画像の生成モデル、その潜在表現の獲得（またはDisentanglement問題）については未解決である。

　三つ目は意味の分散表現についてである。自然言語や画像の分散表現は複雑な意味を表現でき、分散表現上の単純な演算で意味の演算ができることが分かっている。これについての理論解析は進みつつあるが[11]、大部分は未解決である。また、キャプション生成[12]などからみられるように分散表現は複雑な情報を格納できることがわかっているが、どのように表現されているか、操作できるのかは未解決である。

参考文献：
[1] “The loss Surface of Multilayer Networks”, A. Choromanska, and et al. arXiv:1412.0233
[2] “Deep Learning without Poor Local Minima”, K. Kawaguchi, and et al. arXiv: 1605.07110
[3] “Opening the Black Box of Deep Neural Networks via Information”, R. Shawartz-Ziv, and et al. arXiv:1703.00810
[4] “Stochastic Gradient Descent a Approximate Bayesian Inference”, S.mandt, and et al. arXiv:1704.04289
[5] “Representation Learning: A Review and New Perpective”, Y. Bengioand et al., arXiv:1206.5538
[6] “Auto-Encoding Variational Bayes”, D. Kingma, and et al. arXiv:1312.6114
[7] “Generative Adversarial Networks”, I. J. Goodfellos , and et al.arxiv:1406.2661
[8] “NIPS 2016 Tutorial: Generative Adversarial Networks”, I.Goodfellow, arXiv:1701.00160
[9] “Towards Principled Methods for Training Generative Adversarial Networks”, M. Arjovsky, arXiv:1701.0486
[10] “Wasserstein GAN”, M. Arjovsky, arXiv:1701.0787
[11] “RAND-WALK: A Latent Variable Modle Approach to Word Embeddings”, S. Arora, and et al. arXiv:1502.03520
[12] “Show and Tell:A Neural Image Caption Generator”, O.Vinyals, and et al. CVPR 2015