ICLR2019採択論文のうち,気になったものをメモしていく.
その2.
- Slimmable Neural Networks
- Deep Decoder: Concise Image Representations from Untrained Non-convolutional Networks
- Three Mechanisms of Weight Decay Regularization
- How Powerful are Graph Neural Networks?
- FFJORD: Free-Form Continuous Dynamics for Scalable Reversible Generative Models
- The Lottery Ticket Hypothesis: Finding Sparse, Trainable Neural Networks
- The Neuro-Symbolic Concept Learner: Interpreting Scenes, Words, and Sentences From Natural Supervision
- Slalom: Fast, Verifiable and Private Execution of Neural Networks in Trusted Hardware
- Learning Robust Representations by Projecting Superficial Statistics Out
- Enabling Factorized Piano Music Modeling and Generation with the MAESTRO Dataset
Slimmable Neural Networks
実行時に異なるチャンネル数で推論できるSlimmable Neural Networksを提案.
エッジデバイス向けの軽量なモデルアーキテクチャの研究は数多く存在するが,それらの研究は,
といった欠点がある.これを解決するため,学習時は1つのネットワークのみを一度だけ学習し,推論時に複数のチャンネルサイズに切り替えて推論できるSlimmable Neural Networksを提案している.
Deep Decoder: Concise Image Representations from Untrained Non-convolutional Networks
学習不要で,非常に少ないパラメータで画像を表現できるDeep Decoderを提案.特徴としては,
- 学習不要でそれ自体がデータをモデル化可能
- 非常に少ないパラメータで表現できるため画像圧縮などのツールとして機能
- 畳み込み層を使わない
- ネットワークアーキテクチャが簡潔
Three Mechanisms of Weight Decay Regularization
Weight Decayがなぜ有効なのかを解釈した論文.
これまでの研究では,weight decayはL2正則化の一種であると解釈されていたが,
- weight decayは汎化性能だけではなく学習時の精度も向上させるという観測がある
- Adamをオプティマイザに使った場合,損失関数にL2正則化を加えた場合と比べて,weight decayを適用した方がはるかに良い結果が得られる
- weight decayはBatchnormと併用されることが多く,本来はこの組み合わせは効果がないはずだが実際はそうではない
といった点から,この解釈は疑わしいことがわかる.
Weight Decayの効果を理解するため,複数のオプティマイザと複数のネットワークアーキテクチャで実験をしたところ,以下の3つのメカニズムによって性能向上が達成されていることがわかった:
- weight decayの適用によって,ネットワークにとって効果的なlearning rateを獲得することができている.weight decayなしで効果的なlearning rateを計算したところ,weight decayの適用によって得られているものと同じ値が得られた
- 入出力のJacobian行列に対してsquared Frobenius norm正則化が得られている.
- weight decayがないと、重みが大きくなり、実効減衰項が増加してしまう
How Powerful are Graph Neural Networks?
グラフ構造の表現学習に用いられるGraph Neural Networksの表現力の分析を行うためのフレームワークの提案.
グラフ構造に対するNeural Networkのオペレーションは数多く提案されているが,それらの理論解析は十分でない. そのため,グラフの同型検定の一種であるWeisfeiler-Lehman (WL) testに基づいた,GNNsの表現力の理論解析のためのフレームワークを提案した.
FFJORD: Free-Form Continuous Dynamics for Scalable Reversible Generative Models
可逆な生成モデルについて,ネットワークアーキテクチャの制限なしに,次元数に対して線形の計算時間で動作する尤度の確率的推定手法の提案.
NICEやRealNVP,Glowなどの可逆な生成モデルの研究はいくつか存在するが,それらは計算量削減のためにネットワークアーキテクチャに制限が設けられてしまう. これに対して,ネットワークアーキテクチャに特別な制限を設けずに最適化を行うことのできるFree-form Jacobian of Reversible Dynamics (FFJORD)の提案を行った.
The Lottery Ticket Hypothesis: Finding Sparse, Trainable Neural Networks
ランダムに初期化された密なネットワークは,独立に学習を行ってそのネットワークと同程度の精度を得られる小さなサブネットワークが存在するというlottery ticket hypothesisを提案.
ニューラルネットワークのpruningはネットワークのパラメータを大幅に削減できる有用なテクニックである.しかし,既存の実験では,pruningされたスパースなネットワークを一から学習させるのは難しいという観測が得られている.これに対し著者らは,ランダムに初期化された密なネットワークは,良好な学習が可能なスパースなサブネットワークを内包することを発見した.この実験結果に基づいて,The Lottery Ticket Hypothesisを提案した.
The Lottery Ticket Hypothesis:任意のランダムに初期化された密なニューラルネットワークは,個別に学習した際に元々のネットワークと同程度の精度を達成できるサブネットワークを内包する.
論文では,このサブネットワークを発見する手法も提案している.
The Neuro-Symbolic Concept Learner: Interpreting Scenes, Words, and Sentences From Natural Supervision
明示的な教師情報なしにvisual concepts,wordsおよびemantic parsingを学習可能なNeuro-Symbolic Concept Learner (NS-CL)を提案.
提案手法は,各タスクについての明示的なラベルではなく,一対の質問と答えのペアのみからマルチタスクの学習を行うことができる.
Slalom: Fast, Verifiable and Private Execution of Neural Networks in Trusted Hardware
機密性の高い計算をソフトウェアスタックから分離するTrusted Execution Environments (TEEs)上で,ニューラルネットワークの効率的な実行を実現するための研究.
機械学習アルゴリズムが機密性の高い分野で適用されるようになると,機械学習の計算の整合性とプライバシーのニーズも高まってくる.TEEsは機密性の高い計算を分離することでこれを達成することを目指している.しかしこのような分離アプローチは一般的にパフォーマンスを犠牲にしてしまう.
本論文では,任意のTTEsデバイス上で効率的なDNNsの推論ができるフレームワークであるSlalomを提案した.
Learning Robust Representations by Projecting Superficial Statistics Out
学習データセットにドメイン識別子が存在しない場合にも,これまで見たことのないドメインに対して汎化するような分類器を学習するunguided domain generalizationタスクについての研究.
モデルは一般的に,学習分布にとらわれない意味的なシグナルだけではなく,学習分布固有の表面的なシグナルも多く学習に用いるため,学習データセットに存在しないドメインに対する分類問題は難しい.これを解決するため,gray-level cooccurrence matrix (GLCM)を用いて,out-of-samplesに対する分類性能を向上させる2つのテクニックを提案した.また,DA/DGのための新しいデータセットも提案している.
Enabling Factorized Piano Music Modeling and Generation with the MAESTRO Dataset
音符を中間表現として利用した音楽オーディオ生成手法の提案.
ニューラルネットワークを使用した音楽オーディオの生成は異なるタイムスケールによる一貫性の担保の必要により難しいタスクである. 本論文では,音符を中間表現として利用することで効果的に音楽オーディオを生成するWave2Midi2Waveを提案した.