ICLR2019気になった論文メモ

ICLR2019採択論文のうち,気になったものをメモしていく.

その2.

noconocolib.hatenablog.com

Slimmable Neural Networks

実行時に異なるチャンネル数で推論できるSlimmable Neural Networksを提案.

エッジデバイス向けの軽量なモデルアーキテクチャの研究は数多く存在するが,それらの研究は,

  1. 異なるデバイス向けには異なるネットワークを個別に学習する必要がある
  2. 同じデバイスでもプロセスの圧迫状況などから,1つのネットワークアーキテクチャでは十分なパフォーマンスを得られない場合がある

といった欠点がある.これを解決するため,学習時は1つのネットワークのみを一度だけ学習し,推論時に複数のチャンネルサイズに切り替えて推論できるSlimmable Neural Networksを提案している.

f:id:noconocolib:20190103031348p:plain
Figure 1: Illustration of slimmable neural networks. The same model can run at different widths (number of active channels), permitting instant and adaptive accuracy-efficiency trade-offs.

f:id:noconocolib:20190103031458p:plain
Table 3: Results of ImageNet classification. We show top-1 error rates of individually trained networks and slimmable networks given same width configurations and FLOPs. We use S- to indicate slimmable models, † to denote our reproduced result.

Deep Decoder: Concise Image Representations from Untrained Non-convolutional Networks

学習不要で,非常に少ないパラメータで画像を表現できるDeep Decoderを提案.特徴としては,

  • 学習不要でそれ自体がデータをモデル化可能
  • 非常に少ないパラメータで表現できるため画像圧縮などのツールとして機能
  • 畳み込み層を使わない
  • ネットワークアーキテクチャが簡潔

f:id:noconocolib:20190103032641p:plain
Figure 1: The deep decoder (depicted on the right) enables concise image representations, onpar with state-of-the-art wavelet based compression. The crosses on the left depict the PSNRs for 100 randomly chosen ImageNet-images represented with few wavelet coefficients and with a deep decoder with an equal number of parameters. A cross above the red line means the corresponding image has a smaller representation error when represented with the deep decoder. The deep decoder is particularly simple, as each layer has the same structure, consisting of a pixel-wise linear combination of channels, upsampling, ReLU nonlinearities, and channelwise normalization (CN).

Three Mechanisms of Weight Decay Regularization

Weight Decayがなぜ有効なのかを解釈した論文.

これまでの研究では,weight decayはL2正則化の一種であると解釈されていたが,

  • weight decayは汎化性能だけではなく学習時の精度も向上させるという観測がある
  • Adamをオプティマイザに使った場合,損失関数にL2正則化を加えた場合と比べて,weight decayを適用した方がはるかに良い結果が得られる
  • weight decayはBatchnormと併用されることが多く,本来はこの組み合わせは効果がないはずだが実際はそうではない

といった点から,この解釈は疑わしいことがわかる.

Weight Decayの効果を理解するため,複数のオプティマイザと複数のネットワークアーキテクチャで実験をしたところ,以下の3つのメカニズムによって性能向上が達成されていることがわかった:

  1. weight decayの適用によって,ネットワークにとって効果的なlearning rateを獲得することができている.weight decayなしで効果的なlearning rateを計算したところ,weight decayの適用によって得られているものと同じ値が得られた
  2. 入出力のJacobian行列に対してsquared Frobenius norm正則化が得られている.
  3. weight decayがないと、重みが大きくなり、実効減衰項が増加してしまう

f:id:noconocolib:20190103130647p:plain
Figure 1: Comparison of test accuracy of the networks trained with different optimizers on both CIFAR10 and CIFAR100. We compare Weight Decay regularization to L2 regularization and the Baseline (which used neither). Here, BN+Aug denotes the use of BN and data augmentation. K-FAC-G and K-FAC-F denote K-FAC using Gauss-Newton and Fisher matrices as the preconditioner, respectively. The results suggest that weight decay leads to improved performance across different optimizers and settings.

How Powerful are Graph Neural Networks?

グラフ構造の表現学習に用いられるGraph Neural Networksの表現力の分析を行うためのフレームワークの提案.

グラフ構造に対するNeural Networkのオペレーションは数多く提案されているが,それらの理論解析は十分でない. そのため,グラフの同型検定の一種であるWeisfeiler-Lehman (WL) testに基づいた,GNNsの表現力の理論解析のためのフレームワークを提案した.

f:id:noconocolib:20190103143629p:plain
Figure 1: Subtree structures at the blue nodes in Weisfeiler-Lehman graph isomorphism test. Two WL iterations can capture and distinguish the structure of rooted subtrees of height 2.

FFJORD: Free-Form Continuous Dynamics for Scalable Reversible Generative Models

可逆な生成モデルについて,ネットワークアーキテクチャの制限なしに,次元数に対して線形の計算時間で動作する尤度の確率的推定手法の提案.

NICEやRealNVP,Glowなどの可逆な生成モデルの研究はいくつか存在するが,それらは計算量削減のためにネットワークアーキテクチャに制限が設けられてしまう. これに対して,ネットワークアーキテクチャに特別な制限を設けずに最適化を行うことのできるFree-form Jacobian of Reversible Dynamics (FFJORD)の提案を行った.

The Lottery Ticket Hypothesis: Finding Sparse, Trainable Neural Networks

ランダムに初期化された密なネットワークは,独立に学習を行ってそのネットワークと同程度の精度を得られる小さなサブネットワークが存在するというlottery ticket hypothesisを提案.

ニューラルネットワークのpruningはネットワークのパラメータを大幅に削減できる有用なテクニックである.しかし,既存の実験では,pruningされたスパースなネットワークを一から学習させるのは難しいという観測が得られている.これに対し著者らは,ランダムに初期化された密なネットワークは,良好な学習が可能なスパースなサブネットワークを内包することを発見した.この実験結果に基づいて,The Lottery Ticket Hypothesisを提案した.

The Lottery Ticket Hypothesis:任意のランダムに初期化された密なニューラルネットワークは,個別に学習した際に元々のネットワークと同程度の精度を達成できるサブネットワークを内包する.

論文では,このサブネットワークを発見する手法も提案している.

The Neuro-Symbolic Concept Learner: Interpreting Scenes, Words, and Sentences From Natural Supervision

明示的な教師情報なしにvisual concepts,wordsおよびemantic parsingを学習可能なNeuro-Symbolic Concept Learner (NS-CL)を提案.

提案手法は,各タスクについての明示的なラベルではなく,一対の質問と答えのペアのみからマルチタスクの学習を行うことができる.

f:id:noconocolib:20190103150744p:plain
Figure 2: We propose to use neural symbolic reasoning as a bridge to jointly learn visual concepts, words, and semantic parsing of sentences.

Slalom: Fast, Verifiable and Private Execution of Neural Networks in Trusted Hardware

機密性の高い計算をソフトウェアスタックから分離するTrusted Execution Environments (TEEs)上で,ニューラルネットワークの効率的な実行を実現するための研究.

機械学習アルゴリズムが機密性の高い分野で適用されるようになると,機械学習の計算の整合性とプライバシーのニーズも高まってくる.TEEsは機密性の高い計算を分離することでこれを達成することを目指している.しかしこのような分離アプローチは一般的にパフォーマンスを犠牲にしてしまう.

本論文では,任意のTTEsデバイス上で効率的なDNNsの推論ができるフレームワークであるSlalomを提案した.

f:id:noconocolib:20190103164848p:plain
Figure 4: Secure outsourcing of ResNet models with Intel SGX. We compare the baseline of fully executing the DNN in the enclave (blue) to secure outsourcing with integrity (yellow) and privacy and integrity (purple).

Learning Robust Representations by Projecting Superficial Statistics Out

学習データセットドメイン識別子が存在しない場合にも,これまで見たことのないドメインに対して汎化するような分類器を学習するunguided domain generalizationタスクについての研究.

モデルは一般的に,学習分布にとらわれない意味的なシグナルだけではなく,学習分布固有の表面的なシグナルも多く学習に用いるため,学習データセットに存在しないドメインに対する分類問題は難しい.これを解決するため,gray-level cooccurrence matrix (GLCM)を用いて,out-of-samplesに対する分類性能を向上させる2つのテクニックを提案した.また,DA/DGのための新しいデータセットも提案している.

f:id:noconocolib:20190103170456p:plain
Figure 1: Example illustration of train/validation/test data. The first row is “happiness” sentiment and the second row is “sadness” sentiment. The background and sentiment labels are correlated in training and validation set, but independent in testing set.

Enabling Factorized Piano Music Modeling and Generation with the MAESTRO Dataset

音符を中間表現として利用した音楽オーディオ生成手法の提案.

ニューラルネットワークを使用した音楽オーディオの生成は異なるタイムスケールによる一貫性の担保の必要により難しいタスクである. 本論文では,音符を中間表現として利用することで効果的に音楽オーディオを生成するWave2Midi2Waveを提案した.

f:id:noconocolib:20190103171550p:plain
Figure 1: Wave2Midi2Wave system architecture for our suite of piano music models, consisting of (a) a conditional WaveNet model that generates audio from MIDI, (b) a Music Transformer language model that generates piano performance MIDI autoregressively, and (c) a piano transcription model that “encodes” piano performance audio as MIDI.