Knowledge Distillation

ニューラルネットワークの蒸留

大規模で複雑な教師ネットワークの出力をもとに,より小さなネットワークを学習する蒸留について. 機械学習モデルの性能評価で重要なのは,学習データに対する正解率ではなく,学習データに含まれていないようなデータに対する汎化性能の方. パラメータの…