Boosting Adversarial Attacks with Momentum

CVPR2018採択論文"Boosting Adversarial Attacks with Momentum"のレビュー.

元論文はこちら

既存のAdversarial Attacksの手法にモーメンタムの概念を導入して,攻撃性能とtransferabilityの両立を達成.

同時に,攻撃手法のアンサンブル化によって複数モデルに対する同時攻撃可能性の実験を行っている.

Abstract

既存のAdversarial Attackstは,Black-Boxな設定では著しく成功率が下がってしまう.これを解決するため,Adversarial Attacksを促進するmomentum-based iterative algorithmsを提案.

提案手法はモーメンタムを活用することで,iterative processの更新方向の安定化と局所最適解に陥る危険性の回避ができる.

f:id:noconocolib:20190129181534p:plain
Figure 1. We show two adversarial examples generated by the proposed momentum iterative fast gradient sign method (MI-FGSM) for the Inception v3 model. Left column: the original images. Middle column: the adversarial noises by applying MI-FGSM for 10 iterations. Right column: the generated adversarial images. We also show the predicted labels and probabilities of these images given by the Inception v3.

提案手法は,Black-Box AttacksおよびWhite-Box Attacksの両方に適用でき,高い成功率を達成できる.

また,アンサンブル攻撃手法による複数モデルの同時攻撃についての解析を行い,Adversarial Examplesのtransferabilityを示した.

Momentum iterative fast gradient sign method

non-targeted adversarial example $x^*$の生成のため,以下の最適化問題を解く.

 argmax_{x^{*}} J(x^{*}, y), s.t. |x^{*} - x|_{\infty} \leq \epsilon

 \epsilonはadversarial perturbationのサイズ.

もともとのFGSMでは,データ点周辺の決定境界の線形性を仮定した上で,以下の式のように,入力サンプルについての勾配の方向を一度だけ利用する.

 x^{*} = x + \epsilon \cdot sign(\nabla_x J(x, y))

しかし実際には,データ分布が巨大な場合には線形性についての仮定は満たせれない場合が多く,こうした場合におけるFGSMの生成するAdversarial Examplesの攻撃性能は著しく低下してしまう(under-fit).

一方で,iterative FGSMは各イテレーションで貪欲に勾配方向へadversarial examplesを更新する.

 x^{*}_0 = x

 x^{*}_{t+1} = x^*_t + \alpha \cdot sign(\nabla_x J(x^*_t, y))

この手法は,一つの攻撃対象のモデルのみに過剰に適合してしまい,他のモデルへの攻撃能力は低くなってしまう(overfit).

これらの2つの手法の各課題を解決するため,論文ではiterative FGSMにmomentumを導入する. これによって,transferabilityを担保したまま,高い攻撃性能をもったAdversarial Examplesを生成できる.

f:id:noconocolib:20190129181629p:plain

Attacking ensemble of models

複数モデルの同時攻撃のための,Adversarial Attacksのアンサンブル手法であるensemble in logitsの提案.

 l(x) = \sum^K_{k=1} w_k l_k(x)

損失関数は,

 J(x, y) = -1_y \cdot \log(softmax(l(x)))

 1_yはターゲットラベル yのone-hot encoding.

実験結果

  • 複数のネットワークアーキテクチャについて,FGSM, iterative FGSM, MI-FGSMの比較.

f:id:noconocolib:20190129183041p:plain
Table 1. The success rates (%) of non-targeted adversarial attacks against seven models we study. The adversarial examples are crafted for Inc-v3, Inc-v4, IncRes-v2 and Res-152 respectively using FGSM, I-FGSM and MI-FGSM. ∗ indicates the white-box attacks.

  • 複数のネットワークアーキテクチャについて,アンサンブル攻撃の実験結果.

f:id:noconocolib:20190129183123p:plain
Table 2. The success rates (%) of non-targeted adversarial attacks of three ensemble methods. We report the results for an ensemble of white-box models and a hold-out black-box target model. We study four models—Inc-v3, Inc-v4, IncRes-v2 and Res-152. In each row, “-” indicates the name of the hold-out model and the adversarial examples are generated for the ensemble of the other three models by FGSM, I-FGSM and MI-FGSM respectively. Ensemble in logits consistently outperform other methods.