ICLR2018採択論文"Decision-Based Adversarial Attacks: Reliable Attacks Against Black-Box Machine Learning Models"のレビュー.
元論文はこちら
問題設定としては,クラウドでAPIとして提供されているような機械学習モデルに対して,最終的な分類結果のみを使って誤分類を誘発するBlack-Box Adversarial Attackについての論文となる.
Abstract
多くの機械学習モデルは,画像内に小さな摂動を加えることで誤分類を誘発するAdversarial Examplesに脆弱性を持つ.しかし,多くの既存のAdversarial Examplesの研究は,モデルの内部情報を必要とすることから,現実の問題設定に即していないケースが多い.そこで論文では,モデルの最終的な分類結果のみから攻撃を行うdecision-based attacksの重要性を強調し,そうした環境下で攻撃を行う手法を提案.
本論文の貢献は,
- decision-based attacksがadversarial attacksの重要なカテゴリであることを示唆.
- decision-based attacksを達成する効果的な攻撃手法であるBoundary Attackを提案.提案手法は,(1) 非常にシンプル.(2) 非常に柔軟.(3) ハイパーパラメータのチューニングがほとんど必要ない.(4) SOTAな攻撃手法と比べて,competitiveな実験結果を達成.
- Boundary Attackはdefensive distillationのような既存の防御手法を突破できることを示す.
Boundary Attack
Notation
- : original image
- : full prediction of the model $F$
- : predicted label
- : adversarially perturbed image
- : perturbed image at k-th step of an attack algorithm
Algorithm
提案手法の概要をAlgorithm 1に示す.
Initialization
Boundary Attackはサンプルに加える摂動の初期化が必要となる.
untargeted scenarioでは,単純に入力ドメインのmaximum entropy distributionからサンプリングする.例えばcomputer visionにおいては,入力画像の各ピクセルは[0, 255]に制限されるため,一様分布からサンプリングすればいい.
targeted scearioでは,ターゲットクラスに分類されるような何らかの画像を初期値とする.
Proposal Distribution
提案手法の有効性はproposal distribution に強く依存する.
最適なproposal distributionは一般的にはドメインと攻撃対象のモデルに依存する.
proposal distributionを決定する基本的なアイディアは以下の通り.
- 摂動を加えられた画像は入力ドメインに従う.
]
- 摂動のサイズは以下を満たす.
- 摂動が加えられた画像にさらに摂動を加えたとき,画像間の距離の相関関係は以下を満たす.
実際に上記の分布からサンプリングを行うのは難しいので,より単純なヒューリスティクスを利用する.
- 最初に,iidなGaussian distributionからサンプリングを行い,上記の1と2を満たすように値のrescale & clipを行う.
次に,もともとの入力画像$o$の周りの球に摂動をとなるようにマッピングする.これをorthogonal perturbationと呼び,後のハイパーパラメータのチューニングに使う.
最後に,1,2,3を維持したまま,もともとの入力画像を少しだけ変化させる.
実験結果
- 以下はtargeted attack設定による実験結果.
- 入力画像は猫(original)で,誤分類させたいターゲットクラスは犬(0 calls)
- step数を重ねるごとに,犬だった初期値画像がもともとの入力画像と見分けがつかなくなっていき,最終的に見た目では判断がつかないのにニューラルネットは猫を犬と誤分類してしまう.