Decision-Based Adversarial Attacks: Reliable Attacks Against Black-Box Machine Learning Models

ICLR2018採択論文"Decision-Based Adversarial Attacks: Reliable Attacks Against Black-Box Machine Learning Models"のレビュー.

元論文はこちら

問題設定としては,クラウドAPIとして提供されているような機械学習モデルに対して,最終的な分類結果のみを使って誤分類を誘発するBlack-Box Adversarial Attackについての論文となる.

Abstract

多くの機械学習モデルは,画像内に小さな摂動を加えることで誤分類を誘発するAdversarial Examplesに脆弱性を持つ.しかし,多くの既存のAdversarial Examplesの研究は,モデルの内部情報を必要とすることから,現実の問題設定に即していないケースが多い.そこで論文では,モデルの最終的な分類結果のみから攻撃を行うdecision-based attacksの重要性を強調し,そうした環境下で攻撃を行う手法を提案.

f:id:noconocolib:20190125174629p:plain
Figure 1: (Left) Taxonomy of adversarial attack methods. The Boundary Attack is applicable to realworld ML algorithms because it only needs access to the final decision of a model (e.g. class-label or transcribed sentence) and does not rely on model information like the gradient or the confidence scores. (Right) Application to the Clarifai Brand Recognition Model.

本論文の貢献は,

  • decision-based attacksがadversarial attacksの重要なカテゴリであることを示唆.
  • decision-based attacksを達成する効果的な攻撃手法であるBoundary Attackを提案.提案手法は,(1) 非常にシンプル.(2) 非常に柔軟.(3) ハイパーパラメータのチューニングがほとんど必要ない.(4) SOTAな攻撃手法と比べて,competitiveな実験結果を達成.
  • Boundary Attackはdefensive distillationのような既存の防御手法を突破できることを示す.

Boundary Attack

Notation

  •  o: original image
  •  y = F(o): full prediction of the model $F$
  •  y_{max}: predicted label
  •  \tilde{o}: adversarially perturbed image
  •  \tilde{o}^k: perturbed image at k-th step of an attack algorithm

Algorithm

提案手法の概要をAlgorithm 1に示す.

f:id:noconocolib:20190125174859p:plain
Algorithm 1: Minimal version of the Boundary Attack.

Initialization

Boundary Attackはサンプルに加える摂動の初期化が必要となる.

untargeted scenarioでは,単純に入力ドメインのmaximum entropy distributionからサンプリングする.例えばcomputer visionにおいては,入力画像の各ピクセルは[0, 255]に制限されるため,一様分布 U(0, 255)からサンプリングすればいい.

targeted scearioでは,ターゲットクラスに分類されるような何らかの画像を初期値とする.

Proposal Distribution

提案手法の有効性はproposal distribution  Pに強く依存する.

最適なproposal distributionは一般的にはドメインと攻撃対象のモデルに依存する.

proposal distributionを決定する基本的なアイディアは以下の通り.

  1. 摂動を加えられた画像は入力ドメインに従う.

 \tilde{o}^{k-1}_i + \eta^k_i \in [0, 255]

  1. 摂動のサイズは以下を満たす.

 |\eta^k|_2 = \delta \cdot d(o, \tilde{o}^{k-1})

  1. 摂動が加えられた画像にさらに摂動を加えたとき,画像間の距離の相関関係は以下を満たす.

 d(o, \tilde{o}^{k-1}) - d(o, \tilde{o}^{k-1} + \eta^k) = \epsilon \cdot d(o, \tilde{o}^{k-1})

実際に上記の分布からサンプリングを行うのは難しいので,より単純なヒューリスティクスを利用する.

  • 最初に,iidなGaussian distributionからサンプリングを行い,上記の1と2を満たすように値のrescale & clipを行う.
  • 次に,もともとの入力画像$o$の周りの球に摂動 \eta d(o, \tilde{o}^{k-1} + \eta^k) = d(o, \tilde{o}^{k-1})となるようにマッピングする.これをorthogonal perturbationと呼び,後のハイパーパラメータのチューニングに使う.

  • 最後に,1,2,3を維持したまま,もともとの入力画像を少しだけ変化させる.

実験結果

  • 以下はtargeted attack設定による実験結果.
  • 入力画像は猫(original)で,誤分類させたいターゲットクラスは犬(0 calls)
  • step数を重ねるごとに,犬だった初期値画像がもともとの入力画像と見分けがつかなくなっていき,最終的に見た目では判断がつかないのにニューラルネットは猫を犬と誤分類してしまう.

f:id:noconocolib:20190125175248p:plain
Figure 7: Example of a targeted attack. Here the goal is to synthesize an image that is as close as possible (in L2-metric) to a given image of a tiger cat (2nd row, right) but is classified as a dalmatian dog. For each image we report the total number of model calls (predictions) until that point.