本文记录了我针对“模型提取攻击(Model Extraction Attacks, MEAs)”进行的系统性研究实验。模型窃取本质上是利用黑盒接口的查询-响应机制,通过训练影子模型(Substitute Model)来复制靶机模型(Victim Model)的决策逻辑。

   整个研究从最初的软标签(Soft-label)窃取开始,逐步深入到硬标签(Hard-label)环境下的决策边界探测,并规划了未来在复杂防御干扰下的自适应攻击路径。

项目简介

在“机器学习即服务”(MLaaS)环境下,攻击者通常只能访问受限的 API 1111。本项目旨在通过异构模型(以 VGG-11 拟合 ResNet-18)验证跨架构提取的稳健性。

   实验主要分为以下阶段:

   Stage 1:软标签提取。 利用 API 返回的完整置信度向量,通过分布对齐实现快速克隆。

   Stage 2:硬标签窃取。 在仅能获取类别索引的极端信息受限环境下,通过底层采样策略(二分搜索与邻域增强)探测高维决策边界。

   Stage 3(undo):防御干扰对抗。 模拟靶机部署差分隐私(DP)、输出扰动及查询检测等防御后的自适应攻击 。

文献综述与攻防体系划分

根据 2025 年最新的系统性综述及前沿文献,模型提取攻防已形成严密的分类矩阵 :

攻击范式层 (Attack Mechanisms)

  • 替代模型训练 (Substitute Model Training): 利用查询反馈训练功能等价的影子模型(本项目核心逻辑)。
  • 方程求解与参数还原: 针对简单模型或特定激活函数(如 ReLU)进行权重精确重构 。
  • 解释引导与梯度估计: 利用热力图或样本梯度加速提取(如 SPSG 策略)。

数据策略层 (Data Strategies)

  • 问题域攻击 (Problem Domain): 使用与靶机同分布的数据(如本项目对 CIFAR-10 的划分)。
  • 非问题域攻击 (Non-problem Domain): 利用无关数据通过领域自适应完成提取(如 Marich 策略)。
  • 无数据攻击 (Data-free): 完全依赖 GAN 生成查询样本。

防御技术图谱 (Defense Mechanisms)

  • 攻击预防 (Prevention): 包含 对抗训练(增强鲁棒性)、输出/数据扰动(如加入 $\epsilon$-DP 噪声)、访问控制(基于速率限制或 PoW)。
  • 监测与验证 (Detection & Verification):
    • 查询模式监控:PRADA 监测查询分布的统计偏差 。
    • 所有权水印 (Watermarking): 在模型中嵌入特定 trigger 以便后事追溯所有权。
    • 指纹识别 (Fingerprinting): 利用边界特征生成唯一模型标识。

环境配置

Python

1

核心攻击实现方案

靶机与 API 环境构建 (Stage 0 - Done)

   靶机采用 ResNet-18 架构,在 CIFAR-10 数据集上训练 50 个 Epoch,达到 73.22% 的测试准确率。

Stage 1: 软标签分布拟合 (Done)

此阶段假设 API 返回完整的 Softmax 概率。通过 KL 散度(Kullback-Leibler Divergence)最小化影子模型与靶机的输出分布差异 14。

   实验数据: 仅 10 轮迭代即达到 67.74% 准确率,保真度(Fidelity)为 81.05%。

Stage 2: 硬标签边界探测 (Doing)

   这一阶段是本研究的重难点。我们将其分为 特征空间采样(底层逻辑)高阶算法优化(执行方案)

A. 底层空间采样逻辑

  • A1:决策边界二分搜索 (Binary Search) (Done)

       在两类样本间通过线性插值迭代逼近决策边界点。

       结果: 准确率 71.87%,但保真度仅 79.14%,且因查询开销过大耗时达 5 小时。

  • A2:邻域采样增强与 Mixup (Done)

       利用大规模数据增强和随机插值填补特征岛屿。

       结果: 保真度高达 90.79%,Mixup 更是将准确率推至 76.29%。

B. 主动学习优化 - 变分采样 (Undo)

参考 Marich 算法 15,计划通过熵采样(Entropy Sampling)与梯度多样性筛选,只查询对影子模型最具“启发性”的样本,以在有限配额内最大化信息增益 。

C. 解释性引导 - 梯度估计 (Undo)

参考 SPSG 策略,计划引入超像素扰动(SPGQ)在硬标签下估算伪梯度方向,使影子模型精准学习靶机的决策焦点。


防御干扰下的攻击 (Stage 3 - Undo)

  1. 应对差分隐私与输出扰动: 研究影子模型在靶机加入 $\epsilon$-DP 噪声干扰下的收敛能力,探索标签细化(Label Refining)过滤技术 。
  2. 规避查询模式检测: 开发伪装采样技术,使攻击查询序列在统计特征上接近合法用户,从而绕过类似 PRADA 的拦截 。
  3. 对抗主动防御(Honeypots): 研究影子模型如何识别并剥离由靶机主动诱导生成的防御性“错误模式” 。

阶段性实验数据总结 (Evaluation)

攻击策略 状态 准确率 (Acc) 保真度 (Fidelity) 核心洞察
Stage 1 (Soft) Done 67.74% 81.05% 信息丰度高,学习最稳健。
Stage 2-A1 (Binary) Done 71.87% 79.14% 易陷入分布外“孤岛”,拟合效率低。
Stage 2-A2 (Aug) Done 72.57% 90.79% 最优克隆策略:大规模采样深度复刻行为。
Stage 2-Mixup Done 76.29% 86.20% 识别力极强,但边界平滑导致克隆度下降。

总结与思考