模型提取攻击摸索
本文记录了我针对“模型提取攻击(Model Extraction Attacks, MEAs)”进行的系统性研究实验。模型窃取本质上是利用黑盒接口的查询-响应机制,通过训练影子模型(Substitute Model)来复制靶机模型(Victim Model)的决策逻辑。
整个研究从最初的软标签(Soft-label)窃取开始,逐步深入到硬标签(Hard-label)环境下的决策边界探测,并规划了未来在复杂防御干扰下的自适应攻击路径。
项目简介
在“机器学习即服务”(MLaaS)环境下,攻击者通常只能访问受限的 API 1111。本项目旨在通过异构模型(以 VGG-11 拟合 ResNet-18)验证跨架构提取的稳健性。
实验主要分为以下阶段:
Stage 1:软标签提取。 利用 API 返回的完整置信度向量,通过分布对齐实现快速克隆。
Stage 2:硬标签窃取。 在仅能获取类别索引的极端信息受限环境下,通过底层采样策略(二分搜索与邻域增强)探测高维决策边界。
Stage 3(undo):防御干扰对抗。 模拟靶机部署差分隐私(DP)、输出扰动及查询检测等防御后的自适应攻击 。
文献综述与攻防体系划分
根据 2025 年最新的系统性综述及前沿文献,模型提取攻防已形成严密的分类矩阵 :
攻击范式层 (Attack Mechanisms)
- 替代模型训练 (Substitute Model Training): 利用查询反馈训练功能等价的影子模型(本项目核心逻辑)。
- 方程求解与参数还原: 针对简单模型或特定激活函数(如 ReLU)进行权重精确重构 。
- 解释引导与梯度估计: 利用热力图或样本梯度加速提取(如 SPSG 策略)。
数据策略层 (Data Strategies)
- 问题域攻击 (Problem Domain): 使用与靶机同分布的数据(如本项目对 CIFAR-10 的划分)。
- 非问题域攻击 (Non-problem Domain): 利用无关数据通过领域自适应完成提取(如 Marich 策略)。
- 无数据攻击 (Data-free): 完全依赖 GAN 生成查询样本。
防御技术图谱 (Defense Mechanisms)
- 攻击预防 (Prevention): 包含 对抗训练(增强鲁棒性)、输出/数据扰动(如加入 $\epsilon$-DP 噪声)、访问控制(基于速率限制或 PoW)。
- 监测与验证 (Detection & Verification):
- 查询模式监控: 如 PRADA 监测查询分布的统计偏差 。
- 所有权水印 (Watermarking): 在模型中嵌入特定 trigger 以便后事追溯所有权。
- 指纹识别 (Fingerprinting): 利用边界特征生成唯一模型标识。
环境配置
Python
1 |
核心攻击实现方案
靶机与 API 环境构建 (Stage 0 - Done)
靶机采用 ResNet-18 架构,在 CIFAR-10 数据集上训练 50 个 Epoch,达到 73.22% 的测试准确率。
Stage 1: 软标签分布拟合 (Done)
此阶段假设 API 返回完整的 Softmax 概率。通过 KL 散度(Kullback-Leibler Divergence)最小化影子模型与靶机的输出分布差异 14。
实验数据: 仅 10 轮迭代即达到 67.74% 准确率,保真度(Fidelity)为 81.05%。
Stage 2: 硬标签边界探测 (Doing)
这一阶段是本研究的重难点。我们将其分为 特征空间采样(底层逻辑) 与 高阶算法优化(执行方案)。
A. 底层空间采样逻辑
A1:决策边界二分搜索 (Binary Search) (Done)
在两类样本间通过线性插值迭代逼近决策边界点。
结果: 准确率 71.87%,但保真度仅 79.14%,且因查询开销过大耗时达 5 小时。
A2:邻域采样增强与 Mixup (Done)
利用大规模数据增强和随机插值填补特征岛屿。
结果: 保真度高达 90.79%,Mixup 更是将准确率推至 76.29%。
B. 主动学习优化 - 变分采样 (Undo)
参考 Marich 算法 15,计划通过熵采样(Entropy Sampling)与梯度多样性筛选,只查询对影子模型最具“启发性”的样本,以在有限配额内最大化信息增益 。
C. 解释性引导 - 梯度估计 (Undo)
参考 SPSG 策略,计划引入超像素扰动(SPGQ)在硬标签下估算伪梯度方向,使影子模型精准学习靶机的决策焦点。
防御干扰下的攻击 (Stage 3 - Undo)
- 应对差分隐私与输出扰动: 研究影子模型在靶机加入 $\epsilon$-DP 噪声干扰下的收敛能力,探索标签细化(Label Refining)过滤技术 。
- 规避查询模式检测: 开发伪装采样技术,使攻击查询序列在统计特征上接近合法用户,从而绕过类似 PRADA 的拦截 。
- 对抗主动防御(Honeypots): 研究影子模型如何识别并剥离由靶机主动诱导生成的防御性“错误模式” 。
阶段性实验数据总结 (Evaluation)
| 攻击策略 | 状态 | 准确率 (Acc) | 保真度 (Fidelity) | 核心洞察 |
|---|---|---|---|---|
| Stage 1 (Soft) | Done | 67.74% | 81.05% | 信息丰度高,学习最稳健。 |
| Stage 2-A1 (Binary) | Done | 71.87% | 79.14% | 易陷入分布外“孤岛”,拟合效率低。 |
| Stage 2-A2 (Aug) | Done | 72.57% | 90.79% | 最优克隆策略:大规模采样深度复刻行为。 |
| Stage 2-Mixup | Done | 76.29% | 86.20% | 识别力极强,但边界平滑导致克隆度下降。 |
