安全漏洞

DeeLMind大约 3 分钟

安全漏洞

一、数据层（Data-Level）

1. 训练数据投毒（Data Poisoning）

方式：
- 注入恶意样本
- 标签污染（Label Flipping）
- 隐蔽后门样本（Backdoor Trigger）
影响：
- 模型在特定输入下行为失控
- 定向误判 / 绕过安全策略
典型场景：
- 开源数据集
- Web 爬取语料
- 用户反馈自动回流训练（RLHF）

2. 数据隐私泄露

漏洞点：
- 训练数据含敏感信息
- 过拟合导致可反推原始数据
攻击方式：
- Membership Inference Attack（成员推断攻击）
- Model Inversion Attack（模型反演）
- 数据再识别 / 提取

二、模型层（Model-Level）

1. 对抗性攻击（Adversarial Attacks）

方式：
- 微小扰动输入导致输出错误
- 物理世界攻击（贴纸、光照干扰）
影响：
- 分类错误
- 自动驾驶 / 安防系统误判

2. 模型中毒（Model Poisoning / Backdoor）

方式：
- 在模型训练或微调阶段注入后门权重
影响：
- 模型在触发条件下执行恶意行为
- 无需访问训练数据即可触发

3. 模型窃取（Model Stealing）

方式：
- 通过 API 查询和输出推测模型参数或行为
影响：
- 商业模型被复制或重构
- 可用于后续对抗攻击

三、推理层（Inference-Level）

1. Prompt Injection / 指令注入

方式：
- 构造恶意输入诱导模型执行未授权操作
- 如泄露内部信息、执行计算任务
影响：
- 数据泄露
- AI 误操作

2. 输出滥用

方式：
- 利用模型生成有害内容（诈骗、仇恨言论、深度伪造）
影响：
- 法律风险
- 品牌或平台安全威胁

四、智能体层（Agent-Level）

1. 智能体滥用

方式：
- 利用自主决策能力完成恶意任务
- 多智能体协作进行自动化攻击
影响：
- 分布式网络攻击
- 社交媒体操纵
- 自动化漏洞扫描与渗透

2. 智能体被操控

方式：
- 对智能体策略或奖励函数进行干扰
影响：
- 完成攻击者预设的目标
- 系统行为不可控

五、系统集成层（System-Level）

1. API / 接口安全漏洞

方式：
- 不安全的模型部署接口
- 身份验证缺失或错误
影响：
- 非授权访问
- 数据泄露
- 模型被远程利用

2. 供应链攻击

方式：
- 利用开源库、预训练模型或微服务组件植入恶意代码
影响：
- 企业级系统被入侵
- 后门攻击和长期潜伏威胁

3. 日志与监控缺失

方式：
- 缺乏对 AI 系统行为的监控
影响：
- 攻击难以追踪
- 安全事件响应延迟

六、总结

AI 安全漏洞贯穿整个生命周期：数据 → 模型 → 推理 → 智能体 → 系统集成
核心威胁类型：
- 投毒、后门、对抗攻击、提示注入、模型窃取、输出滥用
防护建议：
- 安全数据治理
- 模型防护（对抗训练、访问控制）
- 推理/智能体行为监控
- API 安全与供应链安全