安全漏洞
2026年2月2日大约 3 分钟
安全漏洞
一、数据层(Data-Level)
1. 训练数据投毒(Data Poisoning)
- 方式:
- 注入恶意样本
- 标签污染(Label Flipping)
- 隐蔽后门样本(Backdoor Trigger)
- 影响:
- 模型在特定输入下行为失控
- 定向误判 / 绕过安全策略
- 典型场景:
- 开源数据集
- Web 爬取语料
- 用户反馈自动回流训练(RLHF)
2. 数据隐私泄露
- 漏洞点:
- 训练数据含敏感信息
- 过拟合导致可反推原始数据
- 攻击方式:
- Membership Inference Attack(成员推断攻击)
- Model Inversion Attack(模型反演)
- 数据再识别 / 提取
二、模型层(Model-Level)
1. 对抗性攻击(Adversarial Attacks)
- 方式:
- 微小扰动输入导致输出错误
- 物理世界攻击(贴纸、光照干扰)
- 影响:
- 分类错误
- 自动驾驶 / 安防系统误判
2. 模型中毒(Model Poisoning / Backdoor)
- 方式:
- 在模型训练或微调阶段注入后门权重
- 影响:
- 模型在触发条件下执行恶意行为
- 无需访问训练数据即可触发
3. 模型窃取(Model Stealing)
- 方式:
- 通过 API 查询和输出推测模型参数或行为
- 影响:
- 商业模型被复制或重构
- 可用于后续对抗攻击
三、推理层(Inference-Level)
1. Prompt Injection / 指令注入
- 方式:
- 构造恶意输入诱导模型执行未授权操作
- 如泄露内部信息、执行计算任务
- 影响:
- 数据泄露
- AI 误操作
2. 输出滥用
- 方式:
- 利用模型生成有害内容(诈骗、仇恨言论、深度伪造)
- 影响:
- 法律风险
- 品牌或平台安全威胁
四、智能体层(Agent-Level)
1. 智能体滥用
- 方式:
- 利用自主决策能力完成恶意任务
- 多智能体协作进行自动化攻击
- 影响:
- 分布式网络攻击
- 社交媒体操纵
- 自动化漏洞扫描与渗透
2. 智能体被操控
- 方式:
- 对智能体策略或奖励函数进行干扰
- 影响:
- 完成攻击者预设的目标
- 系统行为不可控
五、系统集成层(System-Level)
1. API / 接口安全漏洞
- 方式:
- 不安全的模型部署接口
- 身份验证缺失或错误
- 影响:
- 非授权访问
- 数据泄露
- 模型被远程利用
2. 供应链攻击
- 方式:
- 利用开源库、预训练模型或微服务组件植入恶意代码
- 影响:
- 企业级系统被入侵
- 后门攻击和长期潜伏威胁
3. 日志与监控缺失
- 方式:
- 缺乏对 AI 系统行为的监控
- 影响:
- 攻击难以追踪
- 安全事件响应延迟
六、总结
- AI 安全漏洞贯穿整个生命周期:数据 → 模型 → 推理 → 智能体 → 系统集成
- 核心威胁类型:
- 投毒、后门、对抗攻击、提示注入、模型窃取、输出滥用
- 防护建议:
- 安全数据治理
- 模型防护(对抗训练、访问控制)
- 推理/智能体行为监控
- API 安全与供应链安全

思 维 教程: