对抗性人工智能攻击详解：机器学习模型面临的风险

或埃希德 发布 - 02 年 2026 月 XNUMX 日

攻击剖析：模型是如何被欺骗的
2025年自动化威胁的增加
将基因人工智能武器化：网络钓鱼疫情
提示注入：人工智能时代的“SQL注入”
1. 注射机制
2. 即时注射风险分类
深度伪造困境与身份保证
浏览器：主要攻击面
人工智能时代的防御策略
1. 红队演练和模糊测试
浏览器检测和响应（BDR）
保障情报的未来

机器学习模型不再仅仅是分析工具，它们已成为现代企业决策的驱动引擎。这种依赖催生了一种复杂的威胁载体，即对抗性人工智能攻击。这些攻击并非针对代码漏洞（例如缓冲区溢出）的传统软件攻击，而是针对算法的视觉错觉。

攻击剖析：模型是如何被欺骗的

攻击者利用微妙的输入来欺骗人工智能系统，使其做出错误的分类或泄露敏感的训练数据。对于2025年的安全领导者而言，形势已经发生了变化。我们正在目睹从理论研究到实际武器化的转变。攻击者正在将这些技术付诸实践，以绕过欺诈检测并操纵金融算法。

他们甚至利用员工日常使用的工具窃取专有数据。浏览器已成为这些入侵的主要跳板。员工通过浏览器将敏感代码粘贴到 LLM 中，恶意扩展程序也可以通过浏览器悄无声息地注入有害提示。了解针对人工智能的对抗性攻击机制是保护浏览器到云端攻击面的第一步。

对抗性输入对人类观察者来说通常看起来像噪声，但神经网络却将其解读为独特的信号。这种差异使得攻击者能够在不触发传统安全警报的情况下操纵结果。用于执行人工智能对抗性攻击的方法通常分为三大类。

数据中毒：污染水井

投毒攻击发生在训练或微调阶段。攻击者通过向数据集中注入恶意样本，可以在模型中创建一个隐藏的后门。攻击者可能会巧妙地篡改训练语料库中的一组钓鱼邮件。由此产生的垃圾邮件过滤器会学习将特定的恶意模式分类为良性邮件。

在基因人工智能（GenAI）的背景下，这尤其危险。如果企业在已被悄悄篡改的内部代码库上对编码助手进行微调，后果将不堪设想。该模型可能会向开发人员推荐不安全的代码片段，从而有效地自动引入漏洞。

模型规避：数字障眼法

规避攻击发生在推理阶段。攻击者修改输入数据，导致模型错误分类。这是目前人工智能领域最常见的对抗性攻击形式。一个经典的例子是篡改停车标志图像中的几个像素。

自动驾驶车辆会造成危险的分类错误，将其识别为限速标志。在企业环境中，规避技术被用来绕过恶意软件分类器。这使得恶意文件能够绕过新一代防病毒解决方案。

模型提取和盗窃

模型窃取是指攻击者通过大量查询来探测“黑盒”人工智能系统。他们的目标是重建底层模型或提取用于训练该模型的私有数据。通过分析输出结果，他们可以构建一个模仿目标专有行为的替代模型。

这会窃取知识产权。它还为攻击者提供了一个沙箱环境，以便他们离线测试未来的规避攻击。他们可以在不惊动受害者的情况下，确保其方法对生产系统有效。

2025年自动化威胁的增加

发动此类攻击的门槛已显著降低。自动化工具包的出现，使得即使是技能较低的攻击者也能发起复杂的攻击活动。攻击事件的数量正呈爆炸式增长。安全团队必须重新审视其防御策略。

该图表显示，全球网络安全事件预计将同比增长 72%。随着各组织部署更多模型，人工智能对抗性攻击的数量预计将达到前所未有的水平，预计到 2025 年将发生 28 万起事件。这种指数级增长凸显了自动化工具如何降低威胁行为者大规模执行人工智能对抗性攻击的门槛。

这种激增并非偶然。其根源在于开源人工智能工具的广泛应用，这些工具可以被重新用于攻击。攻击者利用 GenAI 自动发现其他人工智能系统中的漏洞。这形成了一个对抗性优化的循环，其速度远超人类防御者修复漏洞的速度。

将基因人工智能武器化：网络钓鱼疫情

生成式人工智能从根本上改变了社会工程学的格局。生成式人工智能中的对抗性攻击不再仅仅是欺骗模型，而是利用模型来欺骗人类。攻击者现在会部署大型语言模型（LLM）来精心炮制上下文相关、语法完美的钓鱼邮件。

这些邮件模仿了公司内部高管的语气和风格。与传统方法相比，这些人工智能驱动的营销活动的效果令人震惊。

点击率对比揭示了生成式人工智能对抗性攻击的危险效力。传统网络钓鱼活动的成功率仅为 12%，而人工智能生成的、旨在模仿可信内部通信的诱饵点击率却高达惊人的 54%。这些数据凸显了开发专门的浏览器安全防护措施的迫切性，以便检测由生成式人工智能驱动的社会工程攻击中存在的细微语言和结构异常。

浏览器安全解决方案如今已不再局限于简单的URL过滤，而是需要分析所呈现内容的意图和上下文。当员工与GenAI聊天机器人互动或收到可疑电子邮件时，浏览器扩展程序就扮演着关键的控制点。它可以标记出表明内容系人工生成以达到欺骗目的的异常情况。

提示注入：人工智能时代的“SQL注入”

在生成式人工智能领域，最常见的对抗性攻击形式之一是提示注入。这种技术通过精心构造文本输入来覆盖模型的原始指令，从而迫使系统执行未经授权的操作。

注射机制

风险不仅限于用户在聊天框中输入恶意内容。真正的危险在于间接提示注入，也就是“中间人攻击”。在这种情况下，恶意程序可能会处理包含隐藏恶意指令的网页或文档。

LayerX Labs 已发现恶意浏览器扩展程序会将这些有害提示信息植入企业级 LLM 系统。此过程未经用户许可。这使得攻击者能够操纵受信任的 AI 工具的输出，从而有效地将原本有用的助手变成内部威胁。

即时注射风险分类

攻击类型	机制	风险等级
直接注射	攻击者手动输入恶意提示以绕过安全过滤器（越狱）。	高
间接喷射	恶意指令隐藏在人工智能所使用的外部数据（例如网页）中。	危急
上下文中毒	操纵对话历史以影响模型未来的反应。	中

此表对提示注入（对抗性人工智能攻击的一个特定子集）的主要攻击途径进行了分类。间接注入构成严重风险，因为它在用户不知情的情况下发生。它通常通过“中间人攻击”场景实现，即浏览器扩展程序读取被入侵的网页，并将恶意指令输入企业级LLM系统。

深度伪造困境与身份保证

用于创建实用虚拟形象的同一项技术正被武器化，用于绕过身份验证系统。深度伪造技术已从互联网新奇事物演变为企业级安全威胁。

该可视化图表展现了基于身份的人工智能对抗性攻击的爆炸式增长。仅在2025年第一季度，记录在案的深度伪造事件（179起）就已超过上一年度的总数（150起）。这一趋势表明，攻击者正在战略性地转向使用基因人工智能（GenAI）来绕过生物识别验证，并在高风险的欺诈活动中冒充高管。

这些攻击通常发生在视频会议平台或远程入职流程中。攻击者利用实时深度伪造技术冒充首席执行官或财务总监，授权欺诈性转账或索取敏感凭证。企业必须部署能够检测合成媒体数字痕迹的防御措施。

浏览器：主要攻击面

为什么浏览器是本次讨论的核心？因为员工正是通过浏览器访问 GenAI 工具（例如 ChatGPT、Gemini 或 Claude）的界面。它也是 AI 对抗性攻击到达终端的入口。

传统的网络安全工具无法检测用户浏览器与人工智能服务之间的加密流量。它们无法发现员工是否在聊天机器人中粘贴个人身份信息 (PII)。它们也无法发现“影子 SaaS”扩展程序是否在悄悄抓取这些数据。LayerX 对“影子 AI”的研究表明，相当一部分企业数据泄露是通过未受管理的浏览器扩展程序发生的。

当我们谈到如何防范针对人工智能的对抗性攻击时，必须将浏览器视为关键的执行点。它是唯一能够同时查看用户输入、模型输出和网络会话上下文的地方。这种可见性使得我们能够实时屏蔽敏感数据。

人工智能时代的防御策略

抵御这些复杂的威胁需要多层次的防御策略。仅仅依赖供应商模型中内置的安全过滤器是不够的。企业必须在这些模型之外，再辅以自身的安全控制措施。

红队演练和模糊测试

各组织应主动对其人工智能部署进行压力测试。红队演练是指由道德黑客尝试破解模型，并执行对抗性人工智能攻击来识别漏洞。

这通常与模糊测试结合使用。模糊测试是一种自动化技术，它向模型输入数千个随机或半随机的输入数据。其目的是查看是否有任何输入会导致模型崩溃或泄露训练数据。

浏览器检测和响应（BDR）

一套全面的 BDR 解决方案如同用户 Web 会话的防火墙，能够阻止恶意扩展程序的安装，从而防止数据投毒或模型窃取。

此外，它还使组织能够对生成式人工智能 (GenAI) 的使用实施策略控制。这确保员工不会在不知情的情况下参与攻击。它防止因冒险行为而使组织面临生成式人工智能对抗性攻击的风险。

保障情报的未来

攻击者和防御者之间的猫鼠游戏已经进入了一个新阶段。对抗性攻击对我们为未来构建的系统的完整性构成了根本性的挑战。

通过了解针对人工智能的对抗性攻击的细微差别，安全领导者可以构建更具弹性的架构。未来的发展方向并非放弃人工智能，而是要确保人工智能运行的生态系统的安全。

这意味着要认识到浏览器不再仅仅是文档查看器，它更是抵御生成式人工智能对抗攻击的第一道防线。通过严格的测试和实时监控，企业可以自信地应对这一复杂的环境。

或埃希德

Or Eshed 是浏览器安全平台 LayerX 的联合创始人兼首席执行官，在网络安全、人工智能和信息战方面拥有十多年的经验。

人工智能使用安全

企业浏览器安全

LayerX 企业 GenAI 安全报告 2025

合作伙伴

关于我们