生成式人工智能的采用正在重塑各行各业,但这种快速融合也带来了一类新的风险,传统安全措施难以应对。随着企业纷纷采用 ChatGPT、Copilot 和自定义大型语言模型 (LLM) 等工具,它们将自身暴露于新的攻击面,主要攻击武器不再是恶意代码,而是自然语言本身。在这种背景下,主动对抗式的安全测试方法变得至关重要。这正是 GenAI 红队测试的领域,它通过对人工智能系统进行压力测试,在漏洞被利用之前发现其隐藏的缺陷。
这门学科的名称源于军事和网络安全演习,其中“红队”模拟攻击者来测试组织的防御能力。应用于人工智能时,它涉及一个系统性的探测、质疑和攻击模型的过程,以识别与安全、安保和道德相关的漏洞。那么,人工智能中的红队是什么呢?它是一种模拟对抗行为的实践,旨在发现人工智能发展过程中出现的不可预见的风险,超越静态检查,探索这些复杂系统在压力下的行为方式。
新的威胁生态系统:为什么人工智能需要专门的红队
传统网络安全侧重于保护网络、终端和应用程序免受基于代码的攻击。然而,生成式人工智能的运作方式却有所不同。其主要攻击界面并非传统意义上的软件漏洞,而是提示窗口本身,这使得每次用户交互都成为潜在的攻击媒介。为此,专门组建了一支人工智能红队,以理解和利用这些独特的漏洞。他们的工作至关重要,因为生成式人工智能的风险不仅关乎技术,还关乎社会和伦理。
AI红队要应对的挑战包括:
- 数据泄露和隐私泄露。使用 GenAI 工具提高工作效率的员工可能会无意中将敏感的公司数据、源代码、财务记录或客户 PII 粘贴到提示中。LayerX 指出,浏览器已成为此类数据泄露的首要渠道,因为员工愿意与外部 AI 平台共享信息。
- 提示注入和劫持攻击者可以编写提示,诱使 LLM 忽略其原始指令并执行攻击者的命令。这可用于生成恶意内容、窃取会话数据或操纵应用程序的行为。
- 有害内容生成模型可以被“越狱”,从而绕过其安全过滤器,并产生有害、有偏见或不适当的输出。AI 红队会系统地测试这些安全护栏的弹性。
- 影子人工智能 (Shadow AI) 和未经批准的使用 GenAI 工具易于访问,这意味着员工经常在未经公司批准的情况下使用它们,从而创建了安全团队无法看到或控制的“影子人工智能”或“影子 SaaS”生态系统。LayerX 提供解决方案,可对所有 SaaS 应用程序(包括这些未经批准的工具)进行全面审计。
这些风险表明,保护 GenAI 的安全不仅在于保护模型的基础设施,更在于规范其使用。因此,对 LLM 系统进行红队演练至关重要。
模拟对手:法学硕士红队的核心实践
红队法学硕士(LLM)的工作是多方面的,需要运用一系列创造性和技术性策略来突破模型的极限。这个过程并非只是简单地完成一份清单;而是一项探索性、迭代性且常常充满惊喜的任务。专业的红队AI会采用多项核心实践。
| 技术 | 目的 | 攻击向量示例 |
| 对抗性提示 | 绕过安全过滤器并引发策略违规 | 多轮对话引出隐藏指令 |
| 探测敏感数据 | 窃取模型训练或会话数据 | 旨在揭示专有代码或 PII 的查询 |
| 偏见与伤害检测 | 识别歧视性或有害的输出 | 针对特定人群的提示,以进行公平性测试 |
对抗提示和越狱
这或许是 LLM 红队演练中最为人熟知的方面。它涉及精心设计输入,旨在使模型违反其自身的安全策略。其技巧范围广泛,从简单的指令到复杂的多轮对话,逐渐诱导模型进入受损状态。例如,红队成员可能会要求模型编写一个虚构的故事,其中包含针对有害活动的指令,从而绕过直接拒绝。其目标是识别导致安全故障的模式和逻辑漏洞。
探测敏感数据
LLM 红队演练中的一项关键任务是测试模型是否会无意中泄露其训练所用的敏感信息。这些信息可能包括个人数据、专有代码或其他机密细节。红队成员还可能测试基于 LLM 构建的应用程序是否存在允许未经授权访问系统内数据的漏洞,例如其他用户的对话历史记录或连接的数据源。LayerX 强调,浏览器是这些交互的主要网关,因此,应用安全策略以防止数据泄露至关重要。
评估偏见和有害刻板印象
人工智能模型从海量数据集中学习,而这些数据集通常包含社会偏见。人工智能安全测试涉及探索模型,看看它们是否生成对特定人群具有歧视性、刻板印象或其他有害的输出。这可能涉及向模型输入与不同种族、性别、宗教和国籍相关的提示,以评估其响应的公平性和公正性。
测试错误信息和虚假信息
红队 AI 还会评估模型生成虚假或误导性信息的敏感性。可以通过提出引导性问题、提供虚假前提或请求已知是虚假信息传播目标的争议性话题内容来测试。了解模型生成错误信息的方式和原因是构建更可信系统的关键。
人工智能红队参与的迭代周期至关重要:测试、记录漏洞、与开发人员合作实施防御,然后重新测试以确保修复有效且没有引入新问题。
从理论到实践:实施持续的人工智能安全测试计划
有效的人工智能安全测试并非产品发布前一次性进行的。鉴于人工智能模型的动态特性以及对手不断演变的策略,它必须是一个贯穿整个人工智能开发生命周期的持续过程。
| 相 | 描述 | 反馈回路 |
| 租赁计划 | 定义目标、范围和失败阈值 | 根据先前的评估改进政策 |
| 《测试》(Test) | 执行对抗提示和自动扫描 | 漏洞已记录并确定优先级 |
| 整治 | 实施模型护栏、安全过滤器和补丁 | 通过重新测试验证了防御效能 |
建立红队 LLM 应用程序程序的最佳实践包括:
- 明确目标和范围:在测试开始之前,组织必须明确测试内容。这包括制定清晰的政策,列出不可接受的行为,例如数据泄露、恶意内容生成等,并设定可衡量的失败阈值。
- 组建多元化团队:一支高效的AI红队应该是多学科的。它不仅应包括安全工程师,还应包括社会科学家、伦理学家、律师以及能够预测各种潜在危害和攻击媒介的领域专家。
- 结合使用手动和自动测试:自动化工具可以快速测试已知漏洞,并运行数千种不同的对抗性提示。然而,人类的创造力和直觉对于发现自动化系统可能遗漏的新颖、复杂的“越狱”漏洞至关重要。
- 迭代与调整:红队演习的结果必须反馈到开发过程中,以改进模型一致性、增强安全过滤器并修补系统级漏洞。之后,红队应该攻击改进后的系统来验证防御措施。
浏览器:GenAI 安全的最后前沿
虽然 AI 红队测试对于提升模型的固有安全性至关重要,但没有任何模型能够做到绝对安全。漏洞永远存在,而富有创造力的对手总会找到新的方法来利用它们。对于企业而言,这意味着改进模型固然重要,但控制用户与模型交互的环境至关重要。而这个环境,绝大多数就是 Web 浏览器。
想象一下,一位财务分析师使用第三方 GenAI 工具汇总季度收益报告。攻击者可以利用提示注入攻击,诱骗 LLM 将部分敏感财务数据发送到外部服务器。或者,这位分析师可能直接将整份机密报告粘贴到提示窗口中,造成大规模数据泄露。
此时,浏览器级安全成为最实用、最有效的控制点。企业浏览器或以安全为中心的浏览器扩展程序可以在交互的精确时刻强制执行安全策略,提供基于模型的安全功能无法提供的最后一道防线。
LayerX 通过以下方式为这一挑战提供了量身定制的解决方案:
- 映射 GenAI 使用情况:LayerX 可以识别组织中正在使用的所有 GenAI 工具,包括未经批准的“影子 AI”,从而提供管理风险所需的可见性。
- 强制数据丢失防护 (DLP):它可以防止用户将敏感数据(例如代码、PII 或财务信息)粘贴到 GenAI 提示中。它可以在信息离开浏览器之前实时检测并编辑这些信息。
- 控制用户活动:该解决方案可以将细粒度的、基于风险的策略应用于所有 SaaS 使用,包括阻止将文件上传到不合规的 AI 工具或防止使用个人帐户登录。
通过保护浏览器,组织可以为 GenAI 的使用创建一个安全的运营屏障,从而降低 GenAI 红队演习中发现的风险,同时又不影响这些工具带来的生产力优势。这将焦点从试图围绕模型构建坚不可摧的堡垒转移到简单地控制大门。
