Aggregator
App+1|出国旅游总得问价,如何让陌生货币变「直观」?
火山引擎AI安全保障实践-曲乐炜
这份文档详细介绍了火山引擎在AI领域的安全保障实践。首先,文档概述了火山引擎的AI业务架构,该架构涵盖了从底层AI基础设施(AI Infra)、大模型服务平台(MaaS)到智能体开发运维(Agent DevOps)和最终的AI智能体(AI Agent)应用的全方位服务。
文档的核心部分阐述了火山引擎的AI安全保障方案,强调“安全是一切Agent的基础”。该方案构建了一个多层次的纵深防御体系,包括针对大语言模型(LLM)本身的提示词攻击防护、模型平台安全;针对Agent和工具的协议安全、沙箱防护;以及覆盖底层基础设施和平台治理的全面安全措施。
文档重点分析了AI智能体场景中MCP(Model-as-a-Service Connector Protocol)面临的七大核心安全风险,例如传统的Web服务漏洞、工具描述投毒、间接提示词注入、恶意“地毯式骗局”(Rug Pull)以及企业数据安全风险等。
为应对这些挑战,火山引擎设计了MCP安全架构。该架构包含三大核心策略:
- 第一,严格的安全准入控制,确保所有接入MCP市场的服务都经过安全扫描和漏洞修复;
- 第二,原生安全设计,针对多租户体验场景和单租户私有化部署场景,分别采用临时凭证隔离和VPC内部署等不同安全机制;
- 第三,运行时安全防护,通过“大模型防火墙”和“AgentArmor”等工具,实时检测并拦截恶意输入和非预期行为,保障模型和智能体在运行过程中的安全。
全球反诈行动缴获 3 亿美元加密货币
全球反诈行动缴获 3 亿美元加密货币
亲俄黑客远程操控挪威大坝:私开阀门 4 小时,泄洪超 720 万升
亲俄黑客远程操控挪威大坝:私开阀门 4 小时,泄洪超 720 万升
LLM 间接提示注入 漏洞解析与防御路线
演示首先概述了LLM面临的普遍安全风险,并引用OWASP的报告,强调“提示注入”是首要威胁。近期多所国际知名大学的论文被发现植入了操控AI给出好评的隐形指令,这便是提示注入的实例。研究数据表明,与直接提示注入相比,间接提示注入(IPI)的攻击成功率要高得多,因为它将恶意指令隐藏在模型处理的网页、文档等外部内容中,模型在解析时会自动执行。
接着,文稿深入分析了IPI的攻击原理。其有效性的关键在于模型本身无法区分“指令”和“数据”,且缺乏“不执行外部数据中指令”的意识。实证研究表明,即使是更强大的模型,也普遍受IPI影响,且攻击成功率更高,而现有的缓解技术(如提示工程和微调)虽有改善,但效果有限,并可能牺牲模型的实用性。
为了说明其危害,文稿展示了一个真实的攻击链条:攻击者将恶意指令(如窃取历史对话、钓鱼用户凭据)植入PDF文档中。当用户上传该文档让AI进行翻译或总结时,AI会执行恶意指令,将用户的历史对话记录发送到攻击者服务器,或生成一个仿冒的登录页面来骗取用户账号密码。测试显示,国内外多款主流大模型均存在此类风险。
最后,针对IPI攻击,演示提出了一个由输入过滤、指令结构强化和模型自身调优构成的纵深防御体系。具体措施包括:在模型处理输入前进行恶意指令检测;在架构上明确区分系统指令、用户指令和外部内容;以及通过安全增强微调,提升模型自身区分指令与数据的能力。