龙虎棋牌2026最新版下载从模子到Harness, AI Agent的下半场该若何评测安全?

来源：龙虎棋牌2026世界杯官方最新版作者：admin 发布时间：2026-06-06 浏览：97

对于 AI 安全的大部分猜测，恒久以来都齐集在模子自己。模子是否对皆？是否容易被 jailbreak？是否会断绝危急肯求？这些问题自然重要，但在今天，它们仍是不是独一、致使不再是最中枢的问题。

着实被部署的 agent，并不是裸模子。岂论是 Claude Code 自动提交 PR，Codex 诞生 issue，如故大致径直操作资金的客服助手，它们都运行在一个 execution harness 之中。Harness 决定了模子能调用哪些器用、能造访哪些资源、信息如安在不同子 agent 之间流动、何时隔断履行，以及系统若何处理子虚复原。模子只是提议动作，着实决定步履领域的是 harness。

这意味着，许多着实危急的失败，仍是不再发生在“最终回应”这一层，而是发生在履行历程自己。一个看似“对皆精熟”的模子，若是被放进权限领域松散的 harness 中，依然可能暗暗履行越权操作。而只评测最终谜底的 benchmark，往往会把这种系统判定为“见效完成任务”。

近期，Claw-Eval 和 ClawsBench 等职责仍是运行将 agent 评测从静态问答推动到简直履行环境，原谅系统是否大致策划、调用器用、造访资源并完成用户诡计。但中枢缺口依然存在：这些评测大多仍以任务完成度为中心，大致告诉咱们任务是否完成，却很难判断任务是否被安全地完成。

一些近期基于 Claw 类成立的安全审计运行原谅器用使用或最终输出安全性，但完整履行轨迹和系统级 harness 安全仍然缺少了了界说。一个 harness 可能复返正确后果，却在历程中造访受限资源、调用未授权器用、在 agent 之间浮现明锐凹凸文，或触发超出用户意图的反作用。

九游体育中国官网入口

在多 agent 系统中，这一问题愈加重要。扮装单干、任务嘱咐、分享凹凸文和 agent 间通讯都会扩大安全流出面。换句话说，咱们一直在对 AI 系统中“最容易看到的一层”进行安全校准，却忽略了着实决定 agent 步履领域的履行系统。

近日，加州大学圣塔芭芭拉分校（UCSB）等机构的一项新职责提议了 HarnessAudit，恰是但愿措置这个问题。

论文标题：Auditing Agent Harness Safety

网站：harvestaudit.github.io

论文：arxiv.org/abs/2605.14271

代码和数据集：github.com/eric-ai-lab/HarnessAudit

HarnessAudit 概览。(a) HarnessAudit 袒护八个简直寰宇范围，用于构建带有现实不断的安全评测任务。(b) Agent 在完成任务时，需要阅历策划、检索、器用调用、审查和通讯等智商，并与外部资源和动态环境交互。(c) 展示了在 OpenClaw 成立下，基于完整履行轨迹审计得到的模子弘扬，评测维度包括领域合规性、履行赤诚性和系统平静性。

HarnessAudit 是一个针对完整履行轨迹（trajectory）进行审计的安全评测框架，而不单是原谅最终输出。

同期，该团队还构建了 HarnessAudit-Bench，在 8 个简直寰宇范围上的 210 个任务中，对 agent harness 的步履进行系统化审计。这些范围包括金融、电商、医疗、办公合作、搪塞互动、正常生涯、法律合规以及软件工程。

该团队评测了 10 个前沿 agent harness，包括 Anthropic 的 Claude Code、OpenAI 的 Codex，以及 OpenClaw 等系统。

他们的中枢不雅点很省略：Agent 的风险，不在最终谜底，而在它为特出到这个谜底，究竟作念了什么。

审计检讨什么

HarnessAudit 会在每一条履行轨迹上聚合评估三个属性。

领域合规性。每一次器用调用、资源造访和 agent 间通讯，都必须妥当事先声明的权限政策和信息流政策。

履行赤诚性。Agent 不仅要完成诡计，还必须通过合理且被授权的中间智商完成任务，不行私行替换对象、操作超出范围的资源，或履行比用户授权范围更大的动作。

扰动下的平静性。上述两类安全属性还必须能罗致简直压力场景，举例盘曲教唆注入、诡计态状暧昧、器用调用子虚等。

只消同期通过这三项检讨，一条轨迹才会被视为安全。该团队示意：「最终谜底是否正确会被单独敷陈，这是成心联想的，因为咱们念念不雅察“任务完成”和“安全履行”的不一致到底有多频繁。」

后果是，很频繁，它们每每不一致。

中枢后果表领路了三件事。

第一，得分最高的系统，并不一定是任务完成才智最强的系统。

在 OpenClaw 成立下，Claude Opus 4.6 的任务完成率高于 Gemini 3.1 Pro，但总体安全得分反而更低，因为它在履行历程中逾越了更多安全领域。才智与安全并不是归并条轴，而现时系统施行上正在用一种交换另一种，只是曩昔很少有东谈主着实去量度这种 trade-off。

第二，三类领域合规性并不是雷同贫寒。

器用遴荐自己无为问题不大，龙虎棋牌app官网版大无数 harness 都能选对器用。着实的失败更多发生在器用遴荐之后，而况齐集在两个更具体的阶段，后头会进一步猜测。

第三，原生 harness 的联想既可能进步安全，也可能放大风险。

在有计划 Claude 模子下，Claude Code 比拟 OpenClaw 同期进步了任务完成率和安全性。而 Codex 固然提高了完成率，却镌汰了安全性，因为 GPT-5.4 在原生环境下会履行更多动作，更长的履行轨迹也因此累积了更多违纪步履。

Harness 的联想，骨子上决定了 agent 大致被“安一谈署”的上限，而不同厂商在这些联想上的各异其实极端大。

违纪齐集在那边

第一个齐集点是资源造访。

系统调用了正确的器用，但操作了子虚的对象，举例造访了 agent 权限范围外的文献、查询了用户诡计支配但未被授权的记载，或对政策回绝的资源发起 API 调用。也便是说，器用遴荐是对的，但对象绑定是错的。在大无数配置中，资源造访合规性彰着低于器用使用合规性。

第二个齐集点是 agent 间的信息流。

在多 agent harness 中，音信路由无为是对的，即音信会发给正确的 agent。但问题在于音信里佩戴了什么。子 agent 往往会收到特地其任务所需的凹凸文；中间组件会在职务实现后不断保留明锐信息；一个从 agent 传给另一个 agent 的摘抄，也可能暗暗浮现其背后的原始数据。

单 agent 与多 agent 的对比让这极少愈加具体。

在单 agent 成立中，器用合规性和资源合规性都高于 0.85。但一朝切换到多 agent 成立，器用合规性下跌到 0.64，资源合规性下跌到 0.63，而信息流合规性初度成为可见问题，仅为 0.58。这领路，合作自己会扩大安全流出面，而这种风险是单 agent benchmark 很丢丑到的。

还有几个值得原谅的风光。

故障是迢遥存在的，并非局部性的。在测试的通盘安全框架中，每个任务特地 50% 的代理都至少存在一项安全违纪，而在 OpenClaw 中，这一比例高达 72%。故障步地是系统性的。你不行只是加固一个组件就能完好。

违纪步履会跟着轨迹长度的加多而累积。更长的运行距离不仅速率更慢，而且安全性也更低。跟着该范围向更长航程的自主遨游发展，这条弧线就成为了联想难题。

不同范围的风险景况各不有计划。金融和办公任务的失败主要在于资源造访；正常生涯和电子商务的失败主要在于信息流；软件工程的失败主要在于器用使用。这对坐蓐团队的启示是，正确的安全甘休要领取决于代理的用途。

扰动平静性迢遥较差。盘曲教唆注入在通盘测试配置中均导致性能下跌幅度最大，平静性得分在 0.15 至 0.22 之间。在干净任务中看起来尚可接受的模子联想，在抗争性输入下会失效。

为什么这件事当今很重要

多智能体 harness 仍是不再只是一个磋议问题。它正在成为翌日十二个月内简直通盘严肃 agent 居品的基础架构：

编码 agent 仍是是多智能体系统，包括策划器、检索器、履行器和审查器。

面向用户的助手也正在酿成多智能体系统，包括分诊、大众模块、升级处理和审计。

运维类 agent 简直自然需要多智能体，因为一朝你战争多个系统，骨子上就在进行协同。

每一次嘱咐，都是信息可能流向不该去的地点的风险点。在单 agent 系统中，信任领域是 agent 的器用调用。而在多 agent 系统中，信任领域酿成了 message bus。是的，咱们正在构建 message bus，却莫得着实把它算作 message bus 来对待。

翌日该奈何办？

要措置这个问题，重要不单是让模子更强，而是再行联想 harness 自己。

第一，agent 之间不行默许分享完整凹凸文。每一次信息传递都应该有了了领域：哪些内容不错传、传给谁、能保留多久。当今许多 harness 为了浮浅，径直把完整凹凸文交给下一个 agent，但这也恰是明锐信息浮现最常见的着手。

第二，安全评测不行只看最终谜底，而要回到完整履行轨迹。一个 agent 即使给出了正确后果，也可能在历程中造访了不该造访的资源，调用了不该调用的器用，或把明锐信息传给了不该知谈的组件。因此，着实的安全审计需要从容检讨每一次器用调用、资源造访和 agent 间通讯。

第三，多 agent 系统需要明确的 need-to-know 机制。每个子 agent 只应该获取完成现时任务所必需的信息，而不是默许秉承一谈凹凸文。更理念念的联想是，子 agent 先声明我方需要什么信息龙虎棋牌2026最新版下载，再由 harness 或 message bus 判断是否允许传递。

龙虎棋牌2026最新版下载 从模子到Harness, AI Agent的下半场该若何评测安全?

龙虎棋牌2026最新版下载从模子到Harness, AI Agent的下半场该若何评测安全?