近日,北京通用人工智能研究院(BIGAI)自研的 TongAgents 系统在多项国际智能体榜单中取得突破性战绩,充分验证了系统在复杂真实任务场景下的强大泛化能力与工程可靠性。
榜单成绩
四大国际榜单,全面领先
01
Terminal-Bench 2.0 — 终端环境工程执行
面向终端环境下的工程执行和代码任务,TongAgents 取得全球第 2,在同类模型系统中排名全球第 1。
02
AssistantBench — 长周期网页交互
面向客户服务指令的长周期网页交互任务,TongAgents 取得全球第 1。
03
TauBench2 — 多轮对话与工具调用
规则约束下的多轮对话与工具调用任务,在零售、航空、电信三大领域综合全球第 1。
04
Mind2Web2 — 深度研究与信息检索
开放网络中的深度研究与信息检索任务,TongAgents 取得全球前 3。




系统设计
基于分层认知架构的多智能体协作
TongAgents 将任务规划、执行和校验解耦,三者协作形成闭环,确保系统始终朝着最终目标前进。
规划中枢 Planner
负责拆解任务,制定、修正规划。不同于静态规划,TongAgents 规划中枢具备实时反馈调节能力——根据 Executor 的汇报内容,动态调整计划列表与后续策略。这种动态调整规划,同时又隐藏了 Executor 执行细节的设计,使 Planner 能够在复杂长程任务中保持方向感,避免在数十步操作后"迷失"于上下文。
执行引擎 Executor
专注于完成 Planner 拆解的子任务。每个子任务由不同的 Executor 执行,其生命周期由"执行-汇报-问答"三个阶段构成。配备命令执行、多模态 LLM 调用、REPL 类交互终端等环境感知与交互工具,支持工具并行调用、长耗时工具结果的流式分段和异步通知,显著减少交互轮次。同时支持向团队中其它 Agent 提问,形成跨 Agent 的经验复用机制。
验收测试 Verifier
引入独立黑盒验证。不依赖执行历史,从多角度发现潜在问题,确保交付结果的准确率与鲁棒性。
工程突破
上下文结构化管控与数据驱动的精准调优
01
上下文结构化管控
负责不同子任务的 Executor 上下文相互隔离,且由于子任务复杂度较低,再加上硬性的步数或 token 数量限制,Executor 的上下文大小被精准控制在预定范围之内。Planner + Executor 的任务分层设计使得整个任务的上下文可以实现"弹性扩缩容"。Planner、Executor、Verifier 的上下文中的内容并不完全共享,仅保留关键部分,Agent 根据需要自行通过问答机制进行补全,避免海量上下文造成的"幻觉"、性能下降等问题。
02
全链路轨迹追踪
完整记录 Agent 每一步的关键数据:花费的 token 数量、耗时、工具参数与返回结果,保存完整的 trajectory。这一设计不仅满足科研可复现性要求,还可以通过数据指标驱动 Agent 的迭代优化,更为复盘与故障分析提供数据支撑。
03
完善的感知与环境交互能力
除了常见的文件读写、命令执行能力,系统还为 Agent 配备了多模态理解、深度检索等能力。TongAgents 集成了深度搜索与结构化提取技术,优化了网页中动态加载的内容解析,使智能体像人类一样"看网页",精准捕获弹窗、动态图表及视觉关键信息。同时具备点击按钮、滚动页面、填写表单以及在地图上进行空间推理和导航的真实人类操作能力。
04
容错与自愈机制
在真实终端环境中,出错和卡顿是常态。TongAgents 构建了多层容错体系,设计了命令超时后自动挂起到后台、输出流式分段返回、命令完成异步通知等机制,辅助 Agent 及时发现和纠正因自身或外部因素而形成的错误局面。
技术意义
从通用榜单到真实行业任务
🖥️
🌐
🏢
此次横扫各大榜单,仅是 TongAgents 落地应用的开始。通研院将持续深化智能体技术,推动其在软件工程、工业运维、科学研究等垂直领域和行业的规模化应用。
关于我们
TongAgents
TongAgents 是北京通用人工智能研究院自研的智能体框架,支持任务规划、工具调用、学习推理和多智能体协同调度能力,提供一整套智能体全生命周期的标准化工具链,覆盖智能体的设计、训练、调试到最后的实际部署全流程。
平台支持多种形态智能体的构建与发布,大幅降低使用门槛,满足不同研发能力和背景的开发者及企业的智能体构建需求。TongAgents 深度融合通院价值对齐、神经-符号-逻辑融合的算法架构,构建可信、可解释、可演进智能体。
面向政府与企业客户,TongAgents 平台已深度赋能法律、金融、教育、能源、交通等关键领域,在实际业务场景中显著实现降本增效,助力智能体技术从"可用"走向"可靠"。