APPS · 2026年3月

TongCLI: 终端中的 CLI 工具

TongCLI 是一款运行在终端中的 CLI 工具,以编程的方式自主完成用户以自然语言描述的任务

简介

TongCLI 是一款运行在终端中的 CLI 工具,以编程的方式自主完成用户以自然语言描述的任务。
TongCLI 的底层是 Judy:一个以多智能体架构为基础,专注于提升 CLI 系统的编程能力的引擎。Judy 旨在成为可以被复用到任何 Agentic 系统的核心引擎(harness)。
我们认为,随着 Agent 技术的发展,编程能力多智能体将成为所有 Agentic 系统的必不可缺的特性。
核心能力

编程能力

突破预置工具限制,自由地与环境交互

突破预置工具限制
1 通过编程能力突破预置工具限制,自由地与环境交互
一方面,目前仍有大量的软件/服务,未被封装成 Agent 可以调用的工具。 另一方面,为 Agent 预置大量的工具,将使得 LLM 的上下文被大量的工具定义填充,浪费 Token 且会影响 LLM 的性能。 而通过为 Agent 配备编程能力,只需要最少两个 Tool(代码编辑+代码执行),Agent 就能自由地使用所有的软件和服务,打破与现实世界交互的手和脚上的束缚,使得工具方面的限制不再成为 Agent 的能力瓶颈。

以最高效的方式运行,减少交互轮数

减少交互轮数
2 通过编程能力减少交互轮数,提高执行效率
当任务的多个中间步骤需要串行、并行、循环、条件分支等确定性的逻辑规则进行组合时。 由于 Tool Call 缺乏对应的逻辑控制与组合结构,导致只能依靠 LLM 自身充当逻辑控制的角色,徒增交互轮数。 而借助于编程语言自身的逻辑控制结构,Agent得以通过代码组合多个步骤,避免步骤间不必要的 LLM 介入,减少交互轮数,降低时间和计算成本。

提高自省能力,降低幻觉风险

降低幻觉风险
3 通过编程能力提高自省能力,降低幻觉风险
通过编写和运行代码,Agent 能够将需要海量 Token 表示的原始内容(文本、多模态、环境状态等),压缩为少量 Token 就能表示的结构化精简内容。 确定性、可复现的代码脚本/自动化验证脚本,加上结构化的处理结果/验证结果,能够提高基于概率模型的 Agent 的自省能力,降低盲目自信和幻觉的风险。

零摩擦套件,释放模型潜力

零摩擦套件
4 优化的Harness设计释放模型潜力
不同的 LLM 由于训练数据和训练方式的差异,在调用工具时的偏好不同,与 LLM 偏好不匹配的工具会降低调用的成功率。 另一方面,提供精准的环境信息和工具集,辅助 Agent 与环境进行丝滑地交互,对于释放模型潜力,提高 Agent 上限至关重要。 TongCLI 积累了大量工程经验,不断优化 Harness Design/Enginerring,在 Terminal-Bench 2.0 上达到了单轮最高 88.8% 的成绩。
多智能体

避免上下文过载,提高 Agent 准确度

避免上下文过载
5 通过多智能体架构避免上下文过载
大量研究表明,随着上下文长度的增长,LLM 的性能会不断下降。当上下文包含大量与当前任务无关的信息时,LLM 给出的回复会受到严重的干扰。 虽然大部分 LLM 现在支持长达 1M 的上下文,但价格高昂,时间和计算成本高,而且仅适用于大海捞针等简单任务,在复杂任务上表现并不好。 TongCLI 以 Agent 的数量换取单个 Agent 的上下文空间,严格限制单个 Agent 的步数和上下文长度,保证了单 Agent 的精度。

子任务并行,降低任务耗时

子任务并行
6 通过DAG实现子任务并行执行
TongCLI 在规划阶段,会将复杂任务拆分成由子任务构成的有向无环图,分析出可以并行的子任务,并交由不同的 Agent 执行,实现子任务的并行。

集思广益,探索多种可能

多 LLM 协作
7 通过多 LLM 协作探索多种可能性
不同的 LLM 所擅长的领域各不相同。通过引入配备了不同 LLM 的 Agent,TongCLI 支持:
  • 头脑风暴:由配备了不同 LLM 的 Agent 集思广益,拓宽任务执行路径
  • 候补重试:当某个子任务执行失败后,切换为配备了另一个 LLM 的 Agent 来重试
  • 独立验证:由配备不同 LLM 的 Agent 对结果进行黑盒检验。避免同一个 LLM 验证是出现的白盒验证,自我循环论证的问题,提高验证流程发现问题的概率。