Prime Intellect开源可自我进化智能体环境：让AI「左右互搏」生成逾8000个测试工具

星期一

05 / 19

星期一 2026-05-19 19:21

据动察 Beating 监测，Prime Intellect 宣布开源智能体训练环境 general-agent，这是一个可自我进化的完全合成环境。此次发布的核心是将任务生成设定为一场双玩家博弈：由合成器和求解器交替对抗，目前已自动构建出包含 4504 个任务、逾 8000 个独特工具的大型状态数据库。

该框架从简单的种子任务起步，通过条件约束、噪音指令、跨实体耦合等 9 种策略，将任务切分为 t0 到 t4 五个难度阶梯。合成器负责设计带有数据库、交互工具和验证函数的任务，求解器则负责尝试通关。只有通过率落在特定难度区间的任务才会被保留，最难层级会作为下一波进化的种子。

官方实测显示，仅用该环境合成的 4400 余条轨迹对 30B 参数模型进行微调，就在 BFCL 基准测试中将工具调用准确率从 18.9% 提升至 52.3%。

这种机制让模型脱离了对人工标注静态数据集的依赖。通过模型间的直接博弈，系统能够源源不断地自动生成难度可控、带有语义验证的训练语料。