据动察 Beating 监测,Prime Intellect 宣布开源智能体训练环境 general-agent,这是一个可自我进化的完全合成环境。此次发布的核心是将任务生成设定为一场双玩家博弈:由合成器和求解器交替对抗,目前已自动构建出包含 4504 个任务、逾 8000 个独特工具的大型状态数据库。
该框架从简单的种子任务起步,通过条件约束、噪音指令、跨实体耦合等 9 种策略,将任务切分为 t0 到 t4 五个难度阶梯。合成器负责设计带有数据库、交互工具和验证函数的任务,求解器则负责尝试通关。只有通过率落在特定难度区间的任务才会被保留,最难层级会作为下一波进化的种子。
官方实测显示,仅用该环境合成的 4400 余条轨迹对 30B 参数模型进行微调,就在 BFCL 基准测试中将工具调用准确率从 18.9% 提升至 52.3%。
这种机制让模型脱离了对人工标注静态数据集的依赖。通过模型间的直接博弈,系统能够源源不断地自动生成难度可控、带有语义验证的训练语料。