更新时间:2026-01-16 20:10 来源:牛马见闻
Agentic Tool Use5-Thinking5-Thinking
<p class="f_center"><br></p> <p id="48CP6KVS">图片?由AI生?成</p> <p id="48CP6KVT">1月16日,美团LongCat官宣, LongCat-Flash-Thinking-2601现已开源。</p> <p id="48CP6KVU">美团表示,作为LongCat-Flash-Thinking模型的升级版,新模型在Agentic Search(智能体搜索)、Agentic Tool Use(智能体工具调用)、TIR(工具交互推理)等核心评测基准上,均达到开源模型SOTA水平。</p> <p id="48CP6KVV">据美团介绍,该模型在工具调用的泛化能力上优势尤其明显,在依赖工具调用的随机复杂任务中,性能表现超越了Claude-Opus-4.5-Thinking,可大幅度降低真实场景下新工具的适配训练成本;同时,新模型支持“重思考”模式,可同时启动8个“大脑”执行任务。</p> <p id="48CP6L00">新推出的“重思考”模式,已让“龙猫”学会了“深思熟虑”再行动。</p> <p id="48CP6L01">具体来看,当遇到高难度问题时,新模型会把思考过程拆分成“并行思考”和“总结归纳”两步进行:</p> <p></p> <blockquote id="48CP6L0C">并行思考阶段,与人类面对难题会同时尝试多种解法相似,“重思考”模式下的模型,会在保证思路多样性的同时,独立梳理出多条推理路径寻找最优解;总结归纳阶段,则会对多条路径进行梳理、优化与合成,并将优化结果重新输入,形成闭环迭代推理,推动思考持续深化。</blockquote> <p id="48CP6L02">除此之外,LongCat团队在新模型中加入了额外的强化学习环节,针对性打磨模型的总结归纳能力,从而让LongCat-Flash-Thinking-2601实现“想清楚再行动”的结果。</p> <p id="48CP6L03">经评估,LongCat-Flash-Thinking-2601模型在编程、数学推理、智能体工具调用、智能体搜索等维度表现优异。<br></p> <p id="48CP6L04">LongCat-Flash-Thinking-2601的平均性能比较,图片来源:美团</p> <p id="48CP6L05">为了测试智能体模型泛化能力,团队提出了一种新的评测方法——通过构建一套自动化任务合成流程,支持用户基于给定关键词,为任意场景随机生成复杂任务,并为每个生成的任务配备对应的工具集与可执行环境。</p> <p id="48CP6L06">由于这类环境中的工具配置具有高度随机性,该方法可通过评估模型在该类环境中的性能表现,衡量其泛化能力。</p> <p id="48CP6L07">实验结果表明,LongCat-Flash-Thinking-2601在大多数任务中保持领先性能。</p> <p id="48CP6L08">对于新模型的技术思路,LongCat团队解释称,传统智能体往往在数个简单模拟环境里训练,这带来的问题就像只在靶场训练的士兵,到了真实“战场”可能会掉链子。</p> <p id="48CP6L09">而基于“环境扩展+多环境强化学习”核心技术,团队为模型打造了多样化的“高强度练兵场”,构建了多套高质量训练环境,并在每套环境中集成60余种工具形成密集依赖关系图谱与复杂联动,支撑起高度复杂的任务场景。</p> <p id="48CP6L0A">实验证明,训练环境越丰富,模型在未知场景中的泛化能力越强。得益于这套方案,LongCat-Flash-Thinking-2601在智能体搜索、智能体工具调用等核心基准测试中稳居前列。</p> <p id="48CP6L0B">LongCat团队称,在复杂随机的分布外任务中,LongCat-Flash-Thinking-2601性能优于Claude-Opus-4.5-Thinking。<strong>(作者|李程程,编辑|李玉鹏)</strong></p>
Copyright ® 版权 所有:吉林日报
违法和不良信息举报邮箱:dajilinwang@163.com 违法和不良信息举报: 0431-88600010
ICP备案号:吉ICP备18006035号 网络经营许可证号:吉B-2-4-20100020
地址:长春市高新技术产业开发区火炬路1518号 爆料电话:0431-88601901