火山引擎发布深度思考模型，豆包发力“看图思考”

0次浏览发布时间：2025-04-17 21:19:00

4月17日，面向企业市场，字节跳动旗下火山引擎发布豆包1.5・深度思考模型，同步升级文生图模型 3.0、视觉理解模型，推出 OS Agent 解决方案及AI云原生推理套件，帮助企业客户构建与部署Agent（智能体）应用。

技术逻辑上，Agent是此次豆包发布系列产品的重点，而深度思考模型是其技术底座。采访中，火山引擎总裁谭待对第一财经记者表示，聊天和信息处理只是AI中的一小部分，要真正为各行各业带来变革，Agent是必经之路。

而深度思考模型正是构建Agent的基础，谭待称，模型要有能力做好思考、计划和反思，且一定要支持多模态，就像人类具备视觉和听觉一样，Agent才能更好地处理复杂任务。

技术报告显示，豆包深度思考模型采用MoE架构，总参数为200B，激活参数仅20B。该模型还上线了一款深度思考视觉版，具备视觉推理能力，能够像人类一样对看到的事物进行联想和思考。在实际案例中，该模型可以看懂复杂的企业项目管理流程图表，快速定位关键信息；也可以结合地貌特征分析航拍图，判断区域开发可行性。竞品对比环节，根据数学推理AIME 2024 测试，豆包1.5・深度思考模型得分追平OpenAI o3-mini-high，编程竞赛和科学推理测试成绩接近o1。

多模态深度思考模型的基础之上，谭待认为Agent需要良好的架构和工具去操作数字世界和物理世界。此次火山推出的OS Agent解决方案便现场演示了由Agent操作浏览器搜索商品页、实现iPhone比价的任务。

模型与工具加速Agent落地的同时，Agent也会带来更大量的模型推理消耗。据火山引擎披露，截至2025年3月底，豆包大模型日均 tokens 调用量已达到12.7万亿，较去年5月发布时增长上百倍。为应对大规模推理需求，火山引擎打造AI云原生ServingKit 推理套件，GPU 消耗相比传统方案降低80%。

趋势之下，行业也开始出现Agent泛滥的现象，有厂商自称部署近5000个Agent。谭待认为Agent定义需要更新——简单完成打油诗等任务的已不能称为 Agent。从定性角度来看，Agent 应能完成专业度较高、耗时较长的完整任务；从技术实现角度来看，如果没有运用思考模型、缺乏反思和规划能力，也很难被认定为 Agent。

随着技术落地，今年行业对Agent的定义将会更加清晰，谭待认为或许会像自动驾驶分级一样，对Agent也进行自L1至L4的分级。但整体来看，深度思考模型是构建Agent的基础，模型要有能力做好思考、计划和反思，并且一定要支持多模态，就像人类具备视觉和听觉一样。