火山引擎发布深度思考模型,豆包发力“看图思考”

0次浏览     发布时间:2025-04-17 21:19:00    

4月17日,面向企业市场,字节跳动旗下火山引擎发布豆包1.5・深度思考模型,同步升级文生图模型 3.0、视觉理解模型,推出 OS Agent 解决方案及AI云原生推理套件,帮助企业客户构建与部署Agent(智能体)应用。

技术逻辑上,Agent是此次豆包发布系列产品的重点,而深度思考模型是其技术底座。采访中,火山引擎总裁谭待对第一财经记者表示,聊天和信息处理只是AI中的一小部分,要真正为各行各业带来变革,Agent是必经之路。

而深度思考模型正是构建Agent的基础,谭待称,模型要有能力做好思考、计划和反思,且一定要支持多模态,就像人类具备视觉和听觉一样,Agent才能更好地处理复杂任务。

技术报告显示,豆包深度思考模型采用MoE架构,总参数为200B,激活参数仅20B。该模型还上线了一款深度思考视觉版,具备视觉推理能力,能够像人类一样对看到的事物进行联想和思考。在实际案例中,该模型可以看懂复杂的企业项目管理流程图表,快速定位关键信息;也可以结合地貌特征分析航拍图,判断区域开发可行性。竞品对比环节,根据数学推理AIME 2024 测试,豆包1.5・深度思考模型得分追平OpenAI o3-mini-high,编程竞赛和科学推理测试成绩接近o1。

多模态深度思考模型的基础之上,谭待认为Agent需要良好的架构和工具去操作数字世界和物理世界。此次火山推出的OS Agent解决方案便现场演示了由Agent操作浏览器搜索商品页、实现iPhone比价的任务。

模型与工具加速Agent落地的同时,Agent也会带来更大量的模型推理消耗。据火山引擎披露,截至2025年3月底,豆包大模型日均 tokens 调用量已达到12.7万亿,较去年5月发布时增长上百倍。为应对大规模推理需求,火山引擎打造AI云原生ServingKit 推理套件,GPU 消耗相比传统方案降低80%。

趋势之下,行业也开始出现Agent泛滥的现象,有厂商自称部署近5000个Agent。谭待认为Agent定义需要更新——简单完成打油诗等任务的已不能称为 Agent。从定性角度来看,Agent 应能完成专业度较高、耗时较长的完整任务;从技术实现角度来看,如果没有运用思考模型、缺乏反思和规划能力,也很难被认定为 Agent。

随着技术落地,今年行业对Agent的定义将会更加清晰,谭待认为或许会像自动驾驶分级一样,对Agent也进行自L1至L4的分级。但整体来看,深度思考模型是构建Agent的基础,模型要有能力做好思考、计划和反思,并且一定要支持多模态,就像人类具备视觉和听觉一样。

相关文章:

厦大附一:打造“智慧医疗”实践样本04-19

火山引擎发布深度思考模型,豆包发力“看图思考”04-17

济源:沁园中心幼儿园开展“送课下乡”活动04-16

全球L4城配领军企业「九识智能」完成近3亿美元B轮融资,光源资本继续担任独家财务顾问04-15

智谱启动IPO上市辅导,上月接连拿下18亿三地国资04-15

瞭望 | AI重构微短剧产业04-15

梅州梅县消防组织高层小区开展夜间消防培训演练04-14

快手难抓AI的救命稻草04-14