贝壳财经

从贝壳里,听到时代浪潮的声音

立即打开
豆包提出全新稀疏架构 降低推理成本
贝壳财经 编辑 韦博雅
2025-02-12 14:42

新京报贝壳财经讯 2月12日,据“豆包大模型团队”微信公众号,近期,字节跳动豆包大模型团队提出了全新的稀疏模型架构 UltraMem,该架构有效解决了 MoE 推理时高额的访存问题,推理速度较 MoE 架构提升 2-6 倍,推理成本最高可降低 83%。该研究还揭示了新架构的 Scaling Law,证明其不仅具备优异的 Scaling 特性,更在性能上超越了 MoE。实验结果表明,训练规模达 2000 万 value 的 UltraMem 模型,在同等计算资源下,可同时实现业界领先的推理速度和模型性能,为构建数十亿规模 value 或 expert 开辟了新路径。


编辑 韦博雅

展开全文
全文
0字
您已阅读
%
打开贝壳财经APP 阅读更多精彩资讯
相关推荐
马斯克向左 梁文锋向右
科技
厂商集体“AI造游戏”:噱头还是“钱景”
科技
两会民企谈|京东曹鹏:建议统一调度多元算力资源打破壁垒
科技
汽车绿色低碳发展的“双擎混动”之路
汽车
运营商竞逐“双碳”算力网络,“东数西算”如何平衡数据中心产能
科技
25周年新起点 世界500强之一的广汽集团将走向何方
汽车
积重难返 神龙如何复“元”?
汽车
新一年5G加速普及 用户量已达千万级
科技
专访周源:做知识服务应反对贩卖焦虑 不追求短期利益
科技
科技巨头入局造车:与传统车企组CP 专一是趋势快速落地成关键
汽车