贝壳财经

从贝壳里,听到时代浪潮的声音

立即打开
豆包提出全新稀疏架构 降低推理成本
贝壳财经 编辑 韦博雅
2025-02-12 14:42

新京报贝壳财经讯 2月12日,据“豆包大模型团队”微信公众号,近期,字节跳动豆包大模型团队提出了全新的稀疏模型架构 UltraMem,该架构有效解决了 MoE 推理时高额的访存问题,推理速度较 MoE 架构提升 2-6 倍,推理成本最高可降低 83%。该研究还揭示了新架构的 Scaling Law,证明其不仅具备优异的 Scaling 特性,更在性能上超越了 MoE。实验结果表明,训练规模达 2000 万 value 的 UltraMem 模型,在同等计算资源下,可同时实现业界领先的推理速度和模型性能,为构建数十亿规模 value 或 expert 开辟了新路径。


编辑 韦博雅

展开全文
全文
0字
您已阅读
%
打开贝壳财经APP 阅读更多精彩资讯
相关推荐
马斯克向左 梁文锋向右
科技
厂商集体“AI造游戏”:噱头还是“钱景”
科技
两会民企谈|京东曹鹏:建议统一调度多元算力资源打破壁垒
科技
汽车绿色低碳发展的“双擎混动”之路
汽车
运营商竞逐“双碳”算力网络,“东数西算”如何平衡数据中心产能
科技
25周年新起点 世界500强之一的广汽集团将走向何方
汽车
积重难返 神龙如何复“元”?
汽车
新一年5G加速普及 用户量已达千万级
科技
中银协联合五大行共建的“贸易金融跨行交易区块链平台”投产
财经
北京车展观察④|自主品牌加码高端新能源 淘汰赛与利润空间并存
汽车