贝壳财经

从贝壳里,听到时代浪潮的声音

立即打开
豆包提出全新稀疏架构 降低推理成本
贝壳财经 编辑 韦博雅
2025-02-12 14:42

新京报贝壳财经讯 2月12日,据“豆包大模型团队”微信公众号,近期,字节跳动豆包大模型团队提出了全新的稀疏模型架构 UltraMem,该架构有效解决了 MoE 推理时高额的访存问题,推理速度较 MoE 架构提升 2-6 倍,推理成本最高可降低 83%。该研究还揭示了新架构的 Scaling Law,证明其不仅具备优异的 Scaling 特性,更在性能上超越了 MoE。实验结果表明,训练规模达 2000 万 value 的 UltraMem 模型,在同等计算资源下,可同时实现业界领先的推理速度和模型性能,为构建数十亿规模 value 或 expert 开辟了新路径。


编辑 韦博雅

展开全文
全文
0字
您已阅读
%
打开贝壳财经APP 阅读更多精彩资讯
相关推荐
解析梁文锋署名DeepSeek新论文:让记忆和计算分开
科技
雷诺集团2030年将推36款新车,中期利润率目标5%-7%
汽车
从写代码到做工程,北京AI用硬核技术改写全球AI竞赛规则
科技
38万辆SU7之后找到“平衡”:雷军的“马拉松造车”哲学
科技
电力Token化出海,中国的电即将算全球的题
财经
对话未来|科大讯飞刘庆峰:以全栈自主可控筑牢AI根基
财经
报告解读|智能经济爆发前夜:算力新基建+智能终端构筑全新入口
财经
智驱新程・芯动未来:L3级自动驾驶将怎样重塑汽车生态?
汽车
解码未来产业|从模型热到应用热,北京AI产业叙事升级
科技
看2026|摩尔线程周苑:让国产算力从“可用”走向“好用”
财经