北大与DeepSeek联合开源DSpark框架 提升大模型推理效率【今日】《56之窗网》
标王 热搜: 贷款  深圳    医院  用户体验  网站建设  机器人  贵金属  桂林市  五角大楼 
 
 
当前位置: 首页 » 资讯 » 行业资讯 » 社会新闻 » 正文

北大与DeepSeek联合开源DSpark框架 提升大模型推理效率【今日】

放大字体  缩小字体 发布日期:2026-06-27 22:53:24  来源:互联网  作者:56之窗网  浏览次数:2

今日,DeepSeek 联合北京大学发布了DSpark推理加速框架,旨在解决大语言模型在高并发生产环境中的推理效率问题。该框架已应用于DeepSeek-V4-Flash和DeepSeek-V4-Pro的预览版服务引擎中,在同等吞吐量水平下,单用户生成速度提升了60%至85%。相关论文、训练代码等已在GitHub上开源。

北大与DeepSeek联合开源DSpark框架

大语言模型生成文本时采用自回归方式,每生成一个新token都需要一次完整的前向传播,这导致推理延迟随输出长度线性增长。推测解码技术通过一个小模型快速生成候选token,再由大模型批量验证,从而提升生成速度。然而,推测解码的实际加速效果受制于候选生成质量和验证阶段对目标模型计算资源的占用。

北大与DeepSeek联合开源DSpark框架 提升大模型推理效率

目前主流方案分为两派:自回归式草稿模型逐token串行生成候选序列,依赖关系建模能力强但生成延迟随候选长度线性增长;并行式草稿模型则在一个前向传播内一次性产出全部候选token,生成延迟几乎与候选长度无关。但并行生成每个位置时无法依赖先前已采样的token,导致接受率迅速衰减,浪费目标模型计算资源。

北大与DeepSeek联合开源DSpark框架 提升大模型推理效率

为解决上述瓶颈,DSpark提出了两项互补机制。在候选生成阶段,DSpark采用半自回归架构,主干网络一次性产出所有候选位置的隐藏状态和基础logits,随后轻量级顺序模块逐token注入前缀依赖信息。实验表明,少量自回归依赖的引入在参数效率上优于单纯堆叠并行层。

 

  以上就是【北大与DeepSeek联合开源DSpark框架 提升大模型推理效率【今日】】全部内容,更多资讯请关注56之窗网。
 

本文地址:http://hot1.ffsy56.com/newsdetail2124043.html


版权与免责声明:以上所展示的信息由网友自行发布,内容的真实性、准确性和合法性由发布者负责。56之窗网对此不承担任何直接责任及连带责任,56之窗网仅提供信息存储空间服务。任何单位或个人如对以上内容有权利主张(包括但不限于侵犯著作权、商业信誉等),请与我们联系并出示相关证据,我们将按国家相关法规即时移除。
 
推荐图文
最新新闻
点击排行

新闻投稿、广告联系客服QQ: