欢迎光临,我们是一家专注中小型企业营销推广服务的公司!

咨询热线:400 9868 577
淮南兰乔电子商务有限公司
新闻中心News
淮南兰乔电子商务有限公司

Z Lab 发布开源推测解码框架 DFlash

作者:霞舞 | 点击: | 来源:霞舞
0901
2026
ZLab推出了开源推测解码框架DFlash,该框架采用轻量级BlockDiffusion模型来生成草稿序列,旨在突破自回归大语言模型在推测解码过程中因草稿生成串行化所引发的性能瓶颈。DFlash创新性地将目标模型的隐层特征融入草稿生成过程,作为上下文条件进行建模,从而实现高质量、高效率的并行草稿预测。https://github.com/z-lab/dflash据官方测试结果,DFlash在Qwen3-8B模型上达成高达6.17倍的无损推理加速,解码吞吐量相较当前最优的推测解码方案...

z lab 推出了开源推测解码框架 dflash,该框架采用轻量级 block diffusion

模型来生成草稿序列,旨在突破自回归大语言模型在推测解码过程中因草稿生成串行化所引发的性能瓶颈。

DFlash 创新性地将目标模型的隐层特征融入草稿生成过程,作为上下文条件进行建模,从而实现高质量、高效率的并行草稿预测。

https://www./link/b14306cd6ce646b9b7bee6ea942711a1

据官方测试结果,DFlash 在 Qwen3-8B 模型上达成高达 6.17 倍的无损推理加速,解码吞吐量相较当前最优的推测解码方案 EAGLE-3 提升近 2.5 倍。项目现已开源,并同步发布适配 Qwen3-4B 与 Qwen3-8B 的预训练草稿模型,相关技术论文正在整理中,即将正式公开。

研发团队透露,DFlash 正在紧锣密鼓地接入 vLLM 推理引擎,并已规划对大规模 MoE 架构模型的支持路线图。

源码地址:点击下载

相关推荐
我要咨询做网站
成功案例
建站流程
  • 网站需
    求分析
  • 网站策
    划方案
  • 页面风
    格设计
  • 程序设
    计研发
  • 资料录
    入优化
  • 确认交
    付使用
  • 后续跟
    踪服务
  • 400 9868 577
    info#ilanqiao.cn
Hi,Are you ready?
准备好开始了吗?
那就与我们取得联系吧

咨询送礼现在提交,将获得兰乔电子商务策划专家免费为您制作
价值5880元《全网营销方案+优化视频教程》一份!
下单送礼感恩七周年,新老用户下单即送创业型空间+域名等大礼
24小时免费咨询热线400 9868 577
合作意向表
您需要的服务
您最关注的地方
预算

直接咨询