欢迎光临,我们是一家专注中小型企业营销推广服务的公司!

咨询热线:400 9868 577
淮南兰乔电子商务有限公司
新闻中心News
淮南兰乔电子商务有限公司

MiniMax 开源视觉分词器扩展技术 VTP

作者:花韻仙語 | 点击: | 来源:花韻仙語
2312
2025
MiniMax联合华中科技大学首次对外开源其视觉生成核心技术——VTP(VisualTokenizerPretraining,视觉分词器预训练)。该技术在不改动标准DiT架构的前提下,仅通过对视觉分词器(VisualTokenizers)进行扩展与优化,便实现了高达65.8%的端到端生成性能提升。区别于多数分词器相关研究,VTP的设计理念强调“零侵入”:它完全不干预下游主干模型(如DiT)的训练流程,所有改进均集中在前置的tokenizer模块上,从而以极低耦合代价达成生成质量的显著跃...

minimax 联合华中科技大学首次对外开源其视觉生成核心技术——vtp(visual tokenizer pretraining,视觉分词器预训练)。该技术在不改动标准dit架构的前提下,仅通过对视觉分词器(visual tokenizers)进行扩展与优化,便实现了高达 65.8% 的端到端生成性能提升。

区别于多数分词器相关研究,VT

P 的设计理念强调“零侵入”:它完全不干预下游主干模型(如 DiT)的训练流程,所有改进均集中在前置的 tokenizer 模块上,从而以极低耦合代价达成生成质量的显著跃升。

VTP 预训练范式如下:

简言之——VTP 首次在理论上与实践中建立起 latent 表示的易学性(learnability)与通用表征能力之间的强关联,进而将 tokenizer 推至模型缩放(scaling)舞台的中心。它不仅展现出清晰、稳健的 scaling 规律,更指明了一条独立于主模型参数增长之外的全新性能提升路径:即通过 tokenizer 自身的规模化设计与训练,驱动整个生成系统的持续进化。

代码仓库:https://www./link/af5ac7432f2b60611a2b2081da85bdc0
论文地址:https://www./link/2c144615541213bbe63e9d81c4727883

源码下载:点击获取

相关推荐
我要咨询做网站
成功案例
建站流程
  • 网站需
    求分析
  • 网站策
    划方案
  • 页面风
    格设计
  • 程序设
    计研发
  • 资料录
    入优化
  • 确认交
    付使用
  • 后续跟
    踪服务
  • 400 9868 577
    info#ilanqiao.cn
Hi,Are you ready?
准备好开始了吗?
那就与我们取得联系吧

咨询送礼现在提交,将获得兰乔电子商务策划专家免费为您制作
价值5880元《全网营销方案+优化视频教程》一份!
下单送礼感恩七周年,新老用户下单即送创业型空间+域名等大礼
24小时免费咨询热线400 9868 577
合作意向表
您需要的服务
您最关注的地方
预算

直接咨询