欢迎光临,我们是一家专注中小型企业营销推广服务的公司!

咨询热线:400 9868 577
淮南兰乔电子商务有限公司
新闻中心News
淮南兰乔电子商务有限公司

格灵深瞳发布大规模中文视觉语言预训练数据集:丹青

作者:聖光之護 | 点击: | 来源:聖光之護
2001
2026
格灵深瞳正式推出超大规模中文视觉-语言预训练数据集“丹青”(DanQing),涵盖1亿条高质量图文匹配样本,数据采集时间覆盖2024至2025年全网公开资源。该数据集引入更为精细的数据清洗与质量评估机制,实验结果显示:依托SigLIP2模型开展的基准测试表明,“丹青”在零样本图像分类、跨模态图文检索以及大型多模态模型综合能力评估等多项关键任务中均展现出卓越性能。据项目团队介绍,其构建了一套融合BERTopic算法的主题建模pipeline。具体而言,研究人员从全量数据中随机采样1000万组图像-...

格灵深瞳正式推出超大规模中文视觉-语言预训练数据集“丹青”(danqing),涵盖1亿条高质量图文匹配样本,数据采集时间覆盖2025至2025年全网公开资源。该数据集引入更为精细的数据清洗与质量评估机制,实验结果显示:依托siglip2模型开展的基准测试表明,“丹青”在零样本图像分类、跨模

态图文检索以及大型多模态模型综合能力评估等多项关键任务中均展现出卓越性能。

据项目团队介绍,其构建了一套融合BERTopic算法的主题建模 pipeline。具体而言,研究人员从全量数据中随机采样1000万组图像-文本对,并采用Chinese-CLIP-L/14模型提取文本侧语义嵌入向量;针对高维空间聚类易受噪声干扰的问题,团队先利用UMAP进行非线性降维,再通过HDBSCAN算法识别语义密集簇,设定最小簇规模为1000以增强聚类鲁棒性并抑制离群噪声;最终,基于各主题内部词频分布,采用类别加权TF-IDF策略提取最具代表性的关键词集合。

“丹青”数据集官方网站:https://www./link/d63a68a590c7ccfcd1c00f5e229b5a6e

相关推荐
我要咨询做网站
成功案例
建站流程
  • 网站需
    求分析
  • 网站策
    划方案
  • 页面风
    格设计
  • 程序设
    计研发
  • 资料录
    入优化
  • 确认交
    付使用
  • 后续跟
    踪服务
  • 400 9868 577
    info#ilanqiao.cn
Hi,Are you ready?
准备好开始了吗?
那就与我们取得联系吧

咨询送礼现在提交,将获得兰乔电子商务策划专家免费为您制作
价值5880元《全网营销方案+优化视频教程》一份!
下单送礼感恩七周年,新老用户下单即送创业型空间+域名等大礼
24小时免费咨询热线400 9868 577
合作意向表
您需要的服务
您最关注的地方
预算

直接咨询