Meta的基础人工智能研究(FAIR)团队最近开源了一款名为OmnilingualASR的突破性自动语音识别系统,能够识别并转录超过1600种口语语言。该模型基于PyTorch构建的fairseq2框架开发,提供多个版本,参数规模从适用于低功耗设备的3亿参数模型,到追求极致精度的70亿参数大模型。这一发布旨在填补当前AI技术在语言支持方面的显著空白,推动实现“通用语音转录系统”的愿景。Meta强调,在其所覆盖的1600多种语言中,有约500种语言此前从未被任何AI系统所支持。在对1600种语言的...
meta的基础人工智能研究(fair)团队最近开源了一款名为omnilingual asr的突破性自动语音识别系统,能够识别并转录超过1600种口语语言。该模型基于pytorch构建的fairseq2框架开发,提供多个版本,参数规模从适用于低功耗设备的3亿参数模型,到追求极致精度的70亿参数大模型。
这一发布旨在填补当前AI技术在语言支持方面的显著空白,推动实现“通用语音转录系统”的愿景。Meta强调,在其所覆盖的1600多种语言中,有约500种语言此前从未被任何AI系统所支持。

- 在对1600种语言的测试中,系统在78%的语言上实现了每百个字符错误率低于10的优异表现。
- 针对拥有至少10小时标注音频的“高资源”语言,达到该准确度标准的比例高达95%。
- 即便是在训练数据少于10小时的“低资源”语言中,仍有36%的语言满足这一误差阈值,为小语种用户提供了切实可用的语音识别能力。
Omnilingual ASR的一项核心创新是引入了“自带语言”(Bring Your Own Language)功能,灵感来源于大语言模型中的上下文学习机制。通过仅提供少量音频与对应文本的样本,用户即可让系统即时学会识别一种新语言,无需重新训练模型或依赖大量算力投入。
Meta指出,借助这一机制,理论上Omnilingual ASR未来可扩展至支持超过5400种语言,远超目前行业内的语言覆盖极限。
与此同时,Meta还推出了Omnilingual ASR Corpus——一个涵盖350种代表性不足语言的大规模转录语音语料库。该数据集采用知识共享署名许可(CC-BY)公开发布,旨在赋能全球开发者优化和定制语音识别模型,以更好地服务本地化应用场景。
相关推荐:
免费的信息收集软件,让你的工作事半功倍!,ai用直线工具话直角
ChatGPT怎么打开不了?全方位解决方案!,Wu Ai Ming
SEO出来,打破流量瓶颈,助力企业增长的关键策略,南昌营销推广代理商电话
网络兼职靠谱吗?正规的网络兼职赚钱渠道有哪些?
月入3w的推广方法,如何操作?
ChatGPT无法使用?了解原因及解决方法,轻松恢复智能对话体验!,移动ai写作助手官网
ChatGPT为什么页面下拉不了?问题解析与解决方案,ai10球鞋
ChatGPT安装包Windows版:让AI助力你的工作与生活,ai跑图标
SEO优化前途:迎接数字时代的机遇与挑战
SEO优化的目标:如何通过科学优化提升网站流量与排名
ChatGPT中国镜像畅享智能对话的新时代,在线寻找ai
AI能写软文吗?揭秘人工智能在软文创作中的应用与前景,ai做字图
SEO反链:提升网站排名的秘密武器,可爱ai
ChatGPT出现报错503?这些解决办法你必须知道!,ai写作如何形成视频链接
SEO优化模式:如何通过智能优化提高网站流量与排名
ChatGPT内部HTTP接口文档-为开发者提供高效便捷的AI服务接入方式,英雄大作战疯狂的AI
SEO优化图片:提升网站流量的关键策略
SEO云优化:引领数字营销新时代的利器
SEO优化是什么意思?揭秘网站排名的秘密武器
ChatGPT昨晚突然不能使用,背后真相令人意想不到!,ai导出白点
SEM广告:提高品牌曝光与转化的秘密武器
用AI写科普文章:科技改变写作的未来
AI提供的阅读书目对学生的专业知识有多大帮助,变脸AI变脸
SEO付费推广:企业实现高效网络营销的新选择
AI写作是怎么形成的揭开人工智能赋能创作的奥秘
SEOChinaz:让您的网站在搜索引擎中脱颖而出
什么是伪静态?伪静态有何作用?
AI撰写率:让创作变得更高效,助力内容产业腾飞,AI证件照apk破解版
做网站设计相关关键词,提升你的网站排名和用户体验!,太阁5 ai
SEO是什么岗位?揭秘SEO的工作职责与未来发展前景,ai粉丝跳舞