长推:解读Meta开源AI项目MMS创新点
注:原文来自@balconychy发布长推。
Meta开源的Massively Multilingual Speech太厉害了。 个人觉得最大的创新点是:大大减少语音标记数据时长要求。 对比Whisper:FLEURS基准的54种语言上将Whisper的单词错误率减少了一半以上,这还是在 在一小部分标记的数据上进行训练得前提下。 标记数据:whisper(680K) VS MMS (3K 和 45K)。
关键是:自监督预训练+微调。
这种模式看来是遍地开花:
-大语言:预训练(句子补全自监督训练)+微调(问题-答案样本监督学习)
-语音识别:预训练(无标记语音自监督训练)+微调(语音-文本样本监督学习)
直觉上看符合人类学习: 大量的无意义语音输入,然后在来一些有限的教学,小孩就能掌握语言。
具体训练过程:
预训练
使用自监督学习wav2vec 2.0在未标记语音数据上训练。类似句子补全,将语音随机屏蔽一段,然后猜屏蔽的部分。 在A100GPU上训练1百万个updates. MMS (0.3B) 48个GPU上按2.3小时每批次大小训练 MMS (1B)在64个GPU上按3.5小时每批次大小训练。
文本转语音子任务
对预训练的MMS(1B)模型进行微调来训练多语言语音识别模型。 在模型上添加线性层,映射到输出词汇表。
模型已经开源可以下载,包含底座和具体识别任务模型。支持微调。 https://github.com/facebookresearch/fairseq/tree/main/examples/mms…
1.资讯内容不构成投资建议,投资者应独立决策并自行承担风险
2.本文版权归属原作所有,仅代表作者本人观点,不代表本站的观点或立场
您可能感兴趣
-
AI ARENA:融合AI与区块链的PvP竞技场
AI Arena是融合AI与区块链的双模式竞技平台,通过研究竞赛与游戏竞赛构建代币激励体系,NRN代币支撑生态经济循环,已完成600万美元融资。
-
Pyth Network:区块链预言机技术革新者
Pyth Network通过专有应用链与按需拉取模式重构预言机经济模型,整合传统金融与加密数据源,构建跨链价格传输网络。
-
Zircuit:基于zkEVM的Layer2扩展解决方案
Zircuit是兼容EVM的zk Rollup区块,采用序列器级别安全机制,已完成主网上线并获Pantera等机构投资。
-
MANTRA:合规优先的多链基础设施探索
MANTRA Chain通过合规优先架构与跨链技术,构建支持多司法管辖区域监管的Web3基础设施,重点布局支付与现实资产数字化领域。
-
SunPump 以 AI Agent 降低发行门槛,SunAgent 和 SunGenX 为 Meme 用户打造“智能副驾”
本文系 SunPump 投稿,不代表 ChainCatcher 观点,亦不构成任何投资建议。 近年来,人工智能(AI)技术以前所未有的速度持续推动各行业变革与升级。在这一浪潮中,AI Agent(人工
-
Manta Network:模块化ZK应用网关与L2智能合约平台
Manta Network 构建模块化 ZK 应用基础设施,整合 zkEVM 与 Celestia 数据可用性方案,提供隐私优先的 L2 智能合约平台,已完成2500万美元的融资。
-
PETGPT.AI:基于WEB3.0的AI宠物养成生态
PETGPT.AI构建基于WEB3.0的AI宠物养成生态,融合SBT确权与DAO治理,日本市场DAU破万,TVL达280万美元,即将上线社交游戏模块。
-
Modulus Labs:构建零知识证明AI系统的加密协议创新者
Modulus Labs构建零知识证明AI系统,提升加密协议安全性与效率,完成$630万种子轮融资
- 成交量排行
- 币种热搜榜