您当前的位置:首页 > 视点聚焦 > 正文

100种语言直接翻译！Meta推出SeamlessM4T新模型，核心数据集还开源

时间：2023-08-26 08:22:54 来源：36氪

作者 | 虞景霖

编辑 | 邓咏仪尚恩

《创世纪》中有这样一个故事，传说在千百年前，地球上所有的人都使用一种语言，有一天他们决定建造一座高塔直通天际，远离洪水的侵扰。

(相关资料图)

这座高塔叫做巴别塔。

很不幸，这件事被神知道了，他们害怕人类因为巴别塔的成功建造而感到骄傲和傲慢，因此决定对人类进行干扰。

于是神打乱了人类的语言，导致人们无法理解对方在说什么。不出神的意料，由于语言不通，人类产生了混乱和分歧，不得不放弃建造巴别塔的计划，四散到了世界各地。

来源：pixabay

而如今，在AI的帮助下，使用不同语言的人可以直接进行交流，重建巴比塔成为可能！

来源：公开网络

这就是Meta发布的AI大模型：SeamlessM4T。一款能够转录和翻译近100种语言的一体化翻译器，目前已在官网免费开放使用。

来源：Meta AI推特

官网体验链接：https://seamless.metademolab.com/

消息一出，就引起了网友的广泛关注，甚至有网友把SeamlessM4T戏称为是“万宝路”创造癌症治疗法。

来源：Jason Ferrell推特

还有网友表示距离《星际迷航》中的万能翻译器又近了一步。

来源：kache(yacine)(e/boy)推特

嗯…..怎么不算呢？

来源：公开网络

但也不是一致好评，有网友就表示SeamlessM4T的表现差强人意，直言：“几乎每次都完全错误”。

来源：minos推特

100种语言直接翻译，文本语音一条龙

不同于仅支持文本转文本的传统翻译器，SeamlessM4T功能众多，具体来说：

能够对96种语言进行语音识别

支持近100种输入和输出语言的语音到文本翻译

支持近100种输入语言和36种输出语言的语音到语音翻译

支持近100种语言的文本到文本翻译

支持近100种输入语言和35种输出语言的文本到语音翻译

来源：Meta AI官网

据官方说明，SeamlessM4T可以分为两个部分，编码器和解码器。

编码器能够识别近100种语言的语音输入，再由解码器将其转化成近100种文本语言或35种（包含英语）语音语言。经过训练的编码器，能够自动识别输入语音中和人类语音对应的音频信号，并将其分解为一系列语音段，最后通过匹配器将这些语音段对应到单词中。

而文本的识别，则基于NLLB模型的文本编码器，经过训练后能理解100种语言的文本内容。基于识别的内容，解码器就可以进行语音和文本的输出。

编码器和解码器实现机制

简单来说，就是把文本或者语音扔给编码器，让它在内部进行一系列解析、分割和转换等操作，再把这些处理好的信息丢给解码器，解码器把他们合成对应语言的文本或者语音。

来源：Meta AI官网

说话间，已经有网友等不及上手玩了起来。

左边这位网友用福建话自我介绍的一瞬间，AI就立即将语句转换为英文，后面即使是“一整段福建话”，SeamlessM4T也应对自如。

来源：Meta

对此就有不少网友开始脑补，有了SeamlessM4T，以后上网组队玩游戏，管你讲啥语言，AI统统都拿下！

来源：Eder Teixeira Eder Teixeira推特

目前，Meta并非唯一一个投入资源用于开发AI转录和翻译的公司。

去年9月，OpenAI就开源了Whisper自动语音识别系统，还强调Whisper的语音识别能力已经达到了人类水准。

而更早之前，互联网鼻祖Netscape旗下的Mozilla基金会，也在2017年推出了公共数据库Common Voice，这是用于训练自动语音识别算法的最大的多语言语音库之一。

在训练数据层面，SeamlessM4T的训练数据似乎没有Whisper那么庞大。OpenAI声称Whisper使用了68万个小时的训练数据，而SeamlessM4T的训练数据约为44万个小时。

那么，Meta的SeamlessM4T强在哪？

来源：公开网络

首先，SeamlessM4T实现了语音和语音之间的直接转换，免除了中间的文本转录过程，能够更好地保留语音特征。

而其他语音转录软件，如Whisper，由于接受了大量的噪音数据的训练，转录的文本中包含实际没说的单词的可能性更高，当语音中包含多种语言的时候，Whisper的转录效果似乎并不那么令人满意。

SeamlessM4T则在这个方面进行了改进，大大增强了模型处理背景杂音和多语言语音的能力。

免费开源，包括核心数据集

目前，Meta将以研究许可证的形式向公众免费提供该模型（仅限非商业用途），以便研究人员和开发人员在此基础上进一步研究。

来源：公开网络

更重要的是，Meta还将发布SeamlessM4T的关键训练数据集之一SeamlessAlign。

这个数据集通过语音识别和文本挖掘技术，从公开渠道抓取并对齐了大量语音和文本数据，覆盖了37种语言，包含了超过44万小时的语音和文本数据，是迄今为止用于多模式翻译的最大的公开数据集。

另外，在测试中团队发现，SeamlessM4T的鲁棒性也灰常不错！

与此同时，Meta还专门做了研究表示，相较于当前最先进的模型，SeamlessM4T在语音转文本任务中处理背景音和变化的语音的能力更强（平均水平分别提高了37%和48%）。

SeamlessM4T鲁棒性测试结果

但和其他众多的AI模型一样，SeamlessM4T也并不是完美的存在，仍然存在多种形式的偏见和误差。

当输入中性词语时，输出的结果偏“男性”。例如，在不明确性别的时候，SeamlessM4T大约有10%的概率倾向将性别表示为男性。Meta推测，这可能是由于训练数据的“男性”倾向更加明显。

除了性别输出偏好，SeamlessM4T还有一些其他的问题。

例如在孟加拉语和吉尔吉斯语等一些语言中，SeamlessM4T对社会经济地位和文化进行了恶意翻译，这类情况在涉及性取向和宗教的翻译中更加严重。而这一点也得到了网友的验证，并表示对此现象的出现十分失望。

来源：Cuenta Libra推特

但是，Meta声称，SeamlessM4T的公开版本中包含了恶意评论的过滤器，能够阻止恶意言论的输入和输出。

但实际情况确是，在模型的开源版本中，默认情况下并没有这个过滤器。也正是由于这个原因，Meta不建议将SeamlessM4T用于过长文本和严肃内容转录翻译。

SeamlessM4T可谓Meta多年来在翻译器开发领域的集大成者。去年，Meta发布了一个能够支持200种语言的文本转文本翻译模型NLLB（No Language Left Behind），还推出了第一个针对闽南语的语音转语音翻译器。

今年5月，Meta推出了一个多模语言翻译器，能够识别并合成1100多种语言的语音。SeamlessM4T综合了上述所有项目的研究成果。

未来，Meta希望基于SeamlessM4T在翻译器开发领域进一步探索，最终创造一个没有语言障碍的世界。

标签：

100种语言直接翻译！Meta推出SeamlessM4T新模型，核心数据集还开源

100种语言直接翻译，文本语音一条龙

免费开源，包括核心数据集

最新文章推荐

热点资讯

100种语言直接翻译！Meta推出SeamlessM4T新模型，核心数据集还开源

100种语言直接翻译，文本语音一条龙

免费开源，包括核心数据集

最新文章推荐

资讯中心

热点资讯