Mozilla 近日发布了其开源语音识别数据集项目 Common Voice
的最新版本,并宣布其已成为当前全球最大的人类语音数据集澳门新葡萄京官网注册 ,。

澳门新葡萄京官网注册 1

台湾台北2019年5月8日 /美通社/ — 开发开源 Firefox 浏览器的非营利组织
Mozilla 宣布,其所推动之最大语音资料募集计划 — Common Voice
平台已正式支援简体中文。在广大的 Mozilla
社群及语言专家伙伴的辛勤努力下,从现在开始,网友可到 Common Voice
的简中网站(

澳门新葡萄京官网注册 2

整理 | 一一

出品 | AI科技大本营(ID:rgznai100)

语音介面是网际网路未来大势之所趋。车用语音助理、智慧手表、智慧灯泡等,内建语音辨识技术的装置可谓与日俱增。然而,相关技术的创新仍面临重大阻碍

有意打造语音辅助方案的新创公司、研究人员或各种开发者都需取得大量、转录为文字的语音数据,才能训练机器学习的演算法。但现有公开语音资料集的语音资料量与支援语种数都极其有限,而私有的语音资料不但仅掌握在少数几家公司手中,而且费用高昂。

有鉴于此,Mozilla 自2017年6月起展开Common Voice
计划,希望建立全球化的开源语音语料库,以因应语音介面的发展需求并突破现阶段的市场局限。Mozilla
认为,此类介面不该只把持在少数几家握有语音服务技术的厂商手中,而且,Mozilla
希望能让使用者以自己的语言和熟悉的腔调来吸收和了解资讯。

已收集包括汉语在内的27种语音资料

Common Voice
在2018年6月开始收集多语语音资料。从那时起,此专案便不断壮大,变得更全球化、更具包容性。在过去10个月间,大批的热血贡献者踊跃响应,已在
Common Voice
网站上发起27种语言音档的收集计划,另外还有高达72种语言的录音计划正在进行中。

最新加入的语言是汉语。现在,世界各地的网友都可到
网站捐声音,或验证其他人录音的音档。

澳门新葡萄京官网注册 3

Mozilla 开源语音募集计划 Common Voice 扩大支援简体中文。

语音贡献者还可选择保留专案纪录,以掌握自己的录音纪录。此外,他们也可选择提供人口特征资讯,以协助
Mozilla 改善用以训练语音识别引擎的语音资料。

一如 Common Voice 收集的其他语言资料,Mozilla
对于汉语的目标是要累积约1万小时之通过验证的音档,因为1万小时的音档量才足以训练出完备的语音辨识系统。除此以外,这还附带另一个好处:所有人都可“同声”一气,共同推动语音辨识技术的进展。无论在上班途中、在公车上、午休时间、在家里,或与亲朋好友齐聚一堂时,不管是透过voice.mozilla.org
网站或iOS 应用,只要有手机或电脑,就能捐声音或验证其他人的音档。

Mozilla 开源创新计划总监 George Roter
表示:“就算一个人只录或听几秒钟的音档,但若贡献者多达数十万,加起来的资料量就非常惊人!当更多人都愿意出一份力时,这套语音资料集的价值就能更快提升。”

释出多语语音资料集

Mozilla
将一本初衷、继续充实语音资料集的内涵,使其成为人人可用的公有资源。Mozilla
已于今年二月释出第一批的多语语音资料集,其中共涵盖18种语言的录音音档,包括:英文、法文、德文和华语等广泛通行的语言,以及威尔斯语及卡拜尔语等较为冷门的语言。Common
Voice
至今已收集逾4.2万人贡献的录音,总长度约1,400小时,且语音资料量仍持续成长中。

在此资料集释出后,Common Voice
的规模已超越其他同类型的语音资料集,并已将数万人的录音音档及对应文字开放给公众使用。任何人都可到
Common Voice 网站下载完整的语音资料集。

澳门新葡萄京官网注册 4

Mozilla 开源语音募集计划 Common Voice 扩大支援简体中文。

George Roter 进一步表示:“Mozilla
致力于促进更多元创新之语音科技生态系的发展。我们不但希望能自行推出语音技术的产品,也立志倾力支援研究人员及小公司的发展,在建立全球最大公共的多语语音资料集的过程中,我们很荣幸得到越来越多人的帮助,也很感谢志愿者的热情相挺,让我们成功展开对于简体中文的支持。”

Common Voice 是一个旨在创建开源语音识别数据集的项目,于 2017 年 6
月发布,它邀请来自世界各地的志愿者通过网络和移动应用程序,用他们的声音记录文本片段。Mozilla
官方表示,目前 Common Voice 数据集覆盖了 18
种不同的语言,累计有超过 42000 名贡献者录制了近 1400 小时的语音数据。

3 月 1 日,由 Mozilla 基金会发起的 Common Voice
项目,发布新版语音识别数据集,包括来自 42000 名贡献者,超过 1400
小时的语音样本数据,涵盖包括英语、法语、德语、荷兰语、汉语在内的 18
种语言。

关于语音质量,Common Voice
除了语音多样性高,还可选地收集了收录者的一些具体语音信息,包括年龄、性别和口音等元数据,这可以为训练语音引擎提供强有力的支持。

(数据集链接:

数据集下载地址:

Common Voice 项目可以集成到由 DeepSpeech,也就是基于 DeepSpeech
语音识别框架的一套语音转文本的开源语音识别引擎。它不仅包括语音片段,还包括对训练语音引擎有用的元数据,如说话者的年龄、性别和口音,收集这些语音片段需要做大量的工作。目前
DeepSpeech 项目已在GitHub上获得了 9418 个 Star,1674 个 fork。

澳门新葡萄京官网注册 5

(GitHub 传送门:

业内普遍认为语音将成为下一个重要的技术平台,近年来随着人工智能理论与技术的迅猛发展,语音识别技术在不断突破,通过语音助手如
Alexa、Google Assistant、Siri 和
Cortana,各公司将收集到的用户语音数据归为公司自己所有,这些数据的价值或许目前很难被外界看出来,但是在信息化高度发达,特别是今天这样一个大数据和人工智能时代,为开发机器学习模型提供语音数据集怎么看都是一件有深远意义的事,这些语音数据的意义会慢慢体现。而最终当它们的价值逐渐显现,人们会发现在这背后亚马逊、谷歌、苹果和微软等公司已经牢牢锁住了语音技术的命门,主导了这场语音市场之争。

澳门新葡萄京官网注册 6

Common Voice
项目就是为了避免这样的事情而诞生的,它的目的是将收集到的语音数据集开源给公众,使得任何人都可以自由使用这些数据集来将语音识别技术智能地构建到各种应用程序和服务中。

它目前是同类项目中最大的多语言数据集之一,Mozilla
声称,此次发布的数据集比八个月前公开发布的 Common Voice
语料库要更加庞大,其中包含来自 20,000 名英语志愿者的 500
小时语音数据(400,000
条录音),而且语料库还将进一步扩充。该基金会表示,通过 Common Voice
网站和移动应用,他们正在积极开展 70 种语言的数据收集工作。

(文/开源中国)    

澳门新葡萄京官网注册 7

2017 年 6 月,Mozilla 宣布推出 Project Common Voice
众包计划,旨在为语音识别应用构建开源数据集。他们邀请来自世界各地的志愿者通过网络和移动应用贡献语音记录的文本片段,当然,他们会非常严格地保护项目贡献者的隐私。

2017 年 11 月,Mozilla 基金会发布了第一批 Common Voice
英语数据集成果,该数据集包括大约 500 个小时的语音数据,以及来自 20,000
个志愿者贡献的 400,000 条录音。2018 年 6 月,Mozilla
开始收集法语、德语和威尔士语等 40 多种语种的众包语音数据。

为了简化流程,Mozilla 本周还推出了一款改进的 Common Voice web
工具,其可以对不同的语音剪辑进行更改,还增加了用于查看、重新录制和跳过剪辑的新控件,一个可以快速切换仪表板的“说话”和“收听”模式的开关,以及选择退出语音会话的选项。此外,它正在推出新的配置文件功能,允许用户跨语言跟踪他们的语言进度和指标,并添加人口统计信息。

未来几个月里,Mozilla
表示将尝试不同的方法来增加数据收集的数量,提升数据质量,并且最终计划使用部分录音数据来开发语音产品。

澳门新葡萄京官网注册 8

语音技术将是一大科技技术革新,但可惜的是,目前操纵这场革新游戏的只有大型科技公司。

首先,科技巨头一般都来自科技强国,而用于训练机器的语音数据目前更偏向于英语、中文等一些特定的语言,在多样性方面,显然这并不适合全人类。

其次,像亚马逊、谷歌、苹果这样的科技巨头正在大力投资他们的智能助手,但由此产生的数据集并不对外开放,而像学生、创业公司和对构建语音设备感兴趣的人只能访问非常有限的数据集,而且可能还需要付费购买。

基于此,Mozilla
基金会认为,没有足够的数据开放给公众使用,将会扼杀科技创新,开放语音数据集则可以让更多人参与进来,让任何人都可以自由地使用该数据集,将语音技术嵌入到各种应用和服务中。这类似于
OpenStreetMap
这样的开放众包项目,该项目为开发人员提供开放且可自由使用的世界地图。

在新的数据集发布后,外国网友们也对此进行了评价:

看到开放数据领域的创新真是太好了。最近有许多断言认为,质量更高的 ML
数据将要比 ML
算法更重要,这么说是对的,特别是在语音识别等领域。然而,要赶上科技巨头还有很长的路要走。因为在
15 年前,就有公司每年会处理 100 万分钟的标签语音数据。

除非我们在这方面进行投资,否则老牌企业和新进入这个市场的企业之间的数据差距将继续扩大。

另有网友花了时间验证了一些语音,他在评论中表达了质疑称:

至少在我能听出来的范围内,我没有听到任何句子说错了。不过,我确实遇到了大量非常糟糕的样本,以至于有些难以理解。比如口音重、有背景噪音或者非常安静,而且他觉得一些“机械的”样本是通过文本转语音软件生成的。所以
Common Voice 能提供优质数据吗?

还有网友拿开源数据集 LibriSpeech 做了对比:

ASR 训练的有声读物是绝对不错的。事实上,在 Common Voice 之前,最大的 ASR
公开训练数据集是 LibriSpeech
( 的 DeepSpeech
模型的第一个版本使用 LibriSpeech
进行了训练和测试。但是正如其他人提到的由于一些数据集不够好,由 Common
Voice 的数据集训练的有声读物存在一些瑕疵。

但是 Common Voice 的目标不是取代 LibreSpeech
或其他开放数据集作为训练数据集,而是它们的有益补充。

总之,相较于目前已开源的其他语音数据集类型单一,数据量不足,数据杂乱的情况,虽然而
Common Voice
的数据集有不足,但在综合多样性、丰富性和质量方面都遥遥领先。它有望被全世界更大范围内的开发者们所关注并受益,也将为语音技术的发展带来不可估量的价值。

链接:

(本文为 AI科技大本营编译文章,转载请微信联系
1092722531;添加小助手微信csdnai2,备注研究方向,加入技术交流群)

澳门新葡萄京官网注册 9