Google的Parrotron是为有语言障碍的人提供的AI工具

时间:2019-11-09

  对于世界各地的数百万人而言,言语障碍已成事实。「全国人才考试服务平台」2019辽宁执业药师资格,在美国,大约有750万人在发音单词和短语时遇到了麻烦,到一年级时,涉及音高,响度和质量的障碍影响了大约5%的孩子。

  对于开发AI驱动的语音识别和文本到语音合成产品的可访问性工程师来说,这构成了挑战,他们必须适应一系列损伤,而这些损伤只能提供有限的数据集。幸运的是,作为Parrotron的一部分,Google的科学家们正在研究将语音模型中的单词替换,删除和插入错误减至最少的方法,这是一项持续不断的研究计划,旨在帮助理解非典型语音的人。

  研究科学家Fadi Biadsy和软件工程师Ron Weiss写道:“在当今的技术环境中,对语音界面的访问受限,例如依赖于直接理解自己语音的数字助理,这意味着它们被排除在先进的工具和经验之外。”在博客文章中。“ Parrotron借助端到端语音转换方法,更有可能重现用户的预期语音,从而使具有非典型语音的用户更容易与其他人和语音界面进行交谈和理解。

  Parrotron利用经过培训的端到端AI系统,将来自障碍者的语音直接转换为“流利的”合成语音,从而有效地跳过了文本生成。它仅考虑语音信号,而不考虑诸如嘴唇运动等视觉提示,并且使用输入/输出语音对的并行语料库分两个阶段进行训练。

  通用语音到语音转换模型首先从大型数据集中获取样本,然后暴露给语料库,该语料库将其变量调整为目标人的非典型语音模式。通常,建立这种高质量的模型需要演讲者记录数小时的培训数据,但是研究人员设法从现有的文本语音转换系统中提取数据,从而使他们能够利用预先存在的转录语音识别功能语料库。

  第一阶段使用大约30,000小时的数据集,该数据集包含数百万个语音对,每个对包括自然语音和来自Google的Parallel WaveNet文本语音转换系统的相应合成语音。研究人员注意到,该语料库包含来自成千上万种跨越数百种方言,重音和声学条件的说话者的摘要,这使得对具有“典型”的语言和非语言内容,重音和噪声条件的建模成为可能。用相同语言演讲。

  经过全面训练的转换模型会进入第二训练阶段,该阶段涉及单独的一组话语对数据集,这些数据对可以由目标说话者提供,但也可以从Google正在进行的Euphonia项目中获取。这第二语料库用于网络适应独特的声学/语音,www.209456.com,音位和语言模式,包括像如何扬声器涂改,替代或删除某些元音辅音或。

  该团队报告说,以多任务目标对系统进行培训(即,在预测目标音素的同时生成目标语音的频谱图(声音信号频率随时间的视觉表示))可以显着改善质量。他们与ALS的发言人以及Google的聋哑研究科学家和数学家Dimitri Kanevsky进行了验证,他们的方法记录了15个小时的个人话语。在Kanevsky的情况下,Parrotron的输出将Google自动语音识别的词错误率从89%降低到32%。至于说ALS的人,志愿者表示几乎在所有情况下,其清晰度都得到了改善。

  “鉴于Parrotron的端到端语音到语音训练目标功能,即使出现错误,生成的输出语音在听觉上也可能听起来与输入语音相似,因此说话者的初衷不太可能Biadsy和Weiss写道。“此外,由于Parrotron并没有强烈偏向于从预定义的词汇集中产生单词,因此输入到模型中可能包含全新的发明单词,外来单词/名称,甚至是无意义的单词。”

  该团队将未来工作从独立调整的AI模型的组合转移到单个模型,他们期望这将带来“显着”的性能改进并大大简化Parrotron的体系结构。他们目前正在招募志愿者来记录短语集-有兴趣的各方可以在此处签名并做出贡献。

  在Google在其I / O 2019开发者大会上公布了三项独立的可访问性工作之后,Parrotron的消息披露了:上述的Euphonia项目旨在帮助有语言障碍的人们; 实时中继,旨在帮助聋哑用户;和Project Diva,后者通过Google助手为人们提供了一定的独立性和自主权。当时,这家位于山景城的公司指出了世界卫生组织的一些指标来支持其工作:超过10亿人,占人口的15%,患有某种残疾。


友情链接:
Copyright 2018-2021 香港马会2018开奖现场 版权所有,未经授权,禁止转载。
香港白小姐| 香港马会开奖结果直播| 四海图库| 白小姐中特网资料大全| 今晚马报开奖结果| 六开彩开奖结果2017| 544718.com| www.pg888.com| 马报开奖结果香港| 九龙老牌图库| 78345黄大仙| 雷锋内幕报|