是谁在说话?谷歌多人和记娱乐语音识别新系统错误率降至2%

日期:2019-08-17 18:25:07 作者:绵阳新闻网 浏览:97 次

是谁在说话?谷歌多人和记娱乐语音识别新系统错误率降至2%

2019-08-17 13:16 来源:聊久

原标题:是谁在说话?谷歌多人和记娱乐语音识别新系统错误率降至2%

语音识别系统现在不仅可以识别出「你说了什么」,而且可以在多人对话情境中准确识别出「是谁在说话」了。在最近公布的一项研究中,谷歌的最新说话人分类系统(speaker diarization system)将多人语音分类识别的错误率从 20% 降到了 2%,获得了十倍的性能提升。

识别「谁说了什么」,也就是「说话人分类」任务是自动理解人类对话音频的关键步骤。例如,在一个医生与患者的对话中,「患者」在回答医生的问题(「你经常服用心脏病药物吗?」)时说了「Yes」,这和医生用反问的语气说「Yes?」的含义截然不同。

传统的说话人分类(SD)系统分为两步,第一步是检测声谱中的变化,从而确定说话人何时发生切换;第二步是识别对话中的每个说话人。这一基本的多步方法几乎已有 20 多年的历史,而在此期间,只有说话人切换检测得到了提升。

在最新的一项研究中,谷歌公布了他们在说话人分类模型上取得的新进展。他们提出了一种基于 RNN-T 的说话人分类系统,将说话人分类错词率从 20% 降到了 2%,性能提升了十倍。

这一提升得益于 RNN-T 模型的最新进展,它为谷歌的新系统提供了一个适当的架构,能够克服之前说话人分类模型的一些局限。谷歌在一篇名为《Joint Speech Recognition and Speaker Diarization via Sequence Transduction》的论文中展示了这项研究,并将在 2019 年 Interspeech 大会上进行展示。

论文链接:https://arxiv.org/pdf/1907.05337.pdf

传统的说活人分类系统有哪些局限

传统的说话人分类系统依赖人声在声学上的差异来区分对话中的不同说话人。男人和女人的声音比较容易区分,他们的音高(pitch)存在很大差异,使用简单的声学模型就能加以区分,而且可以一步完成,音高相似的说话人则要通过以下几个步骤进行区分:

首先,基于检测到的语音特征,一个变化检测算法将对话均匀地分割成若干片段,希望每个片段只包含一个说话人。

接下来,使用深度学习模型将来自每个说话人的声音片段映射为一个嵌入向量。

在最后一步的聚类过程中,将这些嵌入聚集在一起,以便在一场对话中跟踪同一个说话人。

在实践中,说话人分类系统与自动语音识别(ASR)系统并行,结合两个系统的输出给识别出的词打上标签。

是谁在说话?谷歌多人和记娱乐语音识别新系统错误率降至2%

传统的说话人分类系统在声学领域进行说话人标签推理,然后将标签覆盖在由单独的 ASR 系统生成的单词上。

展开全文

这一方法存在诸多局限,已经阻碍了这一领域的发展。

第一,对话需要被分割成片段,而且每个片段只包含一个人的声音。否则,嵌入就无法准确表征说话人。但在实践中,变化检测算法并不完备,导致分割出的片段包含多个人声;

第二,聚类阶段需要知道说话人的数量,而且这一阶段对输入的准确性非常敏感;

第三,聚类阶段需要在用于估计语音特征的片段大小和所需的模型准确度之间进行艰难的权衡。片段越长,语音特征质量越高,因为模型拥有更多与说话人相关的信息。这就造成模型可能将简短的插入语归入错误的说话人,由此产生非常严重的后果,如在临床、金融语境下,肯定和否定回答都需要被准确追踪;

最后,传统的说话人分类系统没有一个简单的机制来利用在许多自然对话中特别突出的语言线索。例如,「你吃这个药多长时间了?」在临床对话场景中最有可能是医护人员说的。类似地,「我们需要什么时候交作业?」很可能是学生而不是老师说的。语言线索也会为说话人转换提供信号,如在一个问题之后。

为了克服以上缺陷,谷歌一直在致力于改进人声分类系统,如去年 11 月发布的利用监督学习的精确在线说话人分类系统(https://ai.googleblog.com/2018/11/accurate-online-speaker-diarization.html)。在那项工作中,RNN 的隐藏状态追踪说话人,克服了聚类阶段的缺陷。本文提出的系统则采用了不同的方法并结合了语言线索。

是谁在说话?谷歌多人和记娱乐语音识别新系统错误率降至2%

谷歌新系统:集成语音识别和说话人分类



上一篇:上一篇:吴亦凡蔡徐坤加盟“车晚”?东风风行爆料来啦!
下一篇:下一篇:英伟达CEO:不担心谷歌会变成竞争对手