流行的语音助手,如Siri和Amazon Alexa,已经向更广泛的公众介绍了自动语音识别(ASR)。尽管经过几十年的发展,ASR模型在一致性和可靠性方面仍存在困难,尤其是在嘈杂的环境中。中国研究人员开发了一个框架,有效地改善了ASR在日常声学环境混沌中的性能。
香港科技大学和万维银行的研究人员提出了一个新的框架鈥攑并证明了新模型对合成高噪声语音数据集的鲁棒性。
他们的研究发表在8月28日的CAAI人工智能研究上。
香港科技大学计算机科学与工程系的吴学洋说:“鲁棒性是ASR长期面临的挑战。”。“我们希望以低成本提高中国ASR系统的鲁棒性。”
ASR使用机器学习和其他人工智能技术将语音自动翻译成文本,用于语音激活系统和转录软件。但新的以消费者为中心的应用程序越来越要求语音识别更好地工作鈥攈处理更多语言和口音,在视频会议和现场采访等现实生活中表现更可靠。
传统上,训练包括ASR的声学和语言模型需要大量特定于噪声的数据,这在时间和成本上都是令人望而却步的。
声学模型(AM)将单词转换为“电话”,即基本声音序列。语言模型(LM)将电话解码为自然语言句子,通常采用两步过程:快速但相对较弱的LM生成一组候选句子,强大但计算成本较高的LM从候选句子中选择最佳句子。
“传统的学习模型对有噪声的声学模型输出不具有鲁棒性,特别是对于发音相同的汉语复调词,”吴说。“如果学习模型解码的第一遍不正确,第二遍就很难弥补。”
新提出的框架PSP使得错误分类词的恢复更容易。通过预先训练将AM输出直接翻译成句子的模型以及完整的上下文信息,研究人员可以帮助LM有效地从AM的噪声输出中恢复。
PSP框架允许模型通过称为噪声感知课程的预培训制度进行改进,该课程逐步引入新技能,从简单开始,逐步进入更复杂的任务。
“我们提出的方法中最关键的部分,噪声感知课程学习,模拟了人类如何从噪声语音中识别句子的机制,”吴说。
预热是第一阶段,研究人员在一个干净的电话序列上预先训练一个电话到字转换器,该序列仅从未标记的文本数据中翻译鈥攖o缩短注释时间。这个阶段“预热”模型,初始化基本参数,将电话序列映射到单词。
在第二阶段,自监督学习中,传感器从自监督训练技术和功能生成的更复杂数据中学习。最后,使用真实世界的语音数据对合成的电话到文字转换器进行微调。
研究人员在从工业场景和合成噪声收集的两个真实数据集上实验证明了他们的框架的有效性。结果表明,PSP框架有效地改进了传统的ASR流水线,第一个数据集和第二个数据集的相对字符错误率分别降低了28.63%和26.38%。
在接下来的步骤中,研究人员将研究更有效的PSP预训练方法,使用更大的未配对数据集,寻求最大化噪声鲁棒LM的预训练效果。