
语音识别可能看起来像是另一个时代的技术遗物,在客户服务、电话营销和转录软件中很有用——但质量总是有所欠缺。很容易忘记,语音识别技术不仅打开了人工智能时代的大门,而且继续作为人工智能的关键接口,并在质量上不断提高。
英伟达应用深度学习研究副总裁 Bryan Catanzaro 表示:“可以说,现代人工智能革命始于语音识别和图像分类中国机械网okmao.com。“在整个行业中,人工智能和语音技术的交叉领域有很多工作正在进行。”
他补充说,语音技术“正在推动对大量人工智能的需求,并且是许多人工智能的接口。” 这就是为什么英伟达大力投资于语音技术的持续改进,包括努力使语音识别更准确和人工智能语音更接近真实的人声。
本周,英伟达在 Interspeech 2021 会议上重点介绍了其在语音技术领域正在进行的工作,发表了多篇关于该主题的论文,并就该公司一直致力于推进语音技术,特别是自动语音识别和对 AI 功能很重要的文本转语音方面。
“我们有兴趣让语音技术变得更加普及并继续提高质量,”Catanzaro 说。
Nvidia 的语音技术项目包括 NeMo,这是一个用于 GPU 加速对话人工智能的开源工具包,旨在开发人员开始使用语音模型将其包含在他们自己的应用程序中。
另一个关于游行的项目是 RAD-TTS,这是一种语音合成模型,通过教它模仿录制的人类声音的情感、语气和节奏来帮助人工智能语音正常化。Catanzaro 表示,Nvidia 在开发用于营销演示的 AI 语音时使用了该工具本身。
此次活动中展示的其他 Nvidia 开发成果包括另一种称为 TalkNets2 的语音合成模型和 SPGISpeech,其中包括 5,000 小时转录的金融音频,用于完全格式化的端到端语音。
转录服务只是语音技术的一种应用。诸如交互式聊天机器人、虚拟零售购物助手和视频会议的实时字幕等新功能不断发展。除了核心技术之外,这些应用程序都有一些共同点——在大流行期间,所有这些应用程序都变得越来越有价值,这种大流行限制了人们像以前那样开展业务和日常生活的能力。
不断变化的使用习惯必然会推动更多新语音技术应用程序的开发,Catanzaro 表示 Nvidia 只是试图帮助实现这些新开发。
“这些项目带有代码和数据以及预先训练的模型,因此它们不仅仅是想法,而是人们可以使用的有形事物,”他说。