英伟达项目正在帮助人工智能找到类似人类的声音

2021-09-08 阅读量：31807 新闻来源：互联网 | 投稿

英伟达项目正在帮助人工智能找到类似人类的声音中国机械网,okmao.com

语音识别可能看起来像是另一个时代的技术遗物，在客户服务、电话营销和转录软件中很有用——但质量总是有所欠缺。很容易忘记，语音识别技术不仅打开了人工智能时代的大门，而且继续作为人工智能的关键接口，并在质量上不断提高。

英伟达应用深度学习研究副总裁 Bryan Catanzaro 表示：“可以说，现代人工智能革命始于语音识别和图像分类中国机械网okmao.com。“在整个行业中，人工智能和语音技术的交叉领域有很多工作正在进行。”

他补充说，语音技术“正在推动对大量人工智能的需求，并且是许多人工智能的接口。” 这就是为什么英伟达大力投资于语音技术的持续改进，包括努力使语音识别更准确和人工智能语音更接近真实的人声。

本周，英伟达在 Interspeech 2021 会议上重点介绍了其在语音技术领域正在进行的工作，发表了多篇关于该主题的论文，并就该公司一直致力于推进语音技术，特别是自动语音识别和对 AI 功能很重要的文本转语音方面。

“我们有兴趣让语音技术变得更加普及并继续提高质量，”Catanzaro 说。

Nvidia 的语音技术项目包括 NeMo，这是一个用于 GPU 加速对话人工智能的开源工具包，旨在开发人员开始使用语音模型将其包含在他们自己的应用程序中。

另一个关于游行的项目是 RAD-TTS，这是一种语音合成模型，通过教它模仿录制的人类声音的情感、语气和节奏来帮助人工智能语音正常化。Catanzaro 表示，Nvidia 在开发用于营销演示的 AI 语音时使用了该工具本身。

此次活动中展示的其他 Nvidia 开发成果包括另一种称为 TalkNets2 的语音合成模型和 SPGISpeech，其中包括 5,000 小时转录的金融音频，用于完全格式化的端到端语音。

转录服务只是语音技术的一种应用。诸如交互式聊天机器人、虚拟零售购物助手和视频会议的实时字幕等新功能不断发展。除了核心技术之外，这些应用程序都有一些共同点——在大流行期间，所有这些应用程序都变得越来越有价值，这种大流行限制了人们像以前那样开展业务和日常生活的能力。

不断变化的使用习惯必然会推动更多新语音技术应用程序的开发，Catanzaro 表示 Nvidia 只是试图帮助实现这些新开发。

“这些项目带有代码和数据以及预先训练的模型，因此它们不仅仅是想法，而是人们可以使用的有形事物，”他说。

免责声明：本文仅代表作者本人观点，与中网机械，okmao.com无关。本网对文中陈述、观点判断保持中立，不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。请读者仅作参考，并请自行承担全部责任。本网转载自其它媒体的信息，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。客服邮箱：23341571@qq.com | 客服QQ：23341571