返回顶部
首页
机械 | 工程 | 工具 | 行业 | 信息 | 集合 | 诗词 | 组词 | 范文 |
 
您现在的位置:
首页 技术中心 详细信息

英伟达项目正在帮助人工智能找到类似人类的声音

2021-09-08    阅读量:31807    新闻来源:互联网     |  投稿

英伟达项目正在帮助人工智能找到类似人类的声音 中国机械网,okmao.com

语音识别可能看起来像是另一个时代的技术遗物,在客户服务、电话营销和转录软件中很有用——但质量总是有所欠缺。很容易忘记,语音识别技术不仅打开了人工智能时代的大门,而且继续作为人工智能的关键接口,并在质量上不断提高。

英伟达应用深度学习研究副总裁 Bryan Catanzaro 表示:“可以说,现代人工智能革命始于语音识别和图像分类中国机械网okmao.com。“在整个行业中,人工智能和语音技术的交叉领域有很多工作正在进行。”

他补充说,语音技术“正在推动对大量人工智能的需求,并且是许多人工智能的接口。” 这就是为什么英伟达大力投资于语音技术的持续改进,包括努力使语音识别更准确和人工智能语音更接近真实的人声。

本周,英伟达在 Interspeech 2021 会议上重点介绍了其在语音技术领域正在进行的工作,发表了多篇关于该主题的论文,并就该公司一直致力于推进语音技术,特别是自动语音识别和对 AI 功能很重要的文本转语音方面。

“我们有兴趣让语音技术变得更加普及并继续提高质量,”Catanzaro 说。

Nvidia 的语音技术项目包括 NeMo,这是一个用于 GPU 加速对话人工智能的开源工具包,旨在开发人员开始使用语音模型将其包含在他们自己的应用程序中。 

另一个关于游行的项目是 RAD-TTS,这是一种语音合成模型,通过教它模仿录制的人类声音的情感、语气和节奏来帮助人工智能语音正常化。Catanzaro 表示,Nvidia 在开发用于营销演示的 AI 语音时使用了该工具本身。

此次活动中展示的其他 Nvidia 开发成果包括另一种称为 TalkNets2 的语音合成模型和 SPGISpeech,其中包括 5,000 小时转录的金融音频,用于完全格式化的端到端语音。

转录服务只是语音技术的一种应用。诸如交互式聊天机器人、虚拟零售购物助手和视频会议的实时字幕等新功能不断发展。除了核心技术之外,这些应用程序都有一些共同点——在大流行期间,所有这些应用程序都变得越来越有价值,这种大流行限制了人们像以前那样开展业务和日常生活的能力。 

不断变化的使用习惯必然会推动更多新语音技术应用程序的开发,Catanzaro 表示 Nvidia 只是试图帮助实现这些新开发。

“这些项目带有代码和数据以及预先训练的模型,因此它们不仅仅是想法,而是人们可以使用的有形事物,”他说。


免责声明:本文仅代表作者本人观点,与中网机械,okmao.com无关。本网对文中陈述、观点判断保持中立,不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。请读者仅作参考,并请自行承担全部责任。本网转载自其它媒体的信息,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。客服邮箱:23341571@qq.com | 客服QQ:23341571
全站地图 | 二级目录 | 上链请联系业务QQ:23341571 或 业务微信:kevinhouitpro