返回顶部
返回首页
返回首页
今天是    | 手机版 | 产品 | 企业 | 新闻 | 信息 | 原料 | 技术 | 网站 |
英伟达项目正在帮助人工智能找到类似人类的声音,中国机械网,okmao.com
home 您现在的位置: 首页 >设备与仪器>技术中心 > 详细信息
英伟达项目正在帮助人工智能找到类似人类的声音
2021年09月08日    阅读量:535    新闻来源:中国机械网 okmao.com  |  投稿

英伟达项目正在帮助人工智能找到类似人类的声音 中国机械网,okmao.com

语音识别可能看起来像是另一个时代的技术遗物,在客户服务、电话营销和转录软件中很有用——但质量总是有所欠缺。很容易忘记,语音识别技术不仅打开了人工智能时代的大门,而且继续作为人工智能的关键接口,并在质量上不断提高。

英伟达应用深度学习研究副总裁 Bryan Catanzaro 表示:“可以说,现代人工智能革命始于语音识别和图像分类中国机械网okmao.com。“在整个行业中,人工智能和语音技术的交叉领域有很多工作正在进行。”

他补充说,语音技术“正在推动对大量人工智能的需求,并且是许多人工智能的接口。” 这就是为什么英伟达大力投资于语音技术的持续改进,包括努力使语音识别更准确和人工智能语音更接近真实的人声。

本周,英伟达在 Interspeech 2021 会议上重点介绍了其在语音技术领域正在进行的工作,发表了多篇关于该主题的论文,并就该公司一直致力于推进语音技术,特别是自动语音识别和对 AI 功能很重要的文本转语音方面。

“我们有兴趣让语音技术变得更加普及并继续提高质量,”Catanzaro 说。

Nvidia 的语音技术项目包括 NeMo,这是一个用于 GPU 加速对话人工智能的开源工具包,旨在开发人员开始使用语音模型将其包含在他们自己的应用程序中。 

另一个关于游行的项目是 RAD-TTS,这是一种语音合成模型,通过教它模仿录制的人类声音的情感、语气和节奏来帮助人工智能语音正常化。Catanzaro 表示,Nvidia 在开发用于营销演示的 AI 语音时使用了该工具本身。

此次活动中展示的其他 Nvidia 开发成果包括另一种称为 TalkNets2 的语音合成模型和 SPGISpeech,其中包括 5,000 小时转录的金融音频,用于完全格式化的端到端语音。

转录服务只是语音技术的一种应用。诸如交互式聊天机器人、虚拟零售购物助手和视频会议的实时字幕等新功能不断发展。除了核心技术之外,这些应用程序都有一些共同点——在大流行期间,所有这些应用程序都变得越来越有价值,这种大流行限制了人们像以前那样开展业务和日常生活的能力。 

不断变化的使用习惯必然会推动更多新语音技术应用程序的开发,Catanzaro 表示 Nvidia 只是试图帮助实现这些新开发。

“这些项目带有代码和数据以及预先训练的模型,因此它们不仅仅是想法,而是人们可以使用的有形事物,”他说。


标签:企业聚焦今日头条机械应用人工智能技术中心设备与仪器工业设备
免责声明: 本文仅代表作者本人观点,与中国机械网无关。本网对文中陈述、观点判断保持中立,不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。请读者仅作参考,并请自行承担全部责任。本网转载自其它媒体的信息,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。客服邮箱:service@cnso360.com | 客服QQ:23341571
全站地图

深圳网络警察报警平台 深圳网络警
察报警平台

公共信息安全网络监察 公共信息安
全网络监察

经营性网站备案信息 经营性网站
备案信息

中国互联网举报中心 中国互联网
举报中心

中国文明网传播文明 中国文明网
传播文明

深圳市市场监督管理局企业主体身份公示 工商网监
电子标识