返回顶部
今日    | 手机版 | 资讯 | 产品 | 企业 | 热点 | 商道 | 原料 |
返回首页
返回首页
home 您现在的位置: 首页 >机器人 > 详细信息
可以学习人类语言模式的人工智能
2022年09月11日    阅读量:303     新闻来源:中国机械网 okmao.com    |  投稿

人类语言是出了名的复杂,语言学家长期以来一直认为,教机器如何像人类研究人员那样分析语音和单词结构是不可能的。

但麻省理工学院、康奈尔大学和麦吉尔大学的研究人员已经朝着这个方向迈出了一步。他们展示了一个人工智能系统,它可以自己学习人类语言的规则和模式。

当给出单词和这些单词如何在一种语言中表达不同语法功能(如时态、大小写或性别)的示例时,这种机器学习模型会提出解释这些单词形式变化的规则。例如,它可能知道字母“a”必须添加到单词的末尾,以使塞尔维亚-克罗地亚语中的阳性形式为阴性。

该模型还可以自动学习可应用于多种语言的高级语言模式,从而实现更好的结果。

研究人员使用58种不同语言的语言学教科书中的问题对模型进行了训练和测试。每个问题都有一组单词和相应的词形变化。该模型能够提出一组正确的规则来描述60%的问题的词形变化。

该系统可用于研究语言假设,并调查不同语言转换单词的方式的细微相似性。它特别独特,因为系统发现了人类容易理解的模型,并从少量数据(如几十个单词)中获取这些模型。该系统利用了许多小数据集,而不是为单个任务使用一个大规模数据集,这更接近科学家提出假设的方式鈥攖嘿,看看多个相关数据集,并提出模型来解释这些数据集中的现象。

“这项工作的动机之一是我们希望研究能够学习以人类能够理解的方式表示的数据集模型的系统。模型能够学习表达式或规则吗?我们想看看我们是否能够构建这个系统,以便它能够在一整组相互关联的数据集上学习,从而让系统了解如何更好地康奈尔大学计算机科学助理教授、论文主要作者凯文·埃利斯说。

麻省理工学院的语言学教授亚当·奥尔布赖特(Adam Albright)与埃利斯一起发表论文;Armando Solar Lezama,计算机科学和人工智能实验室教授和副主任;以及大脑和认知科学系保罗·E·牛顿认知科学和计算职业发展教授、CSAIL成员约书亚·B·特南鲍姆;以及资深作者Timothy J.O'Donnell,麦吉尔大学语言学系助理教授,以及Mila的加拿大CIFAR AI主席鈥擰uebec人工智能研究所。

这项研究今天发表在《自然通讯》上。

看语言

为了开发一个能够从多个相关数据集自动学习模型的人工智能系统,研究人员选择探索语音(声音模式研究)和词法(单词结构研究)的相互作用。

语言学教科书中的数据提供了一个理想的测试平台,因为许多语言都具有核心特征,教科书中的问题展示了特定的语言现象。教科书上的问题也可以由大学生以一种相当简单的方式解决,但这些学生通常从过去的课程中获得关于音位学的知识,用于推理新问题。

Ellis在麻省理工学院获得博士学位,并由Tenenbaum和Solar Lezama共同担任顾问。他在麻省理理工学院的一门课上首次学习了形态学和音韵学,当时是博士后的O'Donnell和Albright共同教授。

奥尔布赖特说:“语言学家认为,为了真正理解人类语言的规则,理解系统运转的原因,你必须是人类。我们想看看我们是否能够模仿人类(语言学家)在这项任务中所带来的知识和推理。”。

为了建立一个模型,可以学习一组用于组合单词的规则,称为语法,研究人员使用了一种称为贝叶斯程序学习的机器学习技术。使用这种技术,模型通过编写计算机程序来解决问题。

在这种情况下,程序是模型认为最可能解释语言学问题中的单词和意义的语法。他们使用Solar Lezama在麻省理工学院开发的一种流行的程序合成器Sketch来构建模型。

但草图可能需要很多时间来推理最有可能的程序。为了解决这个问题,研究人员让模型一次一个地工作,编写一个小程序来解释一些数据,然后编写一个更大的程序来修改这个小程序以覆盖更多的数据,等等。

他们还设计了这个模型,让它了解“好”程序的外观。例如,它可能会学习一些关于简单俄语问题的一般规则,这些规则将适用于波兰语中更复杂的问题,因为语言相似。这使得模型更容易解决波兰问题。

解决教科书问题

当他们使用70个教科书问题测试该模型时,它能够在60%的情况下找到与问题中的整个单词集匹配的语法,并在79%的问题中正确匹配大多数单词形式的变化。

研究者们还尝试用一些它在学习语言学课程时“应该”学到的知识对模型进行预编程,并表明它可以更好地解决所有问题。

奥尔布赖特说:“这项工作的一个挑战是弄清楚模型所做的是否合理。这不是一个只有一个数字才是唯一正确答案的情况。有一系列可能的解决方案,你可以认为是正确的、接近正确的,等等。”。

该模型常常提出意想不到的解决方案。在一个例子中,它发现了一个波兰语问题的预期答案,但也发现了另一个利用教科书中错误的正确答案。埃利斯说,这表明该模型可以“调试”语言学分析。

研究人员还进行了测试,结果表明该模型能够学习一些可以应用于所有问题的语音规则的一般模板。

埃利斯说:“最令人惊讶的是,我们可以跨语言学习,但这似乎并没有带来巨大的差异。”。“这意味着两件事。也许我们需要更好的方法来跨问题学习。如果我们不能想出这些方法,这项工作可能会帮助我们探索我们对跨问题共享哪些知识的不同想法。”

在未来,研究人员希望使用他们的模型为其他领域的问题找到意想不到的解决方案。他们还可以将该技术应用于更高层次的知识可以跨相关数据集应用的情况。例如,埃利斯说,也许他们可以开发一个系统,从不同物体运动的数据集推断微分方程。

“这项工作表明,我们有一些方法可以在某种程度上学习归纳偏见。但我认为,即使是对于这些教科书问题,我们也没有完全弄清楚,归纳偏见让语言学家接受似是而非的语法,拒绝荒谬的语法,”他补充道。

“这项工作为未来的研究开辟了许多令人兴奋的领域。埃利斯及其同事(贝叶斯程序学习,BPL)探索的方法可能会影响婴儿如何习得语言,这一可能性让我特别感兴趣,”罗切斯特大学脑与认知科学和计算机科学教授T.Florian Jaeger说,他不是本文的作者。

“例如,未来的研究可能会问,在什么样的附加归纳偏见(关于普遍语法的假设)下,BPL方法可以成功地实现婴儿在语言习得过程中观察到的数据类型的类似人类的学习行为。我认为,看看归纳偏见是否比埃利斯和他的团队所考虑的更抽象,这将是一件有趣的事情鈥攕如源自人类信息处理限制的偏差(例如,依赖长度的内存限制或每次可处理信息量的容量限制)鈥攚这足以归纳出人类语言中观察到的一些模式。”

标签:机械应用人工智能机器人
免责声明: 本文仅代表作者本人观点,与本网无关。本网对文中陈述、观点判断保持中立,不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。请读者仅作参考,并请自行承担全部责任。本网转载自其它媒体的信息,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。客服邮箱:service@cnso360.com | 客服QQ:23341571

全站地图

深圳网络警察报警平台 深圳网络警
察报警平台

公共信息安全网络监察 公共信息安
全网络监察

经营性网站备案信息 经营性网站
备案信息

中国互联网举报中心 中国互联网
举报中心

中国文明网传播文明 中国文明网
传播文明

深圳市市场监督管理局企业主体身份公示 工商网监
电子标识