人类通过不同的感官感知世界:我们看到、感觉、听到、品尝和嗅觉。我们感知的不同感官是多个信息通道,也称为多模态。这是否意味着我们所感知的可以被视为多媒体?
LIACS博士候选人王雪将感知转化为多媒体,并使用人工智能(AI)从多模态过程中提取信息,类似于大脑处理信息的方式。在她的研究中,她用四种不同的方法测试了人工智能的学习过程。
将单词放入向量
首先,薛研究了单词嵌入式学习:将单词翻译成向量。向量是一个具有两个属性的量,即方向和幅值。具体而言,本部分讨论如何改进信息分类。薛提议使用一种新的人工智能模型,将单词与图像联系起来,从而更容易对单词进行分类。在测试模型时,如果AI做错了什么,观察员可能会进行干预。研究表明,该模型的性能优于以前使用的模型。
查看子类别
研究的第二个重点是伴随着其他信息的图像。对于这个主题,薛观察到了标记子类别的潜力,也称为细粒度标记。她使用了一种特定的人工智能模型,使周围只有少量文本的图像更容易分类。它将一般类别的粗标签与子类别的细粒度标签合并。该方法有效且有助于构建简单和困难的分类。
查找图像和文本之间的关系
第三,研究图像与文本的关联。这个主题的一个问题是,这些信息的转换不是线性的,这意味着它可能很难测量。薛为这个问题找到了一个潜在的解决方案:她使用基于内核的转换。Kernel代表机器学习中的一类特定算法。通过使用的模型,AI现在可以看到图像和文本之间的意义关系。
在图像和文本中查找对比度
最后,薛专注于图像和文本。在这一部分中,AI必须观察文字和图像之间的对比。人工智能模型完成了一项称为短语基础的任务,即将图像标题中的名词与图像的某些部分联系起来。没有观察员可以干预这项任务。研究表明,人工智能可以将图像区域与名词联系起来,在这一研究领域的平均准确率为。
人工智能的感知
这项研究为多媒体信息领域做出了巨大贡献:我们看到人工智能可以对单词进行分类,对图像进行分类,并将图像与文本链接。进一步的研究可以利用薛提出的方法,并有望对人工智能的多媒体感知产生更好的见解。