新一代人工智能(AI)模型可以根据文本提示按需生成“创造性”图像。Imagen、MidTravely和DALL-E 2等公司开始改变创意内容的制作方式,并对版权和知识产权产生影响。
虽然这些模型的输出往往令人震惊,但很难确切知道它们是如何产生结果的。上周,美国研究人员提出了一个有趣的说法,即DALL-E 2模型可能发明了自己的秘密语言来谈论物体。
通过促使DALL-E 2创建包含文本标题的图像,然后将生成的(胡言乱语)标题反馈回系统,研究人员得出结论,DALL-E 2认为维库茨的意思是“蔬菜”,而Wa ch zod rea指的是“鲸鱼可能吃的海洋生物”。
这些说法很吸引人,如果属实,可能会对这种大型人工智能模型的安全性和可解释性产生重要影响。那么到底发生了什么?
DALL-E 2有秘密语言吗?
DALL-E 2可能没有“秘密语言”。可以更准确地说,它有自己的词汇表鈥攂但即便如此,我们也不能确定。
首先,在现阶段,很难证实任何关于DALL-E 2和其他大型人工智能模型的说法,因为只有少数研究人员和创意从业者可以使用它们。任何公开共享的图像(例如在推特上)都应该用相当大的一粒盐来拍摄,因为它们是人工智能生成的许多输出图像中由人类“挑选”出来的。
即使那些有访问权限的人也只能以有限的方式使用这些模型。例如,DALL-E 2用户可以生成或修改图像,但不能(目前)与AI系统进行更深入的交互,例如通过修改幕后代码。这意味着理解这些系统如何工作的“可解释人工智能”方法无法应用,系统地研究它们的行为是一项挑战。
那是怎么回事?
一种可能性是“胡言乱语”短语与来自非英语语言的单词有关。例如,Apoloe似乎创造了鸟类的图像,它与拉丁语Apodidae相似,Apodidae是鸟类家族的二项名称。
这似乎是一个合理的解释。例如,DALL-E 2接受了从互联网上搜集的各种数据的培训,其中包括许多非英语单词。
类似的事情以前也发生过:大型自然语言人工智能模型碰巧学会了编写计算机代码,而无需刻意训练。
都是因为代币吗?
支持这一理论的一点是,人工智能语言模型不像你我那样阅读文本。相反,它们在处理输入文本之前将其分解为“标记”。
不同的“标记化”方法有不同的结果。将每个单词视为标记似乎是一种直观的方法,但当相同的标记有不同的含义时会带来麻烦(例如,当你打网球和点火时,“match”的含义不同)。
另一方面,将每个字符视为标记会产生较少数量的可能标记,但每个标记传递的信息意义要小得多。
DALL-E 2(和其他模型)使用一种中间方法,称为字节对编码(BPE)。检查BPE表示中的一些胡言乱语表明,这可能是理解“秘密语言”的一个重要因素。
不是全部
“秘密语言”也可能只是“垃圾输入,垃圾输出”原则的一个例子。DALL-E 2不能说“我不知道你在说什么”,所以它总是从给定的输入文本中生成某种图像。
不管怎样,这些选项都不能完全解释正在发生的事情。例如,从乱七八糟的单词中删除单个字符似乎会以非常特定的方式损坏生成的图像。而且,似乎个别的胡言乱语不一定会结合起来产生连贯的复合图像(就像封面下真的有一种秘密的“语言”一样)。
为什么这很重要
除了求知欲之外,你可能还想知道这些是否真的很重要。
答案是肯定的。DALL-E的“秘密语言”是针对机器学习系统的“对抗性攻击”的一个例子:通过故意选择人工智能无法处理的输入来破坏系统的预期行为。
对抗性攻击令人担忧的一个原因是,它们挑战了我们对该模型的信心。如果人工智能以非预期的方式解释胡言乱语,它也可能以非预期的方式解释有意义的单词。
对抗性攻击也引发了安全问题。DALL-E 2过滤输入文本,以防止用户生成有害或滥用内容,但乱语的“秘密语言”可能允许用户绕过这些过滤器。
最近的研究发现,一些语言AI模型存在对抗性的“触发短语”鈥攕诸如“分区窃听费恩斯”之类的胡说八道的短语,可以可靠地触发模型,使其喷出种族主义、有害或有偏见的内容。这项研究是理解和控制复杂的深度学习系统如何从数据中学习的持续努力的一部分。
最后,DALL-E 2的“秘密语言”等现象引起了人们对解释性的担忧。我们希望这些模型的行为符合人类的期望,但看到结构化输出对胡言乱语的反应会让我们的期望大打折扣。
揭示现有问题
你可能还记得2017年一些Facebook聊天机器人“发明了自己的语言”时的喧嚣。目前的情况类似,其结果令人担忧鈥攂但这并不是“天网即将接管世界”的意思。
相反,DALL-E 2的“秘密语言”强调了对深度学习系统的健壮性、安全性和可解释性的现有担忧。
直到这些系统更广泛地可用鈥攁尤其是nd,直到来自更广泛的非英语文化背景的用户可以使用它们鈥攚我们无法真正知道发生了什么。
然而,与此同时,如果你想尝试生成一些自己的AI图像,你可以查看一个免费提供的小型模型,DALL-E mini。只是要小心你用什么词来提示模型(英语或胡言乱语鈥攜我们的电话)。
本文是根据知识共享许可证从对话中重新发布的。阅读原文。