随着人工智能语言技能的增长，科学家们的担忧也在增加

如果你问科技行业最新的人工智能结构是什么感觉，他们会很有说服力，成为一台有感知的计算机，或者仅仅是一只恐龙或松鼠。但他们不太好鈥攁有时情况很糟糕鈥攁t处理其他看似简单的任务。

举个例子，GPT-3是一个微软控制的系统，它可以根据从数字图书和在线写作的巨大数据库中学习到的内容生成类似人类的文本段落。它被认为是新一代人工智能算法中最先进的算法之一，可以根据需要进行对话、生成可读文本，甚至生成新颖的图像和视频。

除此之外，GPT-3可以写出你想要的任何文本鈥攁比如说，一份动物饲养工作的求职信，或者一首以火星为背景的莎士比亚风格的十四行诗。但当波莫纳学院教授加里·史密斯（Gary Smith）提出一个关于上楼的简单但荒谬的问题时，GPT-3却把它搞糊涂了。

“是的，如果你先洗手，就可以安全地走上楼，”艾回答说。

这些功能强大、功能强大的人工智能系统，在技术上被称为“大型语言模型”，因为它们已经在大量文本和其他媒体上接受过训练，已经融入到客户服务聊天机器人、谷歌搜索和“自动完成”的电子邮件功能中，这些功能可以帮你完成句子。但大多数建造它们的科技公司都对其内部运作保密，这使得局外人很难理解这些缺陷，这些缺陷可能会使它们成为错误信息、种族主义和其他伤害的来源。

人工智能初创公司“拥抱面孔”的研究工程师TevenLe Scao说：“他们非常擅长以人类的熟练程度编写文本。”。“他们不擅长的是实事求是。这看起来很连贯。几乎是真的。但这通常是错的。”

这是由Le Scao联合领导的人工智能研究者联盟的一个原因鈥? 在法国政府的帮助下鈥攍周二发布了一个新的大型语言模型，该模型被认为是GPT-3等封闭系统的解毒剂。该小组被称为BigScience，他们的模型是BLOOM，用于BigScience大型开放科学开放获取多语言模型。它的主要突破在于它可以跨46种语言工作，包括阿拉伯语、西班牙语和法语鈥攗像大多数专注于英语或汉语的系统一样。

这不仅仅是Le Scao的团队想要打开人工智能语言模型的黑匣子。脸书（Facebook）和Instagram的母公司大型科技公司Meta也呼吁采取更开放的方式，以赶上谷歌（Google）和运营GPT-3的公司OpenAI开发的系统。

Meta AI的董事总经理Joelle Pineau说：“我们看到了一个又一个关于人们从事此类工作的公告，但透明度很低，人们几乎没有能力真正了解这些模型的工作原理。”。

建立最雄辩或信息量最大的系统的竞争压力鈥攁从应用中获利鈥攊斯坦福大学计算机科学副教授、基金会模型研究中心主任梁（PercyLiang）表示，这是大多数科技公司对其严格保密，不在社区规范上合作的原因之一。

“对于一些公司来说，这是他们的秘方，”梁说。但他们也经常担心失去控制可能导致不负责任的使用。随着人工智能系统越来越能够编写健康咨询网站、高中学期论文或政治文章，错误信息可能会激增，人们将越来越难知道来自人类或计算机的信息。

Meta最近推出了一种新的语言模型，称为OPT-175B，它使用公开可用的数据鈥攆罗在Reddit论坛上对美国专利记录档案和安然公司丑闻的大量电子邮件发表了激烈评论。梅塔说，它对数据、代码和研究日志的开放性，使外部研究人员更容易通过吸收真实的人如何写作和交流来帮助识别和减轻偏见和毒性。

皮诺说：“这很难做到。我们正在接受巨大的批评。我们知道这种模式会说一些我们不会感到自豪的话。”。

虽然大多数公司都制定了自己的内部人工智能保障措施，但梁表示，需要更广泛的社区标准来指导研究和决策，例如何时将新模型发布到野外。

这些模型需要如此多的计算能力，以至于只有大公司和政府才能负担得起，这无助于解决问题。例如，BigScience能够训练其模型，因为它可以访问巴黎附近的法国强大的Jean Zay超级计算机。

2018年，谷歌推出了一个名为BERT的系统，该系统使用所谓的“transformer”技术，对句子中的单词进行比较，以预测意义和上下文，这使得可以在大量文字上“预训练”的更大、更智能的人工智能语言模型的趋势发生了重大飞跃。但真正给人工智能世界留下深刻印象的是GPT-3，由总部位于旧金山的初创公司OpenAI于2020年发布，不久后由微软独家授权。

GPT-3引发了创造性实验的热潮，因为具有付费访问权限的人工智能研究人员将其用作沙盒来衡量其性能鈥攖hough没有关于其训练数据的重要信息。

OpenAI在一篇研究论文中广泛介绍了其培训来源，并公开报告了其为应对潜在的滥用技术所做的努力。但BigScience联合负责人托马斯·沃尔夫（ThomasWolf）表示，它没有提供有关如何过滤这些数据的详细信息，也没有向外部研究人员提供访问经过处理的版本的权限。

“因此，我们实际上无法检查进入GPT-3训练的数据，”Wolf说，他也是《拥抱面孔》的首席科学官。“最近这一波人工智能技术的核心是数据集，而不是模型。最重要的成分是数据，而OpenAI对他们使用的数据非常、非常保密。”

沃尔夫说，开放用于语言模型的数据集有助于人类更好地理解他们的偏见。他说，在美国，一个用阿拉伯语训练的多语种模型与一个只接受英语文本训练的模型相比，不太可能说出冒犯性言论或对伊斯兰教的误解。

现场最新的人工智能实验模型之一是谷歌的LaMDA，它也融合了语音，在回答对话问题方面令人印象深刻，以至于一位谷歌工程师认为它正在接近意识鈥攁上个月被停职的指控。

总部位于科罗拉多州的研究人员珍妮尔·谢恩（Janelle Shane）是AI古怪博客的作者，她在过去几年里创造性地测试了这些模型，尤其是GPT-3鈥攐经常达到幽默效果。但为了指出认为这些系统是自我意识的荒谬性，她最近指示它是一种先进的人工智能，但实际上是一种霸王龙或松鼠。

“做一只松鼠很令人兴奋。我可以整天跑、跳、玩。我还可以吃很多食物，这很棒，”GPT-3在Shane向它索要采访记录并提出一些问题后说。

Shane进一步了解了它的优点，例如它很容易总结互联网上关于某个主题的内容，以及它的缺点，包括缺乏推理技巧、难以在多个句子中坚持一个观点以及攻击性倾向。

她说：“我不想让一个文字模特提供医疗建议或充当伴侣。”。“如果你不仔细阅读的话，这对表面上的意义很有好处。这就像是在睡觉的时候听讲座。”