在几秒钟内从文本创建图像鈥攁用传统的显卡而不用超级计算机?这听起来很奇怪,但这是由新的稳定扩散AI模型实现的。底层算法由Bj教授领导的机器视觉与学习小组开发枚rn Ommer(慕尼黑LMU)。
“即使对于没有艺术天赋、没有特殊计算技术和计算机硬件的外行,新模型也是一种有效工具,可以让计算机根据命令生成图像。因此,该模型消除了普通人表达创造力的障碍,”奥默说。但对于经验丰富的艺术家来说也有好处,他们可以使用稳定的扩散将新想法快速转化为各种图形草稿。研究人员相信,这种基于人工智能的工具将能够从根本上扩大使用画笔和Photoshop生成创造性图像的可能性,就像基于计算机的文字处理使笔和打字机的书写发生革命性变化一样。
在他们的项目中,LMU科学家得到了启动稳定性的支持。人工智能,在其服务器上训练人工智能模型。“这种额外的计算能力和额外的训练示例使我们的人工智能模型成为最强大的图像合成算法之一,”这位计算机科学家说。
数十亿训练图像的本质
该方法的一个特殊方面是,尽管训练模型具有强大的功能,但它仍然非常紧凑,可以在常规图形卡上运行,不需要像以前图像合成那样的超级计算机。为此,人工智能将数十亿张训练图像的精华提取到一个仅为数千兆字节的人工智能模型中。
“一旦这种人工智能真正理解了汽车的构成或艺术风格的典型特征,它将准确地理解这些显著特征,理想情况下应该能够创造更多的例子,就像老大师工作室的学生可以以同样的风格创作作品一样,”奥默解释道。为了实现LMU科学家的目标,让计算机学会如何看鈥攖也就是说,理解图像的内容鈥攖他的研究又向前迈出了一大步,进一步推进了机器学习和计算机视觉的基础研究。
经过培训的模型最近在“CreativeML Open RAIL-M”许可证下免费发布,以促进该技术的进一步研究和更广泛的应用。博士研究员罗宾·罗姆巴赫说:“我们很高兴看到目前的模型将产生什么,也很高兴看到开放、协作研究工作将产生什么进一步的成果。”。