OpenAI为其文本到图像的人工智能模型DALL-E增加了一个新的 "outpointing "功能,让该系统产生新的视觉效果,扩大任何给定图片的边界。
在上面的例子中,你可以看到DALL-E如何在人类提示的帮助下,"想象 "出约翰内斯-维米尔的肖像画 "戴珍珠耳环的女孩 "的框架外的东西。请注意,即使从画像提供的有限信息来看,该系统也能与维米尔的风格相匹配,模仿出原作的阴影和高光。
在下面的时间推移中,你还可以看到负责的艺术家奥古斯特-坎普是如何每次都要在小范围内扩展图像,为了得到她想要的结果,经常重做DALL-E的几代。在这段视频中没有看到,但绝对值得强调的是,该系统并不只是自己生成这些扩展的事实。与所有文本到图像的人工智能一样,该模型需要人类来描述新的视觉效果。
Outpainting作为一个功能可以用来扩展原始内容,当然,许多DALL-E用户已经在玩这个功能,看看著名图像的框架之外有什么。(向下滚动到底部看我绝对喜欢的例子...)
从更广泛的角度来看,画外音并没有真正扩大文本-图像人工智能系统的基本功能,但它确实显示了OpenAI将如何在这些系统不断增长的市场中定位自己:通过使可用性成为对客户的关键宣传。
许多文本到图像的人工智能模型可以执行相同的基本功能,但就像这次更新之前的DALL-E本身一样,它需要相当多的手工摆弄。尽可能地使外绘变得简单,将有助于DALL-E从Midjourney和Stable Diffusion等规模较小但具有可比性的系统日益激烈的竞争中脱颖而出。
DALL-E本身现在可以通过一个测试项目使用,目前有超过一百万的用户可以使用。每个测试版用户在第一个月可以获得50个免费的图像世代,之后每个月可以额外使用15个。然后他们可以花15美元购买115个额外的图像世代。
不过,在此期间,画外音可以用来回答生活中的一些最大的谜团,比如,"如果贵格燕麦的人是一个胸大无脑的酒吧女郎呢?" 不要再想了。