谷歌刚刚推出了 Whisk,这是一款经过谷歌实验室测试的新人工智能工具。与传统的图像生成器不同,Whisk 不仅仅依赖于文本描述。在这里,您自己的图像可以作为生成独特视觉效果的提示。您可以添加多个视觉效果来定义主题、场景和风格,然后让 AI 完成剩下的工作。

它是如何运作的?
背后的想法拂很明显:让您的工作更轻松。无需写无休无止的提示;只需导入视觉效果,甚至使用建议的视觉效果。如有必要,您还可以使用一些附加文本来优化结果,但这不是强制性的。生成图像后,可以通过调整提示或更多细节来编辑它。
使用的技术
Whisk 使用了 Google 的两项技术:Gemini 和 Imagen 3。首先,,AI 语言模型,分析您的图像并以文本形式生成详细描述。然后,这些描述会传递给图像生成模型 Imagen 3,该模型会根据这些信息生成视觉效果。但请注意,Whisk 不会重新创建确切的图像。他从中汲取灵感,创作出捕捉其精髓的作品。我的测试证实,我使用了自己的照片,最终结果中不是我。

具体例子
具体来说,如果您上传一张猫的照片、一张海滩场景和一张漫画风格的插图,您将获得受这三个元素启发的视觉效果。我用一把椅子、一张自己的照片和一朵云进行了测试,它给了我一些非常连贯的东西,即使我真的不知道我能用这样的视觉效果做什么。

一个用于实验的工具,而不是用于生产的工具
谷歌自己说:Whisk 是为快速集思广益而设计的,而不是最终的、即用型的创作。生成的视觉效果可能缺乏精确性或逻辑性。首先,它是一个在几秒钟内测试想法、探索风格或创建“原始”视觉效果的工具。
在功能方面,该界面提供了三种预定义样式:贴纸、珐琅别针和毛绒。高级模式允许您进一步添加文本来调整结果。目前,可能性仍然有限,考虑到这是一个实验,这是合乎逻辑的。
拂目前只能在美国通过 Google Labs 访问,但它可以在您的设备上正常运行通常,以及您的 Google 帐户,即使是在法国创建的。该工具是免费的,用户可以直接上传自己的作品。谷歌希望根据第一批反馈来完善 Whisk,并有可能在未来扩展其功能。