谷歌利用“nano banana”模型改进 Gemini AI 图像编辑

13 小时前76 浏览综合
最近,AI 图像编辑领域发生了一件不同寻常的事情。一款名为“纳米香蕉”的新模型凭借其令人印象深刻的能力开始受到广泛关注,并荣登 LMArena 排行榜榜首。现在,谷歌宣布 “nano banana”是谷歌 DeepMind 的一项创新,并于今日正式登陆 Gemini 应用。
TapTap
人工智能图像编辑功能让您能够快速修改图像,而无需在 Photoshop 中费力地操作。谷歌于今年早些时候首次在 Gemini 中提供编辑功能,该模型一开始就表现出色 。但与所有生成系统一样,其非确定性意味着图像元素经常会以不可预测的方式发生变化。谷歌表示,nano Banana(技术上称为 Gemini 2.5 Flash Image)在编辑过程中拥有无与伦比的一致性——它实际上可以记住细节,而不是每次进行更改时都像掷骰子一样。
谷歌表示,当你编辑时,主题将保留其外观。
这为 AI 图像编辑带来了一些有趣的用途。谷歌建议上传人物照片,并更改其风格或着装。例如,你可以将某人重新想象成斗牛士或 90 年代情景喜剧中的角色。由于纳米香蕉模型可以在编辑过程中保持一致性,因此最终结果应该仍然看起来像原始源图像中的人物。即使你连续进行多次编辑,结果也应该与原始素材保持一致。谷歌表示,即使经过多次编辑,最终结果也应该与原始素材保持一致。
最乖的男孩。
Gemini 增强的图像编辑功能还可以合并多张图片,让你可以将它们作为素材,创作出一张你喜欢的新图片。谷歌下面的示例分别拍摄了一位女士和一只狗的照片,并利用它们生成了一张狗被抱的新快照——这可能是迄今为止生成式人工智能的最佳应用。Gemini 图像编辑功能还可以以更抽象的方式合并图像,并会根据你的提示,创作出几乎任何不违反模型规则的作品。
与其他 Google AI 图像生成模型一样,Gemini 2.5 Flash Image 的输出始终在角落带有可见的“AI”水印。该图像还带有不可见的 SynthID 数字水印,即使经过适度修改也能被检测到。
您现在就可以在 Gemini 应用中试用全新的原生图像编辑功能。谷歌表示,新的图像模型也将很快在 Gemini API、AI Studio 和 Vertex AI 中面向开发者推出。#生活杂谈 #数码科技