讯界聚合2025年09月01日 14:02消息,3D打印火出圈,网友晒成果,幕后推手竟是AI模型。
《科创板日报》9月1日讯 一张三维建模图、一个手办模型、一个印有“Nano-banana”字样的包装盒……在刚刚过去的周末,朋友圈突然出现了大量相似的“3D打印手办”图片。这些手办有的是明星角色,有的是家中的宠物,种类繁多,令人目不暇接。目前,在某社交平台上以“手办”为关键词进行搜索,也能发现大量类似的内容。

与此相呼应的是,今日早盘,3D打印板块震荡走强。截至发稿,海正生材、长江材料等多只个股涨停,金橙子、思看科技等也纷纷上涨。

然而,这场3D打印热潮的真正推手,其实是谷歌推出的一款名为“纳米香蕉”(Nano-banana)的图像生成与编辑模型。此前提到的“3D打印手办”图片,正是由Nano-banana生成的成果。简单来说,用户只需上传人物或动物的图片素材,并输入特定的提示词和指令,该模型就能将这些图像转化为类似“手办”的效果。不过,与真实的实体手办不同,Nano-banana生成的“手办”仅以图像形式存在。

据悉,这款模型正式名称为Gemini2.5FlashImage,自8月26日正式上线后,凭借在图像编辑实测中的出色表现迅速引发关注。在海外知名AI排行平台LMArena的最新榜单中,Nano-banana以1362的分数位居榜首,显著领先于第二名flux(1191)和GPT(1170)。 从目前的表现来看,Gemini2.5FlashImage在图像处理领域的技术实力不容小觑,其成绩也反映出相关技术正不断突破边界。此次排名变化不仅体现了模型性能的提升,也预示着AI图像生成与编辑领域竞争日益激烈。随着技术迭代加速,未来可能会有更多创新成果涌现。

除了“做手办”之外,Nano-banana在多个场景中也有广泛应用,例如可以将用户提供的多张素材图按照要求进行合成。据3D数字艺术家特拉维斯·戴维斯测试,该模型能够同时处理多达13张图片素材,并将它们融合成一张完整的图像。
在谷歌Gemini官方转发的使用案例中,用户只需在地图上画出“箭头”,Nano-banana便会利用其世界知识推理具体位置与画面,从而将卫星图转换为风景图。此外,按照官方说法,该模型同时具备图片生成与修改、局部重绘、风格迁移等图片编辑能力。
实现该效果的核心在于Nano-banana所具备的几项关键技术:跨图一致性、多图融合、对话式与指令式的精细编辑,以及依托Gemini的丰富世界知识所带来的更强大的常识与语义理解能力。目前,用户可以通过GeminiApp或API等方式使用Nano-banana,其API的计费标准为每百万输出token收费30美元。具体来说,生成一张图片大约需要1290个输出token,折合成本约为0.039美元。
值得一提的是,截至目前,包括Adobe、WPP、Figma在内的多个海外平台已在实际应用中快速集成Nano-banana,并验证了其在提升生产力方面的效果,同时给予了高度评价。华福证券指出,谷歌Nano-banana的出圈标志着多模态模型向更强大的能力迈进,同时也对多模态领域的未来发展充满期待。
现如今,AI图像模型已成为科技巨头竞争的焦点。3月26日,OpenAI推出了基于GPT-4o模型的图像生成功能——Images in ChatGPT,标志着ChatGPT正式从单一的语言模型迈向全模态智能体。8月23日,Meta宣布将与Midjourney合作开发图像和视频生成技术。
华泰证券指出,原生多模态模型架构已获得业界广泛认可,OpenAI和Google的原生多模态模型在性能、延迟和部署方面已展现出显著优势。总体来看,以多模态为主的产品商业化进程快于文本类产品。从大模型向多模态发展已成为商业化的必然趋势,多模态大模型及应用发展的关键转折点即将到来。
从投资角度来看,该机构表示,多模态技术将在算力和应用两个层面带来相关投资机遇。在算力方面,原生多模态模型的训练所需算力明显高于非原生模型,同时,视频内容的推理算力需求远超文字处理,视频Agent的落地进一步推动了对推理算力的需求。在应用层面,国内视频生成模型具备领先优势,而广告、零售、内容创作、教育等多个领域均存在对AI技术的旺盛需求。