智東西(公眾號(hào):zhidxcom)
作者 |? 陳駿達(dá)
編輯 |? 漠影
OpenAI的Nano Banana Pro平替,來(lái)了?
智東西12月17日?qǐng)?bào)道,今天,OpenAI推出了其新一代圖像模型GPT Image 1.5。這一代模型具備更強(qiáng)的指令遵循,更精準(zhǔn)的圖像編輯,也能較好的保留細(xì)節(jié),生成速度則來(lái)到上一代模型的4倍。
OpenAI官方在宣傳片中集中展示了模型能力,可以看到,GPT Image 1.5將圖中人物準(zhǔn)確地融入了太空、雨林等不同背景,還在手繪、毛氈等不同風(fēng)格間保持了人物一致性。
與此同時(shí),OpenAI還在ChatGPT中推出了獨(dú)立的圖像生成板塊,提供各種模板、風(fēng)格,讓創(chuàng)作更為便捷
這些更新解鎖了不少新玩法。OpenAI創(chuàng)始人兼CEO Sam Altman曬出了自己用GPT Image 1.5打造的“消防員寫真年歷”。
不過(guò),有網(wǎng)友發(fā)現(xiàn)圖中的日歷根本不準(zhǔn),還有好多網(wǎng)友勸Altman趕緊把這有點(diǎn)辣眼睛的照片刪了。ChatGPT的官方賬號(hào)實(shí)在忍不住,直接用GPT Image 1.5給Altman穿上了T恤衫。
OpenAI官方暫時(shí)沒(méi)有公布任何基準(zhǔn)測(cè)試,不過(guò)在權(quán)威大模型測(cè)評(píng)網(wǎng)站Artificial Analysis上,GPT Image 1.5登頂文生圖和圖像編輯兩大榜單,均超越了谷歌的Nano Banana Pro。
在LMArena大模型競(jìng)技場(chǎng)上,GPT Image 1.5同樣霸榜文生圖和圖像編輯兩大榜單。
GPT Image 1.5按token定價(jià),價(jià)格取決于分辨率和質(zhì)量設(shè)置。高質(zhì)量一百萬(wàn)像素圖像的價(jià)格約為每千張133美元,低質(zhì)量每千張9美元。所有ChatGPT用戶今天都能用上這款模型,其API也已經(jīng)同步推出。
GPT Image 1.5的技術(shù)實(shí)力究竟如何?發(fā)布后,已有不少網(wǎng)友對(duì)比了GPT Image 1.5與Nano Banana Pro的生成效果,智東西也對(duì)兩款模型的能力進(jìn)行了體驗(yàn)。
我們的感受與許多網(wǎng)友類似:雖然GPT Image 1.5是一款不錯(cuò)的圖像生成模型,但它在真實(shí)度和細(xì)節(jié)準(zhǔn)確度上,似乎仍與Nano Banana Pro存在明顯可感的差距。
一、生成效果“油膩感”明顯,網(wǎng)友直呼不如Nano Banana
首先來(lái)看看GPT Image 1.5的文生圖能力。我們的第一則提示詞考察了模型在復(fù)雜場(chǎng)景和多主體關(guān)系下的表現(xiàn):
一幅超寫實(shí)風(fēng)格的畫面:雨夜的東京街頭,霓虹燈映照在濕漉漉的路面上。前景是一位穿著透明雨衣的年輕女性,手持發(fā)光的全息傘;中景有一輛正在緩慢行駛的出租車,車窗內(nèi)可見(jiàn)司機(jī)的側(cè)臉;背景是高樓林立的城市天際線與模糊的人群。電影感構(gòu)圖,淺景深,4K細(xì)節(jié)。
在生成速度上,Nano Banana Pro更勝一籌,耗時(shí)大概15秒完成輸出,這包括其思考的過(guò)程??梢钥吹?,Nano Banana Pro對(duì)復(fù)雜提示詞中的細(xì)節(jié)做到了準(zhǔn)確還原,不過(guò)沒(méi)有理解“發(fā)光的全息傘”這一細(xì)節(jié)。畫面中,出租車和街道的細(xì)節(jié)都做到了準(zhǔn)確的還原。
隨后GPT Image 1.5也給出了生成結(jié)果,第一眼我們就能感受到明顯的“AI味兒”。GPT Image 1.5的畫風(fēng)十分“油膩”,飽和度拉得很高。對(duì)于我們明確要求的“車窗內(nèi)可見(jiàn)司機(jī)的側(cè)臉”,GPT Image 1.5做了模糊化處理。人物和背景的融合也并不自然,給人一種處于兩個(gè)圖層的感覺(jué)。
如果仔細(xì)看,還能發(fā)現(xiàn)圖中角色右手只有四個(gè)手指,這種基礎(chǔ)的人體錯(cuò)誤對(duì)一款2025年的生圖模型來(lái)說(shuō),實(shí)在有點(diǎn)不應(yīng)該了。
接下來(lái)的提示詞,主要考察模型在風(fēng)格遷移和語(yǔ)義約束方面的表現(xiàn):
用梵高《星空》的筆觸和色彩風(fēng)格,描繪一座未來(lái)主義太空站的內(nèi)部大廳:巨大的弧形玻璃窗外是旋轉(zhuǎn)的星云和行星,室內(nèi)有三名宇航員正在低重力環(huán)境中漂浮操作全息界面。保持強(qiáng)烈旋渦狀筆觸,但結(jié)構(gòu)清晰、物體可辨。
GPT Image 1.5的生成依舊還是慢了半拍,不過(guò)這次我們先來(lái)看看其效果:雖然畫面內(nèi)容基本準(zhǔn)確,但在最關(guān)鍵的強(qiáng)烈旋渦狀筆觸和色彩風(fēng)格上,可以說(shuō)是差強(qiáng)人意,與梵高《星空》原作的區(qū)別十分明顯。
Nano Banana Pro的生成結(jié)果如下??梢钥吹?,在保證細(xì)節(jié)準(zhǔn)確的前提下,模型準(zhǔn)確還原了梵高《星空》的畫風(fēng),色彩風(fēng)格也更為接近原作。
這則提示詞主要考察細(xì)節(jié)一致性,畫面的視角也是非常規(guī)視角,能體現(xiàn)模型在邊緣場(chǎng)景的能力:
從貓的第一人稱視角看到的畫面:清晨的廚房,陽(yáng)光從窗戶斜射進(jìn)來(lái),桌面上有一杯正在冒熱氣的咖啡和一塊咬過(guò)的面包。畫面下方隱約可見(jiàn)貓的前爪和胡須邊緣,廣角鏡頭,溫暖色調(diào),生活攝影風(fēng)格,高細(xì)節(jié)真實(shí)質(zhì)感。
GPT Image 1.5在這種邊緣場(chǎng)景出現(xiàn)了很嚴(yán)重的崩壞。首先,貓只有半張臉長(zhǎng)了胡子,鼻子等細(xì)節(jié)全部丟失了,讓人一時(shí)無(wú)法辨認(rèn)這是貓臉還是一個(gè)小毛球。此外,對(duì)背景的虛化其實(shí)讓圖像的真實(shí)感更差了。
Nano Banana Pro的生成結(jié)果如下,憑畫面能一眼判斷這是我們要求的貓貓第一視角,光影還原度和細(xì)節(jié)呈現(xiàn)也符合我們的要求。
也有不少網(wǎng)友分享了對(duì)比實(shí)測(cè)的效果。同樣為人物肖像,左側(cè)由GPT Image 1.5生成的畫面中,人物的頭部過(guò)大,光影效果的日常感要差一些。Nano Banana Pro的生成結(jié)果雖然面部打光有點(diǎn)不足,窗子有點(diǎn)過(guò)曝,不過(guò)正是這種瑕疵讓圖像的真實(shí)感更好。
分享這一生成結(jié)果的網(wǎng)友稱:OpenAI徹底完了。
不過(guò),也有網(wǎng)友補(bǔ)充道,如果在發(fā)給GPT Image 1.5提示詞里加入“未經(jīng)處理的iPhone照片”、“低飽和度顏色配置文件”等要求,就能讓其效果更為真實(shí)。
AI博主Heisenberg分享了最近很火的巨人特效,他認(rèn)為,相比之下,Nano Banana Pro的結(jié)果要自然得多。在細(xì)節(jié)方面,GPT Image 1.5出現(xiàn)了許多Bug,比如左側(cè)兩輛汽車直接面對(duì)面行駛,道路上的白線斷斷續(xù)續(xù),Altman的手也顯得過(guò)大了。
我們還測(cè)試了GPT Image 1.5生成中文的能力。在前幾個(gè)字模型還保持了相對(duì)的準(zhǔn)確度,但在之后就出現(xiàn)了諸多錯(cuò)誤。
二、支持多元素融合、編輯,提供預(yù)制風(fēng)格化模板
目前,GPT Image 1.5一天內(nèi)提供大約5次的免費(fèi)試用機(jī)會(huì),在圖像編輯任務(wù)上,我們未能進(jìn)行實(shí)測(cè)。不過(guò),OpenAI在其官方博客中分享了不少案例。
GPT Image 1.5支持多元素融合,比如下圖就把OpenAI的兩位高管和一只狗融合到了同一畫面里,提示詞要求顯示出他們?cè)谏张蓪?duì)上覺(jué)得很無(wú)聊,畫風(fēng)限定為2000年代的膠片風(fēng)。不過(guò),對(duì)于膠片風(fēng)的還原,這一畫面做得并不到位。
下圖則體現(xiàn)了GPT Image 1.5在元素替換方面的表現(xiàn),提示詞要求把左圖人物的上衣變成紅色,帽子變成黃色,限速改為15,卡車變成消防車,這些都得到了不錯(cuò)的還原。
GPT Image 1.5還支持多樣的風(fēng)格遷移,有些風(fēng)格只要使用預(yù)設(shè)的模板就行。
比如,可以把OpenAI的發(fā)布會(huì),打造成老派黃金時(shí)代好萊塢電影海報(bào)風(fēng)格。
把Altman的證件照變成80年代VHS健身教練風(fēng)格。
或是把Altman放進(jìn)2000年娃娃游戲的換裝界面,所有環(huán)境都是粉色的。
結(jié)語(yǔ):產(chǎn)品體驗(yàn)領(lǐng)先,模型上限仍待追趕
綜合來(lái)看,在Nano Banana系列模型已經(jīng)拉高用戶預(yù)期的前提下,GPT Image 1.5并不是一次顛覆式的飛躍。它在指令遵循、多元素編輯、風(fēng)格模板化和產(chǎn)品化體驗(yàn)上,確實(shí)體現(xiàn)了OpenAI一貫擅長(zhǎng)的產(chǎn)品思維。尤其是深度融入ChatGPT并推出獨(dú)立板塊之后,圖像生成的門檻被進(jìn)一步拉低,創(chuàng)作流程也更加順滑。
但從純模型能力層面來(lái)看,GPT Image 1.5與Nano Banana Pro之間仍然存在肉眼可見(jiàn)的差距:真實(shí)感不足、細(xì)節(jié)穩(wěn)定性偏弱、人體結(jié)構(gòu)和復(fù)雜視角下的失誤,都會(huì)在高要求場(chǎng)景中被迅速放大。GPT Image 1.5能否獲得市場(chǎng)認(rèn)可,仍有待觀察。