確實(shí),最近國(guó)產(chǎn)圖像大模型的發(fā)展非常迅速,很多模型都開源了,這為圖像處理領(lǐng)域帶來了很多新的可能性。這些模型在圖像生成、圖像修復(fù)、圖像風(fēng)格轉(zhuǎn)換等方面都有很好的表現(xiàn)。
然而,你提到的中文渲染是短板,這一點(diǎn)確實(shí)存在。雖然這些模型在圖像生成方面表現(xiàn)出色,但在處理中文相關(guān)的圖像內(nèi)容時(shí),可能會(huì)遇到一些挑戰(zhàn)。這可能是因?yàn)橹形暮陀⑽脑谡Z言結(jié)構(gòu)、文字表達(dá)方式等方面存在差異,導(dǎo)致模型在處理中文內(nèi)容時(shí)不夠準(zhǔn)確。
總的來說,國(guó)產(chǎn)圖像大模型的發(fā)展前景非常廣闊,但仍有一些需要改進(jìn)的地方。未來,隨著技術(shù)的不斷進(jìn)步和優(yōu)化,相信這些模型會(huì)在中文渲染等方面取得更好的表現(xiàn)。
相關(guān)閱讀延伸:又一國(guó)產(chǎn)圖像大模型開源,實(shí)測(cè)連續(xù)P圖絕了,中文渲染是短板
智東西12月8日?qǐng)?bào)道,今日,美團(tuán)正式發(fā)布并開源圖像生成模型LongCat-Image,這是一款在圖像編輯能力上達(dá)到開源SOTA水準(zhǔn)的6B參數(shù)模型,重點(diǎn)瞄準(zhǔn)文生圖與單圖編輯兩大核心場(chǎng)景。
圖源:Hugging Face
從官方披露的基準(zhǔn)測(cè)試結(jié)果來看,LongCat-Image主要對(duì)標(biāo)了Seedream4.0、Qwen-Image、HunyuanImage-3.0、Nano Banana以及FLUX.1-dev等主流開源與閉源生圖模型,其核心優(yōu)化集中在“編輯可控性”和“中文文字渲染”兩項(xiàng)能力上。
而在實(shí)際體驗(yàn)中,它在連續(xù)改圖、風(fēng)格變化和材質(zhì)細(xì)節(jié)上表現(xiàn)較好,但在復(fù)雜排版場(chǎng)景下,中文文字渲染仍存在不穩(wěn)定的情況。在涉及復(fù)雜UI設(shè)計(jì)、游戲界面生成等任務(wù)時(shí),模型的審美也暴露出一定短板,這或許與其不具備聯(lián)網(wǎng)搜索能力有關(guān)。
在體驗(yàn)入口方面,美團(tuán)也同步提供了多種使用方式。在移動(dòng)端,LongCat APP已支持文生圖與圖生圖能力;在網(wǎng)頁端,用戶也可通過https://longcat.ai/進(jìn)入圖片生成入口進(jìn)行體驗(yàn)。
對(duì)于開發(fā)者而言,LongCat-Image的模型權(quán)重與代碼也已同步開源:
Hugging Face: https://huggingface.co/meituan-longcat/LongCat-Image
GitHub: https://github.com/meituan-longcat/LongCat-Image
下面我們就來看看LongCat-Image的模型結(jié)構(gòu)、評(píng)測(cè)成績(jī)和具體的實(shí)測(cè)表現(xiàn)。
01.從模型結(jié)構(gòu)到評(píng)測(cè)成績(jī),LongCat-Image,把“編輯可控性”和“中文渲染”作為主攻方向
從模型設(shè)計(jì)上看,LongCat-Image采用了文生圖與圖像編輯同源的統(tǒng)一架構(gòu),并通過漸進(jìn)式學(xué)習(xí)策略,在僅6B參數(shù)規(guī)模下兼顧了指令遵循精準(zhǔn)度、生圖質(zhì)量與文字渲染三項(xiàng)能力的協(xié)同提升。
模型架構(gòu)
這套訓(xùn)練路線并非從零開始堆參數(shù),而是基于文生圖中期訓(xùn)練模型進(jìn)行初始化,并在后續(xù)階段采用文生圖與指令編輯的多任務(wù)聯(lián)合學(xué)習(xí)機(jī)制,來避免編輯能力在后訓(xùn)練階段被壓縮的問題。
在圖像編輯能力上,LongCat-Image在GEdit-Bench、ImgEdit-Bench等多個(gè)編輯類基準(zhǔn)中取得了開源SOTA成績(jī)。
客觀基準(zhǔn)測(cè)試性能對(duì)比
LongCat-Image通過多源數(shù)據(jù)預(yù)訓(xùn)練、指令改寫策略與人工精標(biāo)SFT數(shù)據(jù)的引入,使模型在面對(duì)復(fù)雜編輯要求時(shí)更不容易出現(xiàn)風(fēng)格漂移和結(jié)構(gòu)失真。
針對(duì)中文文字渲染這一長(zhǎng)期痛點(diǎn),LongCat-Image采用了覆蓋8105個(gè)規(guī)范漢字的合成字形數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練,并在SFT階段引入真實(shí)世界文本圖片強(qiáng)化排版與字體泛化能力,在RL階段還引入OCR與美學(xué)雙獎(jiǎng)勵(lì)模型共同約束,最終在ChineseWord評(píng)測(cè)中取得90.7分的成績(jī),領(lǐng)先于現(xiàn)有開源模型。
在真實(shí)感方面,LongCat-Image通過對(duì)抗訓(xùn)練和嚴(yán)格的數(shù)據(jù)篩選機(jī)制,刻意繞開AIGC“塑料感”的紋理陷阱,并在RL階段引入AIGC檢測(cè)器作為獎(jiǎng)勵(lì)信號(hào),反向引導(dǎo)模型學(xué)習(xí)真實(shí)世界的物理紋理與光影變化。
綜合評(píng)測(cè)結(jié)果顯示,在人類主觀評(píng)分(MOS)維度上,LongCat-Image在文本對(duì)齊、視覺真實(shí)度與美學(xué)質(zhì)量等多個(gè)子項(xiàng)中的表現(xiàn)已接近Seedream4.0等商業(yè)模型水平。
人類主觀評(píng)分(MOS)對(duì)比
并列對(duì)比評(píng)估勝率(SBS)
在圖像編輯任務(wù)的并列對(duì)比評(píng)估(SBS)中,LongCat-Image-Edit在綜合質(zhì)量與一致性兩項(xiàng)關(guān)鍵指標(biāo)上,對(duì)NanoBanana和Qwen-Image-Edit等模型均取得較高勝率。
整體來看,LongCat-Image在圖像編輯任務(wù)上已逼近部分閉源模型水平,在文生圖基礎(chǔ)能力上也保持在開源頭部陣營(yíng)。
02.從漫畫重繪到玩偶產(chǎn)品渲染,連續(xù)編輯穩(wěn)定,但中文渲染仍是短板
從實(shí)際體驗(yàn)過程來看,LongCat-Image在“連續(xù)指令可編輯性”上的表現(xiàn)是較為穩(wěn)定的,我們直接拿近期大火的《瘋狂動(dòng)物城2》相關(guān)圖片進(jìn)行測(cè)試,在同一角色基礎(chǔ)上連續(xù)進(jìn)行多輪修改。
參考圖
指令:修改為像素風(fēng)格作品。
指令:重繪為彩色,保留像素質(zhì)感。
指令:圖片角色重繪為模仿樂高積木主題的動(dòng)物。
在漫畫圖像測(cè)試中,通過像素風(fēng)、彩色像素重繪以及模仿樂高積木動(dòng)物主題的連續(xù)重繪指令,模型可以保持角色結(jié)構(gòu)穩(wěn)定,同時(shí)完成風(fēng)格與材質(zhì)的多輪遷移。多次修改過程中,人物輪廓和構(gòu)圖基本未出現(xiàn)明顯錯(cuò)誤。
在此基礎(chǔ)上,我們也進(jìn)一步嘗試了電影海報(bào)的制作場(chǎng)景,用同一角色圖進(jìn)行主視覺海報(bào)生成與多語言標(biāo)題渲染測(cè)試。
指令:電影《瘋狂動(dòng)物城2》的宣傳海報(bào),海報(bào)的主畫面是電影主角的精彩場(chǎng)面,主標(biāo)題用藝術(shù)手寫字體“瘋狂動(dòng)物城2”,下面附上英文名“Zootopia”,另外附上電影海報(bào)需要的其他小字,文字清晰可辨認(rèn)。
在電影海報(bào)場(chǎng)景中,模型對(duì)參考圖的繼承能力較為穩(wěn)定,無論是角色形象還是動(dòng)態(tài)姿勢(shì),都能與原始圖片保持較高一致度,中英文標(biāo)題的主標(biāo)題表現(xiàn)也較為清晰。不過在“小字”區(qū)域,一系列細(xì)節(jié)文字仍然存在亂碼與英文混雜的問題,說明中文文字渲染在復(fù)雜排版場(chǎng)景下依然存在不穩(wěn)定性。
進(jìn)一步測(cè)試人物檔案式中文海報(bào)時(shí),模型可以正確渲染部分核心字段信息,但仍不可避免地出現(xiàn)中英文錯(cuò)位與局部亂碼。
指令:生成動(dòng)畫電影角色的人物檔案式宣傳海報(bào),用文字體現(xiàn)以下信息: 尼克?王爾德(Nick Wilde),是一只在迪士尼動(dòng)畫電影《瘋狂動(dòng)物城》中出場(chǎng)的狐貍。 中文名:尼克狐尼克。 外文名:Nick Wilde。 原型:赤狐。 職業(yè):從騙子到警察。 搭檔:兔子警官朱迪。 經(jīng)典臺(tái)詞:“傷了你的小心臟?”
在產(chǎn)品級(jí)渲染測(cè)試中,朱迪警官玩偶在影棚光、臺(tái)燈暖光、自然光客廳與床品光照等多個(gè)現(xiàn)實(shí)場(chǎng)景下的質(zhì)感表現(xiàn)相對(duì)穩(wěn)定。短絨毛的細(xì)節(jié)、眼睛的高光反射、沙發(fā)布料與玩偶絨毛之間的材質(zhì)對(duì)比都能夠被較為準(zhǔn)確地表現(xiàn)出來,整體更接近商業(yè)產(chǎn)品渲染效果。
相比之下,在主流模型較為擅長(zhǎng)的游戲界面生成場(chǎng)景中,LongCat-Image的短板更為明顯。無論是卡牌游戲、射擊游戲,還是MOBA類第一視角界面,整體風(fēng)格都偏向十多年前的UI設(shè)計(jì)審美,與當(dāng)下主流游戲產(chǎn)品存在明顯代差。
指令:生成一個(gè)卡牌游戲界面。
指令:生成一個(gè)射擊游戲界面。
指令:生成一個(gè)英雄聯(lián)盟的游戲界面。
指令:生成一個(gè)王者榮耀第一視角的游戲界面。
從本次測(cè)試結(jié)果來看,LongCat-Image在改圖與產(chǎn)品渲染類任務(wù)中的可用性更高,而在游戲界面與復(fù)雜排版場(chǎng)景中的表現(xiàn)相對(duì)一般。
03.結(jié)語:開源圖像模型進(jìn)入“可控編輯”競(jìng)賽,AI生圖戰(zhàn)況升級(jí)
從LongCat-Image的整體定位來看,美團(tuán)并沒有試圖用更大的參數(shù)規(guī)模去正面沖擊旗艦級(jí)生圖模型,而是明確選擇在可控性、連續(xù)編輯和中文渲染這幾個(gè)方向上深挖。
圖像模型的競(jìng)爭(zhēng)焦點(diǎn),正在快速向“能否真正進(jìn)入設(shè)計(jì)、產(chǎn)品、品牌等具體生產(chǎn)流程”的實(shí)用能力集中。
本文來自微信公眾號(hào) “智東西”(ID:zhidxcom),作者:江 宇,36氪經(jīng)授權(quán)發(fā)布。

微信掃一掃打賞
支付寶掃一掃打賞