“可靈持續(xù)領(lǐng)先!”
4月15日下午,快手宣布可靈AI全系模型進(jìn)入2.0時代。
自從上一次可靈1.6更新已過去近3個月,這次基座模型升級,快手高級副總裁、社區(qū)科學(xué)線負(fù)責(zé)人蓋坤在發(fā)布會上自信表示:“可圖2.0現(xiàn)在是行業(yè)領(lǐng)先的圖像模型……可靈2.0,特別在圖生視頻上持續(xù)全球大幅領(lǐng)先!”現(xiàn)場響起了一陣陣歡呼聲和掌聲。
“AI新榜”現(xiàn)場拍攝
升級后,可靈2.0視頻生成模型(大師版)具備更強(qiáng)的語義響應(yīng)、更優(yōu)的動態(tài)質(zhì)量、更美的畫面質(zhì)感。
可靈2.0圖生視頻,提示詞:滑板運(yùn)動,圍繞滑板少年不斷運(yùn)動
并且新增“多模態(tài)編輯”功能,支持對視頻增加、刪除、或替換元素。
可圖2.0圖像模型則大幅提升語義遵循能力,新增“圖片編輯”功能,支持局部重繪、多尺寸擴(kuò)圖;同時新增圖片“風(fēng)格轉(zhuǎn)繪”功能,支持響應(yīng)近60種風(fēng)格,更具電影質(zhì)感。
可圖2.0生成,提示詞:一張超現(xiàn)實(shí)的照片,一條河從客廳墻上的油畫中漂浮出來,灑在沙發(fā)和木地板上,這幅畫描繪了山間一條寧靜的河流。一艘船在水中輕輕搖晃,進(jìn)入客廳。河流的邊緣灑在木地板上,將藝術(shù)世界與現(xiàn)實(shí)融為一體??蛷d裝飾著高雅的家具和溫馨、溫馨的氛圍,電影、照片
可圖2.0生成,提示詞:工筆畫,林黛玉,穿著唐代的服裝,在咖啡店的角落,手里拿著一部智能手機(jī),側(cè)逆光,傍晚
難得的是,在許多AI產(chǎn)品“發(fā)布即等待”的當(dāng)下,可靈AI這回依舊是“發(fā)布即可用”,目前2.0模型已在網(wǎng)頁端和App端全量上線,可靈AI 2.0靈感成真創(chuàng)作大賽也同步開啟。
可靈AI官網(wǎng):app.klingai.com
“AI新榜”在第一時間對可靈AI進(jìn)行了實(shí)測,圖生視頻排隊時間較久,可能要半小時以上,還沒用上的朋友可以看看下面的測試案例。你覺得可靈2.0怎么樣?歡迎在評論區(qū)和我們交流。
可靈AI視頻全方位升級,
多模態(tài)編輯重新定義AI交互
經(jīng)常使用AI生成視頻的創(chuàng)作者會發(fā)現(xiàn),現(xiàn)在的AI模型遠(yuǎn)遠(yuǎn)達(dá)不到一鍵成片的程度,仍需要斟酌每個鏡頭的提示詞或參考圖,輸出的視頻質(zhì)量不一定令人滿意,需要多次嘗試生成和修改。
比較常見的痛點(diǎn)包括提示詞響應(yīng)有限、理解有誤;畫面運(yùn)動幅度不夠,有明顯的運(yùn)動瑕疵;人物表情不自然,動作不準(zhǔn)確等等。
針對這些問題,可靈2.0在語義遵循、畫面質(zhì)量、動態(tài)質(zhì)量、真實(shí)度、美感等方面都進(jìn)行了完善迭代。
據(jù)快手副總裁、可靈AI負(fù)責(zé)人張迪介紹,在可靈AI上,85%的視頻創(chuàng)作是通過圖生視頻完成的。比如這個圖生視頻的例子,輸入“男人先是開心的笑著,突然變得憤怒,手錘桌子起身”。
可靈1.6生成的表情變化不明顯,手錘桌子起身的動作也沒有展現(xiàn)出來,但可靈2.0就能準(zhǔn)確完整地按照提示詞生成。
可靈1.6(上)和2.0(下)
我們測試了包含更多人物動態(tài)和鏡頭運(yùn)動的視頻:
提示詞:游樂場過山車極速俯沖鏡頭,第一人稱視角抖動畫面,中年男子的雙手緊緊握著安全桿,前排少女馬尾辮呈失重狀懸浮,最后畫面定格在男子的尖叫表情特寫
提示詞:慢動作雨巷追逐鏡頭,手持?jǐn)z影機(jī)跟隨濕發(fā)貼面的殺手,霓虹燈在雨傘旋轉(zhuǎn)時拖曳出彩色光軌,香煙煙霧與雨滴同速飄移,王家衛(wèi)電影色調(diào)
提示詞:穿著藍(lán)色建筑制服、戴著黃色安全帽的工人們,正在用小工具修理或制作巧克力蛋糕
可以看到,每一句提示詞要求的鏡頭、視角、人物動作和表情等,可靈2.0都能準(zhǔn)確響應(yīng),人物反應(yīng)真實(shí)自然,復(fù)雜動作的運(yùn)動也更合理,畫面表現(xiàn)更具張力。
除了新模型,可靈2.0還上線了全新的多模態(tài)視頻編輯功能,能靈活理解用戶意圖,支持對視頻內(nèi)容實(shí)現(xiàn)增、刪、改。
沒錯,Pika和Viggle AI支持的視頻角色替換、模特?fù)Q衣、局部編輯等功能,現(xiàn)在可靈AI也能實(shí)現(xiàn)了。
1.替換元素
比如前陣子流行的“回答我”AI換臉視頻,我們在可靈“多模態(tài)編輯”頁面上傳主播小明劍魔的視頻片段,框選要編輯的區(qū)域,再上傳要替換的角色圖片。
在創(chuàng)意描述中,可靈AI更新了一種交互方式,如下圖所示,原本難以描述清楚的需求,現(xiàn)在可靈結(jié)合圖像參考、視頻片段等信息,預(yù)設(shè)了提示詞框架,我們可以更直觀、更輕松地告訴AI要怎么編輯,這就是可靈AI新發(fā)布的交互理念MVL(Multi-modal Visual Language)。
MVL,一種更直觀的人和AI溝通的方式
等待幾分鐘,我們看到人物替換的效果相比Viggle AI更真實(shí),畫面質(zhì)量更高,甚至主播頭上“加我粉絲團(tuán)”的貼圖也完美還原了,下一步進(jìn)行對口型配音也可以在可靈AI完成。
不過人物動作還原一般,目前可編輯的視頻時長僅限5s,希望后續(xù)可以支持更長的視頻。
2.增加元素
在多模態(tài)編輯中,選擇“增加元素”,上傳需要的圖片后,在下方文本輸入框內(nèi),同樣按照官方給定的模版“基于@ 參考視頻中的內(nèi)容,將@ 圖片中的元素,融入到視頻里”,明確需要添加的元素和位置。
我們覺得上面案例中的巧克力蛋糕太寡淡,需要加點(diǎn)裝飾,把麥麥的標(biāo)志P上去呢?來看看效果:
另外,我們還可以通過用涂抹的方式,圈出畫面中的某個元素,一鍵刪除。不過,這里需要注意的是,一定要將這些關(guān)鍵幀覆蓋到整條時間軸,才能保證刪得徹底。
選區(qū)一定要保證覆蓋整個時間軸
可靈直接將蛋糕盤子秒變工地現(xiàn)場,甚至還為我多配置了幾位現(xiàn)場工人:
更多案例可以參考可靈AI官方發(fā)布的演示視頻——
60多種風(fēng)格化效果,
可圖2.0一鍵直出像素漫畫
除了視頻模型外,圖片模型可圖2.0表現(xiàn)也可圈可點(diǎn)。
據(jù)快手介紹,在團(tuán)隊內(nèi)部的多項(xiàng)勝負(fù)率評測中,相較于Midjourney V7、FLUX1.1 [pro]以及Reve等行業(yè)領(lǐng)先的圖像模型,可圖2.0均保持明顯優(yōu)勢,處于行業(yè)領(lǐng)先水平。
可圖2.0在指令遵循、電影質(zhì)感以及藝術(shù)風(fēng)格表現(xiàn)等方面顯著提升。比如我們讓可圖2.0生成了一組像素漫畫,這里使用的提示詞是:
三花貓從女生懷抱掙脫的連續(xù)動作,第二格加入“焦慮汗珠”表情符號,第三格腿部運(yùn)動模糊軌跡,第四格鍵盤壓按特寫與游戲失敗界面,低分辨率像素畫,Q版角色設(shè)計,日式游戲美術(shù)風(fēng)格
盡管AI將提示詞中的第3格和第4格內(nèi)容合并了,但2.0版本在語義理解、風(fēng)格轉(zhuǎn)繪上都有大幅提升。
可圖2.0(上)和1.5(下)版本有明顯差異
當(dāng)然,我們也可以讓它生成之前很火的3D模型:
同時,可圖2.0也上線了實(shí)用的圖像可控編輯功能——局部重繪和擴(kuò)圖。
使用局部重繪功能,我們可以將圖片中多余的元素刪除、替換、重繪:
生成圖片后,我們還可以點(diǎn)擊“生成視頻”,獲得動態(tài)3D模型,跑完圖生視頻整個工作流。
使用可圖2.0的擴(kuò)圖功能,我們可以隨意拖拽原圖位置,自由擴(kuò)展想要的圖片比例及尺寸,擴(kuò)展后的部分與原圖融合度較高。
在風(fēng)格化響應(yīng)上,可圖2.0還支持60多種風(fēng)格化的效果轉(zhuǎn)繪。無論是爆火的吉卜力風(fēng)格、毛絨玩具風(fēng)格,還是插畫風(fēng)格、3D卡通等等,可圖都可以實(shí)現(xiàn)。
初步實(shí)測來看,可靈2.0在模型技術(shù)和功能體驗(yàn)上都有不小的進(jìn)步,從圖片生成、視頻生成到配音對口型等內(nèi)容制作全流程都能覆蓋,是目前國內(nèi)創(chuàng)作者必備的AIGC產(chǎn)品。
不過最大的缺點(diǎn)可能是價格,目前2.0生成一條5秒鐘的視頻要100靈感值,黃金會員月費(fèi)58元可獲得660靈感值,只能生成6次,真是有點(diǎn)貴了。
在發(fā)布會現(xiàn)場,可靈AI超級創(chuàng)作者、《新世界加載中》總導(dǎo)演、異類Outliers創(chuàng)始人陳翔宇提到,可靈AI可全面融入劇集級創(chuàng)作流程,AIGC相較于實(shí)拍和動畫,不僅是效率的提升,更是試錯空間的革命性釋放。
他認(rèn)為AI不是代替創(chuàng)作者,而是幫助我們更好地表達(dá)。“AIGC并不是降級的內(nèi)容形態(tài),它也許是下一代內(nèi)容結(jié)構(gòu)的雛形?!?/span>
據(jù)快手?jǐn)?shù)據(jù),截至目前,可靈AI全球用戶規(guī)模突破2200萬,過去的10個月里,其月活用戶量增長25倍,累計生成超過1.68億個視頻及3.44億張圖片。
除了C端訂閱用戶,可靈AI也面向B端商家提供API接入等服務(wù)。目前,可靈AI已與包括小米、亞馬遜云科技、阿里云、Freepik、藍(lán)色光標(biāo)等在內(nèi)的數(shù)千家國內(nèi)外企業(yè)客戶建立了合作關(guān)系。
蓋坤披露,來自世界各地的超1.5萬開發(fā)者,已將可靈的API應(yīng)用于不同的行業(yè)場景中,累計生成的圖像數(shù)量約1200萬個,生成的視頻素材超過4000萬個。
未來快手可靈AI團(tuán)隊還將發(fā)布推理更快、價格更普惠的不同模型版本,“讓每個人都能用AI講出好故事”。
從創(chuàng)意到現(xiàn)實(shí),AI正在改變內(nèi)容創(chuàng)作的全鏈路,我們相信隨著技術(shù)的創(chuàng)新進(jìn)步,AI創(chuàng)作的門檻會變得更低,靈感成真只需片刻。
「AI新榜交流群」進(jìn)群方式:添加微信“banggebangmei”并備注姓名+職業(yè)/公司+進(jìn)群,歡迎玩家們來群里交流,一起探索見證AI的進(jìn)化。
歡迎分享、點(diǎn)贊、推薦 一起研究AI