亚洲av成人无码精品电影在线,无码专区人妻系列日韩精品,婷婷精品免费久久久久久久,69式视频www免费视频,无码人妻丰满熟妇区毛片18

登錄/注冊(cè)
掃描二維碼
手機(jī)瀏覽

OpenAI吃驚,美圖秀秀流淚!谷歌這個(gè)神器真能干翻PS?丨AI新榜實(shí)測(cè)

AI新榜
新榜獨(dú)家AIGC


作者 | 王萌 阿虎
編輯 | 張潔

潑天的流量終于輪到谷歌了!

這段時(shí)間,谷歌“一句話P圖”功能已經(jīng)被廣大網(wǎng)友玩瘋了。現(xiàn)在打開(kāi)社交平臺(tái),到處都是網(wǎng)友用Gemini跑出來(lái)的“神圖”。

比如,讓世界名畫秒變表情包:

圖片來(lái)源網(wǎng)絡(luò)

上班遲到怎么辦?別著急,跟老板說(shuō)正在通勤路上,有圖有真相:


還有網(wǎng)友“無(wú)中生友”,拿一張AI生圖就能應(yīng)付催婚:

你沒(méi)看錯(cuò),這些圖都是Gemini親自下場(chǎng)P的


不僅如此,Gemini 2.0 Flash還有最強(qiáng)搭檔,它可以和Three.js聯(lián)合生成3D模型:



也有網(wǎng)友將它和Sora聯(lián)動(dòng),生成了一組商業(yè)廣告:


更夸張的是,現(xiàn)在拍攝證件照不需要PS了,也不用去線下門店,直接靠AI:


最近,谷歌擴(kuò)大了Gemini 2.0 Flash模型圖像功能的訪問(wèn)權(quán)限,開(kāi)發(fā)者可以通過(guò)Google AI Studio和Gemini API免費(fèi)體驗(yàn)。體驗(yàn)地址:
https://aistudio.google.com/prompts/new_chat?model=gemini-2.0-flash-exp。)


據(jù)了解,Gemini 2.0 Flash可以結(jié)合多模態(tài)輸入,增強(qiáng)推理能力和自然語(yǔ)言理解,并生成圖像。這意味著,現(xiàn)在我們只需要一句話,就可以完成復(fù)雜的圖像編輯,這在以前可是需要PS、Canva才能實(shí)現(xiàn)。

谷歌Gemini 2.0 Flash究竟有多火爆?這一功能上線幾天后,連馬斯克都慌了,緊急更新了Grok 3的圖像編輯功能。


從上周開(kāi)始,谷歌頻繁更新了Gemini的相關(guān)功能,連深度推理模型Gemini 2.0 pro thinking也已經(jīng)“蓄勢(shì)待發(fā)”。



一年前,谷歌在I/O大會(huì)上預(yù)告的畫布、實(shí)時(shí)視頻對(duì)話、圖片編輯等新功能,均在這兩周內(nèi)逐一兌現(xiàn),引發(fā)了一波又一波的討論。這一次,谷歌能靠Gemini成功“逆襲”嗎?這幾天我們集中地試了試。



Gemini靠“言出法隨”爆火,
實(shí)測(cè)效果如何?


目前,Gemini 2.0 Flash可以在Google AI Studio中免費(fèi)體驗(yàn)(需要魔法,地址美國(guó)),用戶只要在首頁(yè)右側(cè)選擇框中,將模型切換到Gemini 2.0 Flash Experimantal就可以直接開(kāi)始對(duì)話了。


無(wú)論你是想修改原圖細(xì)節(jié),還是想“無(wú)中生有”生成超現(xiàn)實(shí)場(chǎng)景,都可以讓Gemini實(shí)現(xiàn)。比如,我想讓這張圖“煙花在空中綻放”,只要直接給提示詞就可以完成:


我們?cè)僭黾右稽c(diǎn)難度,讓它給漫畫線稿上色,Gemini也靠想象力完成了:


還有網(wǎng)友測(cè)試下來(lái),Gemini能夠生成連續(xù)的電影分鏡,同時(shí)保持畫面內(nèi)容的一致性,我也來(lái)試了試:


可以看到,Gemini不僅生成了圖片,還配上了每個(gè)場(chǎng)景的描述內(nèi)容,對(duì)它來(lái)說(shuō),畫連環(huán)畫不成問(wèn)題。盡管狐貍的耳朵部分有輕微瑕疵,但圖片中的尼克和朱迪的一致性維持得還不錯(cuò),整體在可接受范圍內(nèi)。


除了可以改動(dòng)局部細(xì)節(jié)、生成連續(xù)分鏡之外,還可以讓Gemini改動(dòng)圖片的視角。這個(gè)功能對(duì)于設(shè)計(jì)師、電商從業(yè)者來(lái)說(shuō)非常實(shí)用,可以直接生成不同視角的產(chǎn)品圖。

比如,我想讓Gemini生成一個(gè)小狗的“后視圖”,看看能不能解決AI以前無(wú)法解決的“大象轉(zhuǎn)身”問(wèn)題。



這一環(huán)節(jié),Gemini也不是次次成功。


實(shí)測(cè)下來(lái)我發(fā)現(xiàn),與其說(shuō)一些特定的鏡頭語(yǔ)言、A提示詞專業(yè)術(shù)語(yǔ),不如直接用白話表示,生圖的效果會(huì)更好。


舉個(gè)例子,我需要給這個(gè)胡蘿卜上色,可能是因?yàn)橄薅颂鄺l件,Gemini直接生成了一個(gè)全新的物件:



但如果直接說(shuō)“給胡蘿卜上色”,出來(lái)的效果就是這樣的:



雖然還是略有不同,但至少不是毫不相關(guān)了,重要的特征都被抓住了。
我們?cè)賮?lái)試試Gemini對(duì)于超現(xiàn)實(shí)以及復(fù)雜場(chǎng)景的構(gòu)建和想象能力,比如讓它生成“城市巨物”,這也是之前AI圈很流行的一種生圖玩法。


提示詞:場(chǎng)景是上海,在上海最高的樓上趴著一只巨型的純灰色藍(lán)貓,貓的身軀大得幾乎跟大樓一樣寬。圖片呈現(xiàn)巨物感,超現(xiàn)實(shí)感和神秘感



我還可以更進(jìn)一步,將圖片中的貓換成狗:


以上玩法僅僅使用了Gemini單一模型,還可以將Gemini和其他AI工具結(jié)合,讓最終的生成效果更好。

比如,我讓它和混元3D聯(lián)動(dòng),先用Gemini生成了一張經(jīng)典梗圖,并讓它細(xì)化各個(gè)字母的3D細(xì)節(jié),再用混元生成了英文字的模型:



要知道,這個(gè)文字我直接用AI 3D模型Tripo跑了幾十次都沒(méi)有滿意的效果。

Gemini 2.0 Flash還有很多待挖掘的新玩法,比如可以移除圖片水印、智能重建空白區(qū)域等等,這些功能讓不少網(wǎng)友直呼:“PS的末日來(lái)了。



Gemini越來(lái)越清晰的未來(lái):

更具通用性的個(gè)人助手

當(dāng)然,原生多模態(tài)的Gemini 2.0 Flash并不只有“用嘴P圖”一種玩法,3月初至今,還有不少陸續(xù)更新的小功能也值得一試。

如Deep Research、Personalization、Gems、Canvas,還有最新出現(xiàn)的Gemini Live屏幕內(nèi)外多模態(tài)識(shí)別,幾乎是從多個(gè)方面全方位為我們展示了谷歌如何一步一步將Gemini打造為通用個(gè)人助手。

這其中的任何一項(xiàng),如果放在OpenAI可能都要開(kāi)一場(chǎng)20分鐘的發(fā)布會(huì)了。

Deep Research

Deep Research實(shí)際上并不是一個(gè)新功能,最早也是由谷歌率先發(fā)布。但因當(dāng)時(shí)Gemini 1.5 Pro表現(xiàn)遜色,很快被OpenAI搶走熱度。

如今基于Gemini 2.0 Flash Thinking的Deep Research在整體實(shí)力上有了明顯提升。Gemini不僅能完整呈現(xiàn)整個(gè)研究過(guò)程,而且每個(gè)引用參考網(wǎng)頁(yè)都可點(diǎn)擊直達(dá),這一細(xì)節(jié)對(duì)核準(zhǔn)信息非常有幫助。


最后生成的結(jié)果還能直接一鍵生成Audio Overview,也就是谷歌在3月19日更新的AI文本轉(zhuǎn)播客功能,能把文檔、論文改編成日常對(duì)話,提高理解效率。


最后生成的播客音頻大伙來(lái)感受一下,語(yǔ)音、語(yǔ)氣、各種重音和停頓,都與真人對(duì)話非常接近,可惜目前只支持英文。


Canvas

人與AI協(xié)作已經(jīng)成為共識(shí),但具體怎么操作卻有很多種不同解法,谷歌Canvas可能是其中比較高效的一種。

它的主要呈現(xiàn)方式是增加了一個(gè)協(xié)作區(qū)域,用戶可以直接在結(jié)果上修改潤(rùn)色,如果是編程代碼可以在生成代碼后看到預(yù)覽并直接調(diào)試,還能一鍵導(dǎo)出到Google文檔方便多人協(xié)作。


不過(guò),最吸引我的還是一些小交互的設(shè)計(jì),例如直接劃字詢問(wèn)Gemini。右側(cè)三個(gè)選項(xiàng)分別是改變長(zhǎng)度、改變風(fēng)格和修改建議,每個(gè)大的選項(xiàng)中還提供了多個(gè)小選項(xiàng),例如在我們可以在“改變長(zhǎng)度”選擇“短”“超短”“長(zhǎng)”“超長(zhǎng)”。


Gems&Personality

除了這些功能以外,Gemini還有一個(gè)“Gems”功能,類似于很多國(guó)產(chǎn)AI廠商有的“智能體”廣場(chǎng)或ChatGPT的GPTs功能,也就是通過(guò)簡(jiǎn)單的預(yù)設(shè)定制AI小助手,給不同需求的用戶開(kāi)箱即用的多樣化AI應(yīng)用,還能自己創(chuàng)建Gems,而且完全支持中文。


別忘了谷歌本身作為全球最大的搜索引擎和信息聚合平臺(tái),還有大量應(yīng)用和信息生態(tài)優(yōu)勢(shì),“Personalization”功能就很好地利用上了這一點(diǎn)。

在關(guān)聯(lián)谷歌賬號(hào)后,Gemini可以根據(jù)你過(guò)往的搜索記錄提供個(gè)性化的回答,據(jù)說(shuō)搜的越多答得越準(zhǔn)。


屏幕識(shí)別和實(shí)時(shí)視頻識(shí)別

3月22日,Reddit網(wǎng)友“Bard”展示了激活Gemini懸浮窗后,手機(jī)端Gemini已經(jīng)上線了一個(gè)全新的按鈕“與Live共享屏幕”。


他還展示了具體使用案例,視頻中顯示Gemini可以獲取實(shí)時(shí)信息、根據(jù)手機(jī)屏幕信息給出快速回答。


3月23日,YouTube網(wǎng)友“Mike Stevens”也發(fā)視頻表示,自己的Gemini已經(jīng)實(shí)裝屏幕識(shí)別功能。

就實(shí)際展示結(jié)果而言,最終效果與國(guó)內(nèi)很多品牌的手機(jī)助手非常相似。但不同之處在于,很多國(guó)內(nèi)手機(jī)品牌的內(nèi)置助手在調(diào)出后只能識(shí)別當(dāng)前頁(yè)面的內(nèi)容,Gemini則允許用戶一邊操作手機(jī)一邊與助手交流,給出實(shí)時(shí)交流的結(jié)果。


不只是屏幕內(nèi)的圖像識(shí)別,近期官方還在YouTube上放出了一段視頻,展示了Gemini使用攝像頭拍攝周圍環(huán)境并實(shí)時(shí)響應(yīng)的功能。

視頻中Gemini能實(shí)時(shí)分析手機(jī)攝像頭捕捉到的畫面,并回答用戶提出的問(wèn)題。例如用戶拿不定該用哪種顏色,Gemini能快速識(shí)別并給出建議。

關(guān)注谷歌的朋友可能看得出來(lái),這與2024年3月谷歌I/O大會(huì)上展示的視頻非常相似,當(dāng)時(shí)谷歌對(duì)這款名為Project Astra的智能助手是這樣定義的:

這是一個(gè)實(shí)時(shí)、多模態(tài)的人工智能助手,它可以看見(jiàn)世界,知道事物是什么以及你把它們放在哪里,并且可以回答問(wèn)題或幫助你做幾乎所有事情。


顯然,從用戶反饋來(lái)看,如今的呈現(xiàn)狀態(tài)已經(jīng)非常接近當(dāng)初設(shè)想的Project Astra。盡管只是將去年展示的產(chǎn)品實(shí)裝,但是比起隔壁深陷AI Siri難產(chǎn)、Apple智能虛假宣傳風(fēng)波的蘋果而言,“言而有信”已是最大的優(yōu)點(diǎn)。

不過(guò),谷歌給我們的驚喜還不止這些。就在3月23日,X網(wǎng)友發(fā)現(xiàn)了一個(gè)泄露的大模型Nebula,通過(guò)詢問(wèn)和分析API,發(fā)現(xiàn)這可能是谷歌還未發(fā)布的“Gemini 2.0 Pro Thinking”。


雖然后來(lái)該模型迅速下線,但從網(wǎng)絡(luò)上保留的信息和網(wǎng)友測(cè)試來(lái)看,它的能力已經(jīng)超過(guò)了o1、o3mini、Claude3.7 Thinking等模型,也許在谷歌這里,還有更多驚喜在等著我們。


     

AI新榜交流群」進(jìn)群方式:添加微信“banggebangmei”并備注姓名+職業(yè)/公司+進(jìn)群,歡迎玩家們來(lái)群里交流,一起探索見(jiàn)證AI的進(jìn)化。

      
歡迎分享、點(diǎn)贊、在看
 一起研究AI

分享文章鏈接