<p class="ql-block ql-indent-1">我們幾乎每個(gè)人都會(huì)說(shuō)話,但是只有極少數(shù)的一部分人會(huì)畫(huà)畫(huà)。說(shuō)話是一種普遍的交流方式,但是繪畫(huà)是一種具有挑戰(zhàn)性和獨(dú)特性的藝術(shù)形式,需要不斷的探索和發(fā)展。許多人從小就開(kāi)始接受美術(shù)訓(xùn)練,不斷努力和磨練,一般需要8到10年甚至更長(zhǎng)時(shí)間,才能達(dá)到比較高的水平,能被大家稱為畫(huà)師。因?yàn)殡y度較大,所以一般找畫(huà)師給你畫(huà)畫(huà)是一件昂貴的事情,不是一般人隨便就能享受的。</p> <p class="ql-block ql-indent-1">以前,只有在科幻作家的故事里,會(huì)想象也許有一天,只要你會(huì)說(shuō)話,就能夠創(chuàng)造出一幅畫(huà)。用語(yǔ)言畫(huà)畫(huà)這件事聽(tīng)起來(lái)就像霍格沃茲的魔法,但是如今,它卻已經(jīng)通過(guò)AI變成了現(xiàn)實(shí)。下面我們就對(duì)AI作畫(huà)的歷史進(jìn)行一個(gè)梳理和回顧。</p> <p class="ql-block" style="text-align:center;"><span style="color:rgb(22, 126, 251);">2012年,嘿我們用AI來(lái)畫(huà)貓吧</span></p><p class="ql-block ql-indent-1">AI繪畫(huà)發(fā)展得挺早,但那時(shí)AI生成繪畫(huà)是一個(gè)特別小眾的領(lǐng)域。早在 2012 年全球人工智能和機(jī)器學(xué)習(xí)權(quán)威、華人科學(xué)家吳恩達(dá)帶領(lǐng)團(tuán)隊(duì),耗資100萬(wàn)美元,集結(jié)1000臺(tái)電腦、16000個(gè)CPU的資源訓(xùn)練了一個(gè)當(dāng)時(shí)世界上最大的深度學(xué)習(xí)網(wǎng)絡(luò), 用來(lái)指導(dǎo)計(jì)算機(jī)畫(huà)出貓臉圖片。經(jīng)過(guò)整整3天訓(xùn)練, 畫(huà)出來(lái)了一張模糊的貓貓頭:</p> <p class="ql-block">雖然基本很難看出這是一張貓臉,且價(jià)格昂貴,根本沒(méi)有商用的機(jī)會(huì),但這是AI繪畫(huà)的起點(diǎn),意義重大。2012年,我愿稱之為AI繪畫(huà)起源之年。</p><p class="ql-block" style="text-align:center;"><span style="color:rgb(22, 126, 251);">2015年,迷幻和超現(xiàn)實(shí)</span></p><p class="ql-block">谷歌在2015年開(kāi)源了deep dream項(xiàng)目,可以用它畫(huà)出非常迷幻和超現(xiàn)實(shí)的圖畫(huà),生成痕跡非常明顯,但看起來(lái)已經(jīng)比上面的貓臉像那么回事了,不是嗎?這種畫(huà)作,看起來(lái)并不比直接在照片上加濾鏡來(lái)得高明,也不是大家想象中的,人來(lái)輸出口令,AI來(lái)產(chǎn)生跟指令相關(guān)的繪畫(huà)。</p> <p class="ql-block" style="text-align:center;"><span style="color:rgb(22, 126, 251);">2015年,走入Gan的彎路</span></p><p class="ql-block ql-indent-1">人們對(duì)于AI繪畫(huà)的探索沒(méi)有停止,其實(shí)比谷歌在2015年推出的deep dream項(xiàng)目還要早一年,加拿大蒙特利爾大學(xué)的Ian Goodfellow于2014年提出了生成對(duì)抗網(wǎng)絡(luò)GAN的算法,這個(gè)算法一度成為了AI生成繪畫(huà)的主流方向。</p><p class="ql-block ql-indent-1">GAN的原理是通過(guò)訓(xùn)練兩個(gè)深度神經(jīng)網(wǎng)絡(luò)模型,一個(gè)生成器(Generator)和一個(gè)判別器(Discriminator),使得生成器可以生成與真實(shí)數(shù)據(jù)相似的新數(shù)據(jù)樣本,并且判別器可以準(zhǔn)確地區(qū)分生成器生成的假樣本和真實(shí)數(shù)據(jù)。在訓(xùn)練過(guò)程中,生成器不斷嘗試生成更加逼真的樣本,而判別器則不斷提高自己對(duì)真實(shí)樣本和生成樣本的區(qū)分能力。這兩個(gè)模型相互對(duì)抗、相互協(xié)作,最終實(shí)現(xiàn)了高質(zhì)量的數(shù)據(jù)生成效果。</p> <p class="ql-block ql-indent-1">用GAN模型已經(jīng)可以生成比較高質(zhì)量的圖片了,但用它來(lái)生成也會(huì)有些問(wèn)題:</p><p class="ql-block ql-indent-1">①對(duì)抗學(xué)習(xí)非常麻煩,且對(duì)于顯卡等資源消耗較高,之前我自己在跑生成對(duì)抗網(wǎng)絡(luò)時(shí),電腦經(jīng)常直接黑屏。</p><p class="ql-block ql-indent-1">②生成對(duì)抗網(wǎng)絡(luò)很難理解圖片各個(gè)部分是啥,所以它很難做到局部重新繪制,也就是很難進(jìn)行修改。</p><p class="ql-block ql-indent-1">雖然有各種各樣的問(wèn)題,但是研究人員還是在GAN算法的這條路不斷前進(jìn),生成的圖片效果不斷提升,下圖即為某GAN模型生成的二次元妹紙頭像</p> <p class="ql-block" style="text-align:center;"><span style="color:rgb(22, 126, 251);">2015年,圖像識(shí)別反向用于文字畫(huà)畫(huà)</span></p><p class="ql-block ql-indent-1">又是在2015年,一項(xiàng)人工智能的重大進(jìn)展誕生——智能圖像識(shí)別,可以通過(guò)算法識(shí)別并標(biāo)記圖像中的對(duì)象,然后他們還學(xué)會(huì)了將這些標(biāo)簽放入自然語(yǔ)言描述中去。這項(xiàng)重大進(jìn)展目前已經(jīng)進(jìn)入各種領(lǐng)域得到了應(yīng)用,比如現(xiàn)在的各種智能門(mén)禁,已經(jīng)讓很多保安下崗了。但這個(gè)技術(shù)產(chǎn)生的價(jià)值并不只是這個(gè),一些研究人員產(chǎn)生了好奇,如果把這個(gè)過(guò)程反向,通過(guò)文字來(lái)生成畫(huà)面,是否也能實(shí)現(xiàn)呢?</p><p class="ql-block ql-indent-1">于是他們向計(jì)算機(jī)模型輸入了一些文字,看看能產(chǎn)生什么效果,結(jié)果模型真的生成了一些結(jié)果圖片。如下圖中所示,這是一些32X32像素的小圖片,基本很難辨別出啥,但已經(jīng)預(yù)示著無(wú)限的可能性。2015年,我愿稱之為AI繪畫(huà)的重要拐點(diǎn)之年。</p> <p class="ql-block" style="text-align:center;"><span style="color:rgb(22, 126, 251);">2021年,重新出發(fā)</span></p><p class="ql-block ql-indent-1">人們對(duì)AI繪畫(huà)的探索,在生成對(duì)抗網(wǎng)絡(luò)GAN的技術(shù)路線上繼續(xù)進(jìn)步,雖然也取得了一些成績(jī),但是距離人們想像的通過(guò)描述詞直接生成繪畫(huà)作品還有比較大的距離。研究人員把眼光開(kāi)始移到其他可能的方向,一個(gè)在2016年就被提出的模型Diffusion Models開(kāi)始受到更廣泛的關(guān)注。它的原理跟GAN完全不一樣,使用隨機(jī)擴(kuò)散過(guò)程來(lái)生成圖像,從而避免了傳統(tǒng)生成模型中存在的一些問(wèn)題。</p> <p class="ql-block ql-indent-1">Diffusion Models的原理簡(jiǎn)單來(lái)說(shuō),先通過(guò)對(duì)照片添加噪聲,然后在這個(gè)過(guò)程中學(xué)習(xí)到當(dāng)前圖片的各種特征。之后再隨機(jī)生成一個(gè)服從高斯分布的噪聲圖片,然后一步一步的減少噪聲直到生成預(yù)期圖片。很快,基于Diffusion Models模型的圖片生成成為主流。</p><p class="ql-block ql-indent-1">終于來(lái)到了2021年,這一年,一家叫OpenAI的人工智能公司(他們更為有名的人工智能產(chǎn)品叫ChatGPT)宣布了DALL·E,他們聲稱這個(gè)模型可以從任何文字中創(chuàng)建高質(zhì)量圖像,它所使用的技術(shù)即為Diffusion Models。OpenAI于2022年發(fā)布了更為強(qiáng)大的DALL·E 2,現(xiàn)在已經(jīng)免費(fèi)開(kāi)放了。但是OpenAI一直都沒(méi)有公開(kāi)DALL·E的算法和模型。</p> <p class="ql-block" style="text-align:center;"><span style="color:rgb(22, 126, 251);">2022年2月 Disco diffusion V5發(fā)布</span></p><p class="ql-block ql-indent-1">在2022年的2月,由somnai等幾個(gè)開(kāi)源社區(qū)的工程師做了一款基于擴(kuò)散模型的AI繪圖生成器——Disco diffusion。從它開(kāi)始,AI繪畫(huà)進(jìn)入了發(fā)展的快車道,潘多拉魔盒已經(jīng)打開(kāi)。Disco diffusion相比傳統(tǒng)的AI模型更加易用,且研究人員建立了完善的幫助文檔和社群,越來(lái)越多的人開(kāi)始關(guān)注它。</p> <p class="ql-block ql-indent-1">越來(lái)越多的人開(kāi)始使用Disco diffusion創(chuàng)作作品,但是它有一個(gè)致命的缺點(diǎn)就是它生成的畫(huà)面都十分的抽象,這些畫(huà)面用來(lái)生成抽象畫(huà)還不錯(cuò),但是幾乎無(wú)法生成具象的人。</p> <p class="ql-block ql-indent-1">正當(dāng)大家嘲笑AI繪畫(huà)不過(guò)如此時(shí),僅僅幾個(gè)月后,Disco diffusion已經(jīng)能畫(huà)出非常像人的作品了,雖然你可能還是覺(jué)得這個(gè)畫(huà)作很業(yè)余,很難超越一些人類畫(huà)師的作品。那么,就讓子彈再飛一會(huì)兒。</p> <p class="ql-block" style="text-align:center;"><span style="color:rgb(22, 126, 251);">3月 Midjouney</span></p><p class="ql-block">3月份,一款由Disco diffusion的核心開(kāi)發(fā)參與建設(shè)的AI生成器Midjouney正式發(fā)布。Midjouney選擇搭載在discord平臺(tái),借助discord聊天式的人機(jī)交互方式,不需要之前繁瑣的操作,也沒(méi)有Disco diffusion十分復(fù)雜的參數(shù)調(diào)節(jié),你只需要向聊天窗口輸入文字就可以生成圖像。更關(guān)鍵的是,Midjouney生成的圖片效果非常驚艷,普通人幾乎已經(jīng)很難分辨出它產(chǎn)生的作品,竟然是AI繪畫(huà)生成的。</p> <p class="ql-block ql-indent-1">Midjouney發(fā)布5個(gè)月后,美國(guó)科羅拉多州博覽會(huì)的藝術(shù)比賽評(píng)選結(jié)果出爐,一張名為《太空歌劇院》的畫(huà)作獲得了第一名,而它正是作者通過(guò)MidJourney生成的作品。參賽者公布這是一張AI繪畫(huà)作品時(shí),引發(fā)了很多人類畫(huà)師的憤怒和焦慮。</p> <p class="ql-block" style="text-align:center;"><span style="color:rgb(22, 126, 251);">4月 DALL·E 2</span></p><p class="ql-block ql-indent-1">4月10日,之前提到過(guò)的OpenAI的DALL·E 2發(fā)布了。無(wú)論是Disco diffusion還是MidJourney,仔細(xì)品一下,我們還是可以看出是AI生成的,但DALL·E 2的生成圖你已經(jīng)無(wú)法跟人類的作品做區(qū)分了。用DALL·E 2生成圖片的質(zhì)量已經(jīng)高到離譜,如下圖:</p> <p class="ql-block ql-indent-1">它還可以直接生成非常有質(zhì)感的3D圖像,3D設(shè)計(jì)師可能也快面臨失業(yè)了。</p> <p class="ql-block ql-indent-1">可以說(shuō)DALL·E 2已經(jīng)是大家心目中的AI繪畫(huà)完全體了,但它到目前為止還是沒(méi)有開(kāi)源,且需要付費(fèi)才能夠使用,而且用它生成圖片的限制很多,比如死亡,色情,人臉,暴力,公眾的人物等都是禁止在DALL·E 2上生成的。最大的可能還是有各種各樣的法務(wù)風(fēng)險(xiǎn),DALL·E 2確實(shí)能力太強(qiáng)了,不法分子可以用它來(lái)生成各種各樣的假圖。</p><p class="ql-block ql-indent-1">有意思的是,在DALL·E 2剛發(fā)布的時(shí)候就有網(wǎng)友發(fā)起投票,問(wèn)DALL·E 2可以保持自己是AI繪畫(huà)最先進(jìn)技術(shù)多久時(shí)間?大多數(shù)人選了幾個(gè)月或1年以上。但很不幸,子彈飛的速度比想象中的快很多。</p> <p class="ql-block" style="text-align:center;"><span style="color:rgb(22, 126, 251);">7月 Stable diffusion</span></p><p class="ql-block ql-indent-1">7月29日 一款叫Stable diffusion的AI生成器開(kāi)始內(nèi)測(cè),人們發(fā)現(xiàn)用它生成的AI繪畫(huà)作品,其質(zhì)量可以媲美DALL·E 2,而且還沒(méi)那么多限制。Stable diffusion共分4波邀請(qǐng)了 15000 名用戶參與了內(nèi)測(cè),僅僅十天后,每天就有一千七百萬(wàn)張圖片通過(guò)它生成。最關(guān)鍵的是,Stable diffusion的開(kāi)發(fā)公司Stability AI崇尚開(kāi)源,他們的宗旨是“AI by the people,for the people”(人工智能來(lái)自于人,服務(wù)于人)。</p> <p class="ql-block">Stable diffusion內(nèi)測(cè)不到1個(gè)月,正式宣布開(kāi)源,這意味著所有人都能在本地部署自己的AI繪畫(huà)生成器, 真正實(shí)現(xiàn)每個(gè)人“只要你會(huì)說(shuō)話,就能夠創(chuàng)造出一幅畫(huà)”。</p> <p class="ql-block ql-indent-1">Stable diffusion的開(kāi)源決定,讓它迅速成為大家關(guān)注的焦點(diǎn),人們將它跟各種各樣的工具結(jié)合,比如有人將Stable diffusion的繪圖能力做成了PS插件,你只需要畫(huà)個(gè)草圖,之后就能直接生成設(shè)計(jì)稿。這也正是adobe緊急推出年費(fèi)888的Photoshop(beta)的原因,很顯然,就連這位縱橫平面圖形圖像領(lǐng)域數(shù)十年未嘗一敗的頂級(jí)大佬,面對(duì)橫空出世的Stable diffusion內(nèi)心也是慌得一批。</p> <p class="ql-block ql-indent-1"><span style="color:rgb(255, 138, 0);">注:以上內(nèi)容轉(zhuǎn)載自百度百家號(hào),本人在原文基礎(chǔ)上做了部分修改。</span></p><p class="ql-block ql-indent-1"><span style="color:rgb(255, 138, 0);">原作者:生產(chǎn)者Glen</span></p><p class="ql-block ql-indent-1"><a href="https://baijiahao.baidu.com/s?id=1760134473458673555&wfr=spider&for=pc&searchword=ai%E7%BB%98%E7%94%BB%E5%8F%91%E5%B1%95%E5%8F%B2" target="_blank" style="background-color:rgb(255, 255, 255); font-size:18px;">原文鏈接</a></p><p class="ql-block ql-indent-1"><span style="background-color:rgb(255, 255, 255); font-size:18px;">今年,以chatGPT、stable diffusion為代表的生成式AI的崛起,不但正式掀起了第四次工業(yè)革命的浪潮,其取代創(chuàng)意性和腦力勞動(dòng)的特性注定將對(duì)所有人的生產(chǎn)生活方式產(chǎn)生史無(wú)前例的巨大影響,</span>尤瓦爾<span style="background-color:rgb(255, 255, 255); font-size:18px;">在《人類簡(jiǎn)史》中預(yù)言的“無(wú)用階層”不但已經(jīng)誕生,而且這個(gè)群體的規(guī)模正在AI的加持下飛速擴(kuò)大。</span></p><p class="ql-block ql-indent-1"><span style="background-color:rgb(255, 255, 255); font-size:18px;">奇點(diǎn)已至。</span></p> <p class="ql-block ql-indent-1">這一次,人類真正站在了命運(yùn)的十字路口。未來(lái)將何去何從,誰(shuí)也說(shuō)不清楚。但毫無(wú)疑問(wèn),一個(gè)全新的時(shí)代已經(jīng)悄然降臨。對(duì)于AIGC的影響,我們中的大多數(shù)人在萬(wàn)里長(zhǎng)城的保護(hù)下可能只感受到了一點(diǎn)皮毛,但這只是暫時(shí)的,事實(shí)上這場(chǎng)技術(shù)革命也才剛剛拉開(kāi)序幕,相信要不了多久,所有人都會(huì)意識(shí)到這個(gè)世界發(fā)生了怎樣的變化。</p><p class="ql-block ql-indent-1">而眼下唯一能做的,就是盡可能去了解AI,學(xué)習(xí)AI,為應(yīng)對(duì)未來(lái)的無(wú)限可能做好準(zhǔn)備。</p>