OpenAI正式發(fā)布Sora,一文看懂它的文生視頻功能到底強(qiáng)在哪?
來源:
極客公園
日期:2024-12-10
責(zé)編:
殷緒江
12月10日,Sam Atman和幾位OpenAI內(nèi)部員工通過直播,展示了Sora的功能和實(shí)際用例。繼今年2月釋出視頻樣片后,Sora引發(fā)了全球人工智能界熱潮,此后國內(nèi)外人工智能公司紛紛推出文生視頻產(chǎn)品。而作為這一賽道的開創(chuàng)者,今天Sora終于揭開了神秘面紗。整體來說,Sora展示的一系列產(chǎn)品功能,表明其在視頻生成的質(zhì)量、功能的獨(dú)創(chuàng)性、技術(shù)的復(fù)雜度等方面,超出了目前的文生視頻產(chǎn)品。
在文、圖生視頻的基礎(chǔ)功能之上,它加入了故事板(相當(dāng)于通過分鏡創(chuàng)作自己的故事)、用文本調(diào)整原視頻、不同場景視頻的融合等功能(相當(dāng)于給視頻直接加特效),整個產(chǎn)品功能設(shè)計(jì)似乎都在讓視頻更接近創(chuàng)作者的自我表達(dá)、幫助他們完成一個理想的鏡頭故事。
當(dāng)?shù)貢r間12月9日晚些時候,美國、以及大多數(shù)其他國家的用戶,可以訪問官網(wǎng)體驗(yàn)Sora。它被包含在ChatGPT Plus、ChatGPT Pro的會員訂閱中,無需額外付費(fèi)。其中,Plus能生成最多50個高級視頻、視頻分辨率最高達(dá)720p、時長為5秒,而Pro則能生成最多500個高級視頻、分辨率高達(dá)1080p、時長為20秒、還能去水印。
Sam Altman介紹做Sora有三大原因:
一是從工具性角度,OpenAI喜歡為創(chuàng)意人員制作工具,這對公司的文化很重要;
二是從用戶交互角度,人工智能系統(tǒng)不能只通過文本交互,也應(yīng)該理解并生成視頻,幫助人類使用人工智能。這類似于國內(nèi)大模型公司談到的,「模型每擴(kuò)展一次模態(tài),用戶滲透率就會上升。」
三則是從技術(shù)角度,這對OpenAI的AGI路線圖至關(guān)重要,人工智能應(yīng)該學(xué)到更多關(guān)于世界的規(guī)律,這正是所謂理解物理規(guī)律的「世界模型」。既要用技術(shù)改變世界,也要用產(chǎn)品促進(jìn)人類創(chuàng)造,這就是Sora在做的事情。
生成視頻之外,還能分鏡、加特效、無限創(chuàng)作
打開主界面,用戶可以查看和管理所有的視頻生成內(nèi)容,并且切換網(wǎng)格視圖、列表視圖,以及創(chuàng)建文件夾和收藏夾,查看書簽等。研究人員稱這個主界面設(shè)計(jì),是為了更好地幫助用戶創(chuàng)作故事。在主頁面的中間底部,是Sora的文生視頻、圖生視頻功能。比如,Sam Altman先給到文字輸入,「長毛猛犸象在沙漠中行走,廣角鏡頭拍攝」。接著,需要選擇視頻的畫面比、分辨率、時長(5-20秒)、以及最終生成的視頻數(shù)量(最多可生成四段以供挑選)等,才能獲得生成的視頻。
最終,可以看到生成的視頻效果非常真實(shí)、有質(zhì)感,且基本遵照了輸入的指令。對于Sora視頻生成效果的出色表現(xiàn),或許人們是不意外的。但此次,Sora還發(fā)布了一系列獨(dú)有的、進(jìn)階的的產(chǎn)品功能。在極客公園看來,這些功能基本圍繞視頻的更準(zhǔn)確表達(dá),也就是通過分鏡、加特效等等方式,讓人們能通過視頻創(chuàng)作出一個自己想要的故事。
首先是故事板(storyboard),它被研究人員稱為是一種「全新的創(chuàng)意工具」。從產(chǎn)品設(shè)計(jì)上看,它相當(dāng)于按時間軸的方式,把一段故事(視頻)切成了多個不同的故事卡(視頻幀)。用戶只需要設(shè)計(jì)和調(diào)整每張故事卡(視頻幀),Sora會自動把它們補(bǔ)成一段流暢的故事(視頻)——這很像電影里的分鏡、動畫的手稿,當(dāng)導(dǎo)演畫好分鏡、一個片子就拍出來了,一個漫畫師寫好手稿、一個動畫就設(shè)計(jì)出來了。比如研究人員設(shè)想的第一個分鏡是,「美麗的白鶴站在小溪中,擁有一條黃色的尾巴?!沟诙€分鏡是,「鶴將頭探入水中,并捉出一條魚」。那他做的工作就是,分別創(chuàng)建這兩張故事卡(視頻幀),并在兩者之間設(shè)大概五秒鐘的間隔。這個間隔對Sora很重要,給了它把兩組動作連起來的發(fā)揮空間。
最終,他得到了一個完整的視頻鏡頭,「美麗的白鶴站在小溪中,它擁有一條黃色的尾巴。接著鶴將頭探入水中,并捉出一條魚?!垢鼮槠婷畹氖?,在這個故事板上,創(chuàng)作要素不只是故事卡,也可以是直接的圖片、視頻。也就是說,可以將任意的圖片、視頻拉到故事板上,結(jié)合故事卡,對它進(jìn)行創(chuàng)作。以視頻為例,研究人員將上述白鶴的視頻切下來導(dǎo)入故事板,進(jìn)行了剪切,這就給視頻的前方和后方留出了繼續(xù)創(chuàng)作的間隙,也就是說可以有新的開頭和結(jié)尾。
這帶來的想象是,故事板可以無限的創(chuàng)作下去。也就是說Sora生成的20秒視頻,可以被不斷地創(chuàng)造、剪切、創(chuàng)造……直至完全達(dá)到心目中理想的鏡頭。這個過程就像一個剪輯師、導(dǎo)演,通過對分鏡設(shè)計(jì)和鏡頭素材的不斷生成剪輯,慢慢剪出自己心中的片子。和真實(shí)世界中不同,Sora提供的素材是無限的。而和其他的文生視頻產(chǎn)品不同,Sora的視頻是可以修改加工的。這使得它生成的視頻一定會更符合用戶心中的想象、創(chuàng)意。這似乎正是Sora此次產(chǎn)品的核心思路:盡最大可能地,讓生成的視頻符合用戶心中想要的創(chuàng)意。這樣可以更好理解Sora的其他功能,比如可以通過文字直接修改視頻、可以無縫融合兩段不同的視頻、可以給視頻改變畫風(fēng)等,這相當(dāng)于是直接給視頻加「特效」了。而一般的文生視頻產(chǎn)品,可能需要不斷地調(diào)整prompt(提示詞)、不斷重新生成視頻。
總的來說,Sora除了在生成視頻上不出意料的出色表現(xiàn)之外,它還帶來了更獨(dú)有的視頻創(chuàng)作產(chǎn)品功能,相當(dāng)于給視頻加分鏡、剪輯、特效。這意味著,每個人都有機(jī)會創(chuàng)作出自己真正想要的表達(dá),離當(dāng)一個導(dǎo)演也更近了?!溉绻銕е谕M(jìn)入Sora,認(rèn)為你只需要點(diǎn)擊一個按鈕就可以生成一部電影,那么我認(rèn)為你的期望是錯誤的?!筄penAI研究人員說道。他表示,Sora是一種工具,允許人們同時在多個地方、嘗試多個想法,嘗試以前完全不可能的事情,「實(shí)際上我們認(rèn)為這是創(chuàng)作者的超級特殊延伸?!?br />
服務(wù)大眾還不單獨(dú)收費(fèi),還是靠底層模型的能力
作為文生視頻賽道的開創(chuàng)者,Sora的推出時間算是最晚的。對此,OpenAI研究團(tuán)隊(duì)表示,為了對Sora進(jìn)行廣泛的部署,需要找到讓模型更快、更便宜的辦法。為此,研究團(tuán)隊(duì)做了大量的工作。在直播中,OpenAI宣布推出Sora turbo,這是原始Sora模型的新高端加速版本。它具有今年早些時候OpenAI在「世界模擬技術(shù)」報(bào)告中談到的所有功能,此外還增加了從文本生成視頻、動畫圖像和混合視頻等功能。這是此次Sora產(chǎn)品功能背后的技術(shù)基礎(chǔ)??雌饋硐啾任淖?,視頻的推理成本更高,但此次OpenAI并沒有單獨(dú)針對Sora收費(fèi)。20美元/月的ChatGPT Plus會員、以及200美元/月的ChatGPT Pro會員,都可以使用Sora。前者的權(quán)益包括最多50個高級視頻、分辨率達(dá)720p,時長為5秒,后者的權(quán)益包括最多500個高級視頻、無限普通視頻,分辨率高達(dá)1080p、持續(xù)時間為20秒、并且下載無水印。
Sora對OpenAI的意義不止于此。團(tuán)隊(duì)發(fā)現(xiàn),視頻模型在大規(guī)模訓(xùn)練時會展現(xiàn)出許多有趣的新能力,使得Sora能夠模擬現(xiàn)實(shí)世界中人、動物和環(huán)境的某些方面?!肝覀兊慕Y(jié)果表明,擴(kuò)展視頻生成模型是構(gòu)建物理世界通用模擬器的一條有希望的道路。」或許正是因此,讓Sora盡快被大眾用起來、用數(shù)據(jù)更好地訓(xùn)練世界模型,對于OpenAI最終的AGI夢想如此重要。
在迭代技術(shù)的路上,也順帶推動了人類的創(chuàng)造?!高@個版本的Sora會犯錯誤,它并不完美,但它已經(jīng)到了我們認(rèn)為它將對增強(qiáng)人類創(chuàng)造力非常有用的地步。我們迫不及待地想看看世界將用它來做什么?!咕喸焖腛penAI如此說道。
【免責(zé)聲明】:
凡注明 “環(huán)球科技網(wǎng)” 字樣的圖片或文字內(nèi)容均屬于本網(wǎng)站專稿,如需轉(zhuǎn)載圖片請保留 “環(huán)球科技網(wǎng)” 水印,轉(zhuǎn)載文字內(nèi)容請注明來源“環(huán)球科技網(wǎng)”;凡本網(wǎng)注明“來源:XXX(非環(huán)球科技網(wǎng))”的作品,均轉(zhuǎn)載自其它媒體,轉(zhuǎn)載目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點(diǎn)和對其作品內(nèi)容的實(shí)質(zhì)真實(shí)性負(fù)責(zé),轉(zhuǎn)載信息版權(quán)屬于原媒體及作者。如轉(zhuǎn)載內(nèi)容涉及版權(quán)或者其他問題,請投訴至郵箱;1978751725@qq.com
本網(wǎng)公告
環(huán)球科技網(wǎng)從不發(fā)布負(fù)面新聞資訊,也絕不會發(fā)布負(fù)面信息。如發(fā)現(xiàn)負(fù)面信息鏈接請甄別是否為環(huán)球科技網(wǎng)所發(fā)。
本網(wǎng)系北京伯樂傳媒廣告有限公司主辦、所有。本網(wǎng)唯一域名(www.www.lzsczx.com),其它域名鏈接均為假冒。望廣大網(wǎng)民及企業(yè)主認(rèn)真甄別。
咨詢、采訪、合作、投稿等請致電:13911566744(含微信)