大模型企業(yè)闖進“純視覺時代”
來源:
中國高新技術(shù)產(chǎn)業(yè)導(dǎo)報
日期:2025-02-26
責(zé)編:
殷緒江
視頻生成有望成為通用知識學(xué)習(xí)方法,在現(xiàn)實世界充當(dāng)“人工大腦”。近日,豆包大模型團隊宣布其攜手北京交通大學(xué)與中國科學(xué)技術(shù)大學(xué)共同研發(fā)的視頻生成實驗?zāi)P?ldquo;VideoWorld”正式開源,首次實現(xiàn)無需依賴語言模型即可認(rèn)知世界。民生證券發(fā)布研報稱,豆包開源視頻大模型“VideoWorld”的發(fā)布,讓視頻生成成為通用知識學(xué)習(xí)方法,在現(xiàn)實世界充當(dāng)“人工大腦”,僅靠“視覺”即可學(xué)習(xí)知識,并“理解”因果關(guān)系,“預(yù)測”未來,有望激活“視覺市場”為其打開增長空間。
僅靠“視覺”即可預(yù)測未來
目前,現(xiàn)有模型大多依賴語言或標(biāo)簽數(shù)據(jù)學(xué)習(xí)知識,很少涉及純視覺信號的學(xué)習(xí)。然而,語言作為一種表達(dá)工具,其局限性在于無法全面捕捉真實世界中的所有復(fù)雜信息。
據(jù)了解,VideoWorld摒棄語言模型,通過純視覺信號進行統(tǒng)一的理解、執(zhí)行和推理。同時,VideoWorld基于一種潛在動態(tài)模型,可高效壓縮視頻連續(xù)幀間的變化信息,顯著提升知識學(xué)習(xí)效率和效果。“視覺模型在處理連續(xù)幀變化時能夠捕捉動態(tài)信息。這在理解動作序列、預(yù)測未來狀態(tài)等方面有獨特優(yōu)勢。”資深人工智能專家郭濤認(rèn)為,這類模型能夠直接處理和理解圖像或視頻數(shù)據(jù),不需要先轉(zhuǎn)換成文本描述再進行理解,因此在圖像識別、場景理解方面更為直觀和準(zhǔn)確。此外,視覺信息本身含有豐富的細(xì)節(jié)和上下文,可為自動駕駛過程中的實時路況判斷、醫(yī)療影像的精確分析等特殊場景提供更精細(xì)的判斷依據(jù)。“這種視頻生成模型不依賴語言模型,進一步減少了對數(shù)據(jù)標(biāo)注和預(yù)訓(xùn)練的依賴,降低了開發(fā)成本和難度。”北京市社會科學(xué)院副研究員王鵬說。“這無疑大大提升了模型的學(xué)習(xí)效率;此外,這種大模型不需要中間的語言轉(zhuǎn)換,更符合人類的直觀認(rèn)知方式。”科方得智庫研究負(fù)責(zé)人張新原認(rèn)為。
為AI應(yīng)用帶來新的可能性
業(yè)界專家表示,VideoWorld的發(fā)布,也為人工智能領(lǐng)域帶來新的可能性。比如,在醫(yī)療影像分析中,模型能夠通過學(xué)習(xí)大量醫(yī)學(xué)影像數(shù)據(jù),輔助醫(yī)生進行診斷和治療;在娛樂產(chǎn)業(yè),可用于電影特效制作、虛擬偶像生成等;在教育領(lǐng)域,能夠創(chuàng)建互動式學(xué)習(xí)材料;在零售行業(yè)則可應(yīng)用于商品展示和虛擬現(xiàn)實購物體驗等。民生證券發(fā)布的研究報告認(rèn)為,視覺認(rèn)知世界的能力有望激活“視覺市場”。“這些應(yīng)用場景只是‘冰山一角’,隨著技術(shù)進步,更多創(chuàng)意應(yīng)用將會涌現(xiàn)。”郭濤說。
依賴文本大模型有危機
“隨著多模態(tài)技術(shù)的發(fā)展,結(jié)合文本和圖像的綜合模型將成為趨勢,單一依賴文本的大模型可能會逐漸失去競爭力。”在郭濤看來,這并不意味著語言大模型會被淘汰,而是促使其向更高級、更綜合的方向發(fā)展,比如增強對圖像的理解能力或與視覺模型更好地協(xié)同工作。此次豆包大模型團隊選擇開源VideoWorld,或許希望通過此舉讓更多的研究者和開發(fā)者可以接觸并使用VideoWorld,以推動純視覺認(rèn)知技術(shù)的快速發(fā)展和應(yīng)用。從長遠(yuǎn)看,作為首個無需依賴語言模型的視覺認(rèn)知模型,VideoWorld的開源有助于其成為行業(yè)標(biāo)準(zhǔn),影響未來相關(guān)技術(shù)的發(fā)展方向。VideoWorld的開源,為研究者提供了一個強大的基準(zhǔn)模型,有助于探索更多基于視覺的學(xué)習(xí)方法和算法。“隨著更多開發(fā)者的加入,有望圍繞VideoWorld形成一個新的技術(shù)社區(qū)和生態(tài)系統(tǒng),促進不同領(lǐng)域間交叉合作和技術(shù)融合,進一步拓展人工智能的應(yīng)用邊界。”郭濤說。關(guān)于開源面臨的一些挑戰(zhàn),業(yè)界人士認(rèn)為,開源使得競爭對手可以輕松獲取技術(shù)細(xì)節(jié),可能加劇市場競爭。當(dāng)然還有社區(qū)管理方面的挑戰(zhàn),維護一個活躍且健康的開源社區(qū)需要投入大量資源,包括技術(shù)支持、文檔維護等。
【免責(zé)聲明】:
凡注明 “環(huán)球科技網(wǎng)” 字樣的圖片或文字內(nèi)容均屬于本網(wǎng)站專稿,如需轉(zhuǎn)載圖片請保留 “環(huán)球科技網(wǎng)” 水印,轉(zhuǎn)載文字內(nèi)容請注明來源“環(huán)球科技網(wǎng)”;凡本網(wǎng)注明“來源:XXX(非環(huán)球科技網(wǎng))”的作品,均轉(zhuǎn)載自其它媒體,轉(zhuǎn)載目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點和對其作品內(nèi)容的實質(zhì)真實性負(fù)責(zé),轉(zhuǎn)載信息版權(quán)屬于原媒體及作者。如轉(zhuǎn)載內(nèi)容涉及版權(quán)或者其他問題,請投訴至郵箱;1978751725@qq.com
本網(wǎng)公告
環(huán)球科技網(wǎng)從不發(fā)布負(fù)面新聞資訊,也絕不會發(fā)布負(fù)面信息。如發(fā)現(xiàn)負(fù)面信息鏈接請甄別是否為環(huán)球科技網(wǎng)所發(fā)。
本網(wǎng)系北京伯樂傳媒廣告有限公司主辦、所有。本網(wǎng)唯一域名(www.www.lzsczx.com),其它域名鏈接均為假冒。望廣大網(wǎng)民及企業(yè)主認(rèn)真甄別。
咨詢、采訪、合作、投稿等請致電:13911566744(含微信)