集結行業(yè)智慧,ISC.AI 2024探索多模態(tài)時代大模型發(fā)展的“中國路徑”
【環(huán)球科技網】近日,ISC.AI 2024多模態(tài)時代的大模型關鍵技術與應用論壇成功召開。本次論壇由360人工智能研究院、中國圖象圖形學學會聯合主辦,集結業(yè)界知名學者、行業(yè)技術領袖等前沿代表,圍繞多模態(tài)時代大模型的技術變革、研發(fā)挑戰(zhàn)、應用場景等問題展開深入探討,致力共同探索出多模態(tài)大模型發(fā)展的“中國路徑”,為全行業(yè)的數轉智改提質加速。
在開場致辭環(huán)節(jié)中,360集團副總裁、360數智化集團CEO殷宇輝表示,人工智能正在以前所未有的速度改變世界,其中多模態(tài)AI技術是重要研究方向之一,實現了更加自然、高效的人機交互和智能決策。對此,360人工智能研究院、中國圖象圖形學學會以及全國高校展開了大量的合作,希望通過促進產、學、研、用的深度融合,共同推進相關技術的創(chuàng)新和發(fā)展。
中國圖象圖形學學會副秘書長,北京理工大學光電學院教授、博導劉越則表示,大模型正逐步地從單純的語言處理邁向多模態(tài)融合的新階段,其潛力與價值正初步顯現。多模態(tài)大模型的提出,通過引入圖像、聲音等多模態(tài)信息,使人工智能系統(tǒng)具備更加全面、深入的理解與處理能力,這一跨越不僅意味著技術層面的巨大挑戰(zhàn)與突破,更預示著人工智能場景的無限拓展與深化。
在主題演講環(huán)節(jié)中,中國科學院自動化研究所副總工程師,紫東太初大模型研究中心常務副主任、研究員、博導, 武漢人工智能研究院院長,多模態(tài)人工智能產業(yè)聯盟秘書長王金橋就《多模態(tài)大模型的實踐與思考》進行了分享。他指出,大模型時代,算力產業(yè)成為了新質生產力。伴隨著參數量的逐漸增加,海量的智能化算力成為必要基礎。
360人工智能研究院副院長、視覺方向負責人冷大煒在《多模態(tài)大模型LMM與細粒度開放世界目標檢測》的主題分享中提到,多模態(tài)大模型本質上學習的是文本模型和圖像模態(tài)細粒度的對齊,細粒度的開放世界目標檢測能力將會對辦公自動化、機器人具身智能、自動駕駛領域的發(fā)展,具有重要的影響。
復旦大學計算機學院教授,中國中文信息學會大模型大搜索與生成專委會副主任,上海市計算機學會自然語言處理專委會主任邱錫鵬在《從大語言模型到世界模型》的主題分享中提到,人工智能的突破主要特點就是通用性,相比上一代模型來講,一個模型能夠解決非常多的任務。當我們有了這樣一個基座,就可以去改變下游任務的形式。
清華大學副研究員,國家級青年人才,哈爾濱工業(yè)大學博士,加州大學伯克利分校和哥倫比亞大學博士后趙思成在《大模型端側部署應用關鍵技術》的主題分享中指出,終端設備蓬勃發(fā)展,應用不斷深入,與云側相比,端側功耗算力有限,實時性要求高,計算分布化,端側AI技術成為產業(yè)界的核心瓶頸。因此,如何在有限資源的端側設備上運行大模型,以滿足端側設備的智能化需求,也就是大模型小型化,是人工智能普及的迫切需求。
清華大學電子工程系助理研究員楊舒在《當視頻語義描述遇見大模型》的分享中表示,人類對世界的理解是基于觸覺、聽覺、視覺等多個模態(tài)的,我們希望機器也可以從語音、視頻、文字等多模態(tài)來理解這個世界。所以,如何通過機器學習的方法處理和理解多源異構數據,是多模態(tài)學習的核心內容,具體包括多模態(tài)表征學習、模態(tài)轉化、對齊、融合和協(xié)同學習這些關鍵研究內容。
360集團資深算法專家趙光香在《大模型繼續(xù)預訓練》的分享中指出,大模型的繼續(xù)預訓練面臨著“二階段訓練的影響”、“絕望之谷的溝壑”以及“遷移效率”等挑戰(zhàn),并就上述問題分享了詳細的實戰(zhàn)經驗。
此外,360人工智能研究院文檔理解及知識圖譜算法負責人劉煥勇在《面向辦公問答應用的多模態(tài)文檔理解范式》中則表示,多模態(tài)模型文檔處理是文檔辦公場景中的重要步驟,對文檔理解的程度、解析的精細度,決定了后續(xù)文檔應用場景性能效果的上限。真實落地場景中的文檔處理,既需要考慮模型準確性,也需要考慮速度、推理成本等。
作為新質生產力發(fā)展的重要引擎,多模態(tài)大模型進入了研發(fā)和落地的爆發(fā)期,進一步實現了多模態(tài)信息的混合輸出能力。在此背景下,ISC.AI 2024多模態(tài)時代的大模型關鍵技術與應用論壇有效促進了國內多模態(tài)大模型研究的發(fā)展,加強了學術界和工業(yè)界的技術交流和成果轉化,對推動人工智能行業(yè)的發(fā)展具有深遠意義。