《自然》24日正式發(fā)表的一篇研究論文指出了一個人工智能(AI)嚴重問題:用AI生成的數(shù)據(jù)集訓練未來幾代機器學習模型,可能會嚴重“污染”它們的輸出,這被稱為“模型崩潰”。研究顯示,原始內容會在9次迭代以后,變成不相關的“胡言亂語”(演示中一個建筑文本最終變成了野兔的名字),這凸顯出使用可靠數(shù)據(jù)訓練AI模型的重要性。
生成式AI工具越來越受歡迎,如大語言模型等,這類工具主要用人類生成的輸入進行訓練。不過,隨著這些AI模型在互聯(lián)網(wǎng)不斷壯大,計算機生成內容可能會以遞歸循環(huán)的形式被用于訓練其他AI模型或其自身。
包括英國牛津大學在內的聯(lián)合團隊一直在進行相關研究,并在去年論文預印本中提出這一概念。在正式發(fā)表的論文中,他們用數(shù)學模型演示了AI可能會出現(xiàn)的“模型崩潰”。他們證明了一個AI會忽略訓練數(shù)據(jù)中的某些輸出(如不太常見的文本),導致其只用一部分數(shù)據(jù)集來自我訓練。
團隊分析了AI模型會如何處理主要由AI生成的數(shù)據(jù)集。他們發(fā)現(xiàn),給模型輸入AI生成的數(shù)據(jù),會減弱今后幾代模型的學習能力,最終導致了“模型崩潰”。他們測試的幾乎所有遞歸訓練語言模型,都容易出現(xiàn)問題。比如,一個用中世紀建筑文本作為原始輸入的測試,到第9代的輸出已經(jīng)是一串野兔的名字。
團隊指出,用前幾代生成的數(shù)據(jù)集去訓練AI,崩潰是一個不可避免的結局。他們認為,必須對數(shù)據(jù)進行嚴格過濾。與此同時,這也意味著依賴人類生成內容的AI模型,或許能訓練出更高效的AI模型。
對AI來說,“模型崩潰”就像癌癥一樣,甚至分早期與晚期。在早期時,被“喂”了生成數(shù)據(jù)的AI會開始失去一些原始正確數(shù)據(jù);但在晚期,被“喂”了生成數(shù)據(jù)的AI會“口吐狂言”——給出完全不符合現(xiàn)實,也和底層數(shù)據(jù)一點不相關的結果,就像本文中的例子一樣。更可怕的是,“模型崩潰”的AI極其固執(zhí),錯誤幾乎難以矯正。它會持續(xù)強化,最終把錯誤結果認為是正確的。這一問題值得所有關注生成式AI的人們警惕,因為它等于是在“毒化”AI對真實世界的認知。
隨著人工智能技術逐步成熟和機器人產(chǎn)業(yè)快速發(fā)展,越來越多人形機器人逐漸進入公眾視野。面對人形機器人的“熱”,行業(yè)人士表示應有冷思考,對于人形機器人行業(yè)的“一高五難”需有清楚認知,推動人形機器人發(fā)展需以應用驅動研究。 人形機器人熱度高 前不久在上海舉辦的2024世界人工智能大會... [閱讀]
新華社巴黎7月24日電(記者何磊靜)記者從國際奧委會24日召開的發(fā)布會上獲悉,國際奧委會正積極挖掘人工智能技術在奧林匹克運動中的應用潛力,其中包括如何利用人工智能更好地選拔年輕體育人才。 “我們已經(jīng)確定了超過180個潛在的人工智能應用場景,要最大限度地發(fā)揮出它們的影響力。”國際奧委會首席信息科技官伊拉里... [閱讀]
近年來,低空經(jīng)濟不斷融入生產(chǎn)生活。截至目前,持有現(xiàn)行有效民用無人駕駛航空器運營合格證的無人機企業(yè)總數(shù)超1.4萬家,持有無人機操控員執(zhí)照的人員數(shù)量超22.5萬人。今年上半年,新注冊的無人機將近60.8萬架,較去年年底增長48%;無人機累計飛行小時數(shù)達981.6萬小時,較去年同期增加13.4萬小時。 當前,低空經(jīng)濟有哪些高頻應用場... [閱讀]
“中國大力發(fā)展機器人產(chǎn)業(yè),本土品牌紛紛推出高性價比產(chǎn)品,并逐步滲透韓國市場。”韓國《中央日報》近日刊文說。該報道在關注中國機器人產(chǎn)業(yè)的同時,還提及中國正在發(fā)展新質生產(chǎn)力——這是由技術革命性突破、生產(chǎn)要素創(chuàng)新性配置、產(chǎn)業(yè)深度轉型升級而催生的當代先進生產(chǎn)力。 近年來,中國機器人產(chǎn)業(yè)發(fā)... [閱讀]
2025-07-01
2025-06-24
2025-06-24
2025-06-23
2025-06-23
2025-07-01
2025-06-24
2025-06-24
2025-06-23
2025-06-23