DeepSeek成功的底層邏輯及產業(yè)影響

來源： 人民郵電報 日期：2025-02-19 責編： 殷緒江

仿佛是一夜之間，DeepSeek迎來了“滔天的流量”。它不僅在全球引發(fā)了新一輪的AI應用熱潮，而且給全球的算力資本市場帶來了重大沖擊。究其原因，DeepSeek不僅在訓練成本及使用成本、模型訓練及優(yōu)化方式等領域實現了大量的工程創(chuàng)新，而且打破了AI領域許多的傳統(tǒng)敘事邏輯。簡而言之，DeepSeek正在改變游戲規(guī)則。
　　DeepSeek最新推理模型R1的橫空出世，帶來了一個非常大的驚喜，僅用6天就發(fā)展了1億用戶。“用好奇心來揭開AGI的神秘面紗”這一愿景，更增添了神秘色彩。那么，DeepSeek在技術上究竟有哪些創(chuàng)新，成功的背后有哪些深層次的原因？這一切將對中美下一個十年的科技競爭產生哪些影響？

本圖片為AI生成并進行了人為后期加工。　遙歌／制作

工程創(chuàng)新成就與眾不同
　　DeepSeek不僅引發(fā)了全球新一輪的AI應用熱潮，而且對全球的算力資本市場產生重大沖擊。究其原因，DeepSeek在訓練成本及使用成本、模型訓練及優(yōu)化方式方面均實現了大量工程創(chuàng)新。成本是最大的亮點。DeepSeek-R1的整體訓練成本比OpenAI少了一個數量級以上。R1在整個訓練過程中的工程優(yōu)化和創(chuàng)新亮點非常多，包括“Multi-Head Latent Attention——多頭隱形注意力機制”“Multi-token predication——多token預測”“有選擇性地使用8個浮點數精度FP8來替代FP16甚至FP31”等。這些優(yōu)化其實都不容易實現。每一個看似不顯著的優(yōu)化，在層級疊加效應下卻產生了非常驚人的效果。
　　DeepSeek其實一共發(fā)布了兩個模型，分別是R1和R1-zero。DeepSeek基于V3這個基礎模型聚焦強化學習獲得了R1-zero。但是，R1-zero在回答一些問題的時候容易產生包括“多語言混雜”在內的諸多問題。Deep-Seek又對這個模型進行了SFT（監(jiān)督微調優(yōu)化），從而產生了R1。R1的強化學習功能可以實現自動化，是比較容易去scale的。這樣一來，該模型未來的想象空間接近無限。
　　顛覆性改變打破傳統(tǒng)敘事邏輯
　　DeepSeek之所以備受關注，本質在于打破了很多AI領域的傳統(tǒng)敘事邏輯，例如OpenAI對于推理模型的算力堆疊霸權邏輯、AI應用圈的OpenAI寡頭壟斷格局邏輯、美國對中國的高制程芯片封鎖邏輯以及AI大模型的開源閉源邏輯……首先，AI圈公認這種推理模型的實現難度是極大的。此前，比較好的推理模型只有OpenAI的GPT o1。Anthropic做不出來，Google“卡”了很久才推出表現一般的Germini 2.0。DeepSeek-R1至少是o1的平替，甚至部分能力還要強于o1。進一步來看，R1不僅免費還開源，訓練成本和使用成本均實現了指數級下降。原先o1憑借領先性可以“收割”相當長一段時間的價值，但DeepSeek-R1的出現以及開源的舉措，讓絕大多數開發(fā)者以及聚焦應用的創(chuàng)業(yè)公司都能夠以更低的門檻去做開發(fā)。更加便宜且更容易私有化部署的R1，擊碎了華爾街對于所有大模型公司的估值邏輯。
　　其次，DeepSeek的出現打破了AI應用圈原有的競爭枷鎖。就算是美國的頂尖應用公司選擇DeepSeek和ChatGPT時，答案也很清楚。Cursor、Perplexity這些AI領域的超級明星應用，都第一時間進行了DeepSeek模型的部署，而且設置了推薦第一優(yōu)先級。此外，Google、Amazon、NV等平臺也都部署了Deep-Seek模型。這些改變，同步影響了云服務的市場格局。國內大量從事應用開發(fā)的企業(yè)，在DeepSeek-R1出現之前不得不使用微軟云（為了便捷使用GPT-4的API）；現在，使用阿里云上部署的Deep-Seek成為可選項。
　　再其次，DeepSeek帶來了芯片封鎖邏輯的崩塌。DeepSeek在輝達CUDA生態(tài)的更底層（例如PTX層），通過微調底層代碼來優(yōu)化性能，從而解決“連接通信能力和調度能力被閹割”的問題。專家普遍認為，目前中美AI大模型領域的技術差距約為4個月。從技術能力發(fā)展的趨勢來看，這一差距繼續(xù)縮小的概率大于擴大的概率。
　　最后，開源讓DeepSeek在輿論戰(zhàn)中至少“不落下風”。在AGI的道路上做出最強大的模型并開源，應該是OpenAI最早的初心和使命。市場永遠不會說謊，誰的模型能力強誰就能掌握最終的話語權。2024年12月DeepSeek V3發(fā)布的時候，國際主流媒體主要關注其“成本低廉”；當Deep-Seek-R1發(fā)布時，情況則截然不同，因為“滔天的流量”來了。作為一個開源模型，DeepSeek讓所有用戶在任何領域都增加了一個“頂尖專家”，免費且24小時隨時在線。（作者：鄭濤）

標簽：人工智能科技 AI 大模型 GPT

上一文章：人工智能技術的突破發(fā)展蓄力助推低空經濟高飛

下一文章：DeepSeek攪動寒假作業(yè)，基礎教育與AI如何磨合？

【免責聲明】：

凡注明 “環(huán)球科技網” 字樣的圖片或文字內容均屬于本網站專稿，如需轉載圖片請保留 “環(huán)球科技網” 水印，轉載文字內容請注明來源“環(huán)球科技網”；凡本網注明“來源：XXX(非環(huán)球科技網)”的作品，均轉載自其它媒體，轉載目的在于傳遞更多信息，并不代表本網贊同其觀點和對其作品內容的實質真實性負責，轉載信息版權屬于原媒體及作者。如轉載內容涉及版權或者其他問題，請投訴至郵箱；1978751725@qq.com

本網公告
環(huán)球科技網從不發(fā)布負面新聞資訊，也絕不會發(fā)布負面信息。如發(fā)現負面信息鏈接請甄別是否為環(huán)球科技網所發(fā)。
本網系北京伯樂傳媒廣告有限公司主辦、所有。本網唯一域名（www.www.lzsczx.com），其它域名鏈接均為假冒。望廣大網民及企業(yè)主認真甄別。

咨詢、采訪、合作、投稿等請致電：13911566744（含微信）

DeepSeek攪動寒假作業(yè)，基礎教育與AI如何磨合？ 2025-02-19 10:55:31
新華社2月18日,中小學寒假落幕，AI的風，攪動了寫作業(yè)的浪潮。假期尾聲趕作業(yè)并不稀奇，不一樣的是：曾經，一夜不寐創(chuàng)造寫作業(yè)“奇跡”，往往伴隨苦思冥想、抓耳撓腮，指望瞬間爆發(fā)的“小宇宙”；這次，DeepSeek等生成式人工智能應用成了不少中小學生的“作業(yè)救星”。... [閱讀]
全球科技公司競相推出新款人工智能模型 2025-02-19 10:53:36
2025年開年以來，人工智能（AI）技術繼續(xù)保持迅猛發(fā)展的態(tài)勢。截至目前，全球數家科技公司競相發(fā)布了其人工智能模型的最新版本，這些模型具備更快速的回答能力、更強的多模態(tài)能力以及增強的推理與生成能力等，將為用戶帶來更加智能的使用體驗，為各行各業(yè)注入新動能。　　美國知名企業(yè)家埃隆·馬斯克旗下的xAI公司當地時間17日晚上... [閱讀]
人形機器人是人工智能技術未來產業(yè)的重要賽道 2025-02-19 10:49:51
近日在北京首鋼園，一款接近中國人中等身材的機器人進行了一場約4分鐘的跑步訓練，全程步態(tài)穩(wěn)定、姿勢自然，步速最高達每小時5公里。這款人形機器人名為“夸父”，身高約1.6米、體重約45公斤，由樂聚（深圳）機器人技術有限公司研發(fā)。在蛇年春晚舞臺上，一款扭秧歌的人形機器人成為當晚“人氣王”之一... [閱讀]
馬斯克旗下xAI推出人工智能模型Grok 3 2025-02-19 10:47:42
新華社舊金山2月17日電（記者吳曉凌）美國當地時間17日晚間，埃隆·馬斯克旗下人工智能公司xAI正式發(fā)布其最新人工智能模型Grok 3。馬斯克稱它是“地球上最聰明的人工智能”。　　Grok 3引入了包括圖像分析和問答在內的高級功能，支持社交媒體平臺X上各種功能。馬斯克稱，Grok 3使用了擁有... [閱讀]