DeepSeek R1 公開程式碼!開源策略再掀全球 AI 競賽

分享

中國新創公司 DeepSeek 近來宣布,將在「開源週」釋出五組已投入實際生產環境的程式碼庫,這項舉動不僅延續其開放權重模型的精神,更進一步向外界揭示運行背後的基礎架構與核心技術。

作為一家在短時間內迅速竄起的 AI 業者,DeepSeek 先前就已經靠著競爭力堅強、且可供免費下載使用的推理模型 R1 震撼市場,這回更透過公開程式碼,展現其對開源的堅定立場。

延伸閱讀
DeepSeek AI是什麼?超低成本AI模型震撼全球

DeepSeek 開源程式碼釋出

DeepSeek 此次計畫在社群平台上,分五天逐步公開幾個曾在生產環境內被完整測試和部署的程式碼庫。公司方強調:「每一行程式碼都是推動 AI 進步的動力。」類似的表態在過去 AI 生態中並不多見,尤其若和 OpenAI、Google 等大型 AI 企業的封閉策略相比,DeepSeek 的開放透明已成為特色。

其實,DeepSeek 年初就已因釋出可下載的開放權重模型。

所謂的開放權重,是指模型中神經網路參數可供外部開發者自行微調與再訓練,這對中小型團隊或研究者來說,意義相當重大:僅需較低的運算成本,就能蒐集這些權重並進一步發揮。像是 Stanford、Berkeley 等學術機構,也透過類似方式,極短時間內就複製或改良超大型語言模型。如今 DeepSeek 更準備釋出底層程式碼,勢必加劇跟其他未開源模型的競爭格局。

同樣值得關注的是,有不少業者乃至專家都在密切觀察 DeepSeek 的訓練程式碼是否也將曝光。因為唯有連訓練步驟與使用的資料資訊都一併公開,才算真正符合開放原始碼的正式定義。

未來若 DeepSeek 真能完整分享,包括其近期推出的演算法「Native Sparse Attention(NSA)」如何讓長上下文應用更有效率,對於 AI 研究員而言,無疑將是一大助力。

AI 蒸餾技術崛起

在 DeepSeek 身上,我們也能看到另一個衝擊市場的重點技術:蒸餾(distillation)。這種方法可讓較小的模型向大型語言模型模型學習,精準萃取知識並自我訓練;最終得到的「學生模型」在推理能力上可逼近原先的模型,但運算成本與所需資源卻低很多。

類似的趨勢也不只在中國發酵。許多全球 AI 實驗室如今都在實踐蒸餾技術,強調「研發者不一定要擁有龐大的硬體資源,也能追上第一梯隊」。國際企業如 Hugging Face、Databricks都已將蒸餾流程整合進自家 AI 模型訓練管線中。對於整個產業來說,這意味未來的競爭核心,或許在於誰能最快整合新穎演算法、誰能率先提升效率,而非單純比拼算力或預算多寡。

- 廣告 - 內文未完請往下捲動 -

中國仍面臨晶片與數據挑戰?

DeepSeek 的崛起,更在中國國內激起了一股「人工智慧的民族自信」的聲浪。中國國營媒體對此多所贊揚,認為這是對美國先前多輪晶片與技術制裁的一種科技突圍。然而,已有學者與觀察家點出,此刻確實值得肯定 DeepSeek 帶來的創新突破,但若因一家公司成功就高漲民族情緒,反而可能忽視中國其他持續努力的領域。

包括香港中文大學(深圳)公共政策學院院長鄭永年在內的學者提醒,中國在網路資料的全球連通度與跨平台整合上,其實仍有不少制度性障礙。此外,國內對生成式 AI 的法規監管相對嚴格,各種審查流程導致部分研發者和人才外流。

未來若想在全球 AI 競賽中與美國、甚至歐洲、印度等其他地區抗衡,該如何平衡安全監管與技術創新,亦考驗北京政策布局。若能適度放寬或簡化審核流程,同時鼓勵更多企業參與開源,才可能在軟體層面持續創造領先。

總而言之,接下來市場將持續關注 DeepSeek 下一步是否會公開訓練程式碼與數據細節,以及全球其他競爭者又將如何快速跟進,AI 競賽只會更加白熱化。

推薦閱讀

你可能也喜歡

其他人都在看