新京報貝殼財經記者 羅亦丹 編輯 岳彩周 校對 柳寶慶
北京時間2026年1月1日,DeepSeek團隊在arXiv(預印本)網站和Hugging Face上同步發布了最新論文,名為《mHC: Manifold-Constrained Hyper-Connections》,論文的核心觀點是提出一種名為“mHC”(直譯為“流形約束超連接”)的框架,該框架改進了此前大模型訓練中一種名為“HC(Hyper-Connections,超連接)”的范式,對大規模模型訓練提供了切實的性能改進。
貝殼財經記者注意到,DeepSeek創始人梁文鋒的名字出現在了這篇論文署名作者的最后一位上。事實上,雖然DeepSeek在2025年春節因為R1模型的開源發布而全球爆火,但在梁文鋒的帶領下,這家公司極其低調,團隊一直潛心學術,未做過多的商業化嘗試,一心撲在基礎模型理論研發之上,梁文鋒還在近期入選了《自然》2025年影響科學發展十大人物。
▲梁文鋒的名字出現在論文作者最后一位。Hugging Face網站截圖
論文重點講了什么?
破解大模型訓練擁堵難題
貝殼財經記者梳理發現,DeepSeek團隊本次發布的論文瞄準了大模型訓練的“地基”——殘差連接范式,以及為了升級殘差連接范式提出的HC(超連接)范式,是不折不扣的一次基礎理論創新。
DeepSeek團隊在論文中以嚴謹的數學公式解釋了mHC,若以簡單的語言來類比,大致可以理解為,殘差連接是AI模型訓練的“生命線”——它像一條單車道高速公路,讓數據信號可以跳過某些層直接連接,從而解決了在此之前神經網絡越大訓練越困難的問題。
但隨著大模型參數突破千億,這條“單車道”越來越不夠用,此時超連接(HC)范式登場,其把單車道擴建成多車道,從而顯著提升了模型性能。但與此同時,過多的數據信號也導致了“堵車撞車”,就像多車道中沒裝 “交通信號燈”一樣,使模型訓練變得更加不穩定,容易崩潰。
此時,DeepSeek提出了一種新算法,給“多車道”增加了一套智能調度系統(即mHC“流行約束”),其要求每個路口的車必須全部分流出去,每個車道接收的車數量固定,從而大大增加了模型訓練的穩定性。
▲論文配圖HC與mHC的訓練損失差距,其中淡藍色線為HC,藍色線為mHC。論文截圖
最終,DeepSeek在論文中以直觀的測試展示了mHC方法相對于HC的穩定性。
理論創新
站在何凱明團隊和字節跳動的肩膀上
值得注意的是,本次DeepSeek的論文,是站在了AI“大神”何凱明以及字節跳動的肩膀上。
這是因為,殘差連接正是2015年由何凱明等人在微軟亞洲研究院所提出的,何愷明還因此獲得了CVPR 2016最佳論文獎,殘差連接之后也成了幾乎所有主流大模型的“標配”。
直到2024年,為了解決殘差連接信號通道不夠“寬闊”的問題,字節跳動旗下團隊提出了HC(超連接)范式,但由此也帶來了穩定性不夠的問題。而DeepSeek正是在前人的基礎上進一步進行了優化。
2026年的第一天,在諸多大模型公司聚焦商業化和變現之際,DeepSeek此舉進一步證實了自己在基礎模型領域的戰略定力。
在本次發布論文的文末,DeepSeek團隊寫道,“我們希望mHC能重振社區對宏觀架構設計的興趣。通過加深對拓撲結構如何影響優化和表示學習的理解,mHC將有助于解決當前的限制,并有可能為下一代基礎架構的發展指明新途徑。”
值班編輯 古麗
【未經授權,嚴禁轉載!聯系電話028-86968276】
