當前,全球人工智能技術加速迭代,已成為推動新一輪科技革命和產業變革的核心力量,為新質生產力的發展注入了前所未有的時代動能。我國順應這一趨勢,逐步構建起涵蓋基礎層、框架層、模型層與應用層的完整人工智能產業體系,為新質生產力的現實轉化提供了堅實支撐。特別是以Deep?Seek為代表的國產大模型持續突破核心技術瓶頸,在跨模態理解、知識生成與自主推理等方面展現出顯著優勢,不僅有效提升了智能化生產效率,而且加速了智能技術與實體經濟的深度融合,成為驅動新質生產力發展的關鍵創新支撐。
(一)全球人工智能發展方興未艾為新質生產力發展提供時代機遇
人工智能作為新一輪科技革命和產業變革的主導性技術,不僅實現了生產力的指數級躍遷,而且深刻地滲透到社會生產生活的各個方面,給世界政治、經濟、文化各方面帶來了深遠的影響。鑒于此,世界主要經濟體爭相制定并實施人工智能發展戰略,積極推動人工智能技術的研究與應用。
從全球主要經濟體人工智能領域的發展態勢來看,已初步形成美、中、歐盟三足鼎立的格局,各經濟體在政策規劃、研發投入、專利產出和產業應用等層面各具特色。其一,政策規劃層面,通過頂層設計強化人工智能發展的戰略框架。美國是最早意識到人工智能戰略價值的國家,依托其雄厚的科研基礎和活躍的科技企業生態,在人工智能領域始終保持著全球領先地位。歐盟在發展人工智能領域方面獨樹一幟,其策略著重于在科技創新與社會責任之間尋求平衡。其中2024年5月《人工智能法案》的正式生效,標志著歐盟人工智能領域監管立法與實踐走在世界前列。中國人工智能產業在國家戰略規劃的推動下形成“政策引導、場景驅動、產業協同”的發展格局,成為全球人工智能發展最具活力和潛力的國家之一。其二,研發投入層面,持續在人工智能領域實施重大投資布局。美國斯坦福大學2025年4月發布的《2025年人工智能指數報告》顯示,2024年,在人工智能私人投資方面,美國以1091億美元遙遙領先,是排名第二的中國(93億美元)的11.7 倍[32]。在生成式人工智能投資方面,美國的投資超過了中國、歐盟,差距進一步擴大。在知識創新方面,2023年,中國發表的關于人工智能的論文(23.2%)和被引用次數(22.6%)均超過其他國家,但美國在具有高影響力的研究方面領先(被引次數最多的前100名)。另外,美國仍是知名大模型的核心策源地,2024 年美國產生了40個知名大模型,遠超中國和歐盟。盡管美國在數量上保持領先,但中美之間頂尖模型的性能差異從2023年的4.9%縮減至2024年的0.7%[32],這表明中國大模型的質量在迅速崛起。其三,專利產出層面,呈現出中美主導、多國競逐,技術集中度高且應用導向明顯的發展態勢。截至2023 年年底,中國在總人工智能專利數量上領先,占所有專利授予的69.7%,是排名第二美國(14.2%)的4.9倍。其四,產業應用層面,人工智能不再停留在實驗階段,落地轉化呈現出前所未有的活躍態勢。麥肯錫調查報告顯示,2024年有78%的受訪者表示,其所在組織在至少一個業務環節中使用人工智能,這一比例相較2023年的55%顯著提升;同時,生成式人工智能的使用率也由2023年的33%增長至71%。由此可見,人工智能正逐步從企業應用中的輔助工具轉變為推動核心業務發展的關鍵力量。
(二)我國人工智能產業體系為新質生產力發展提供現實條件
盡管我國人工智能發展起步較晚,但在國家戰略規劃和產業政策的推動下,人工智能發展“已進入技術攻堅、應用深化、生態重構的新階段,在全球人工智能大模型發展中處于第一梯隊”,形成了涵蓋基礎層、框架層、模型層和應用層的完整人工智能產業體系,為新質生產力的發展提供了強勁引擎與廣闊空間。
人工智能產業各層級之間相互嵌套、協同推進,形成從技術供給到場景落地的閉環體系。其一,基礎層是人工智能產業發展的底層支撐,包括算力、算法和數據三大核心要素。算力方面,截至2024年底,我國在用算力中心機架總規模超過900萬標準機架,算力總規模達280EFLops(每秒百億億次浮點運算),國家八大樞紐節點算力總規模達175EFLops;智能算力規模達90 EFLops,在總算力規模中占比提升至32%,為海量數據計算提供了智能底座。算法方面,基于Transformer架構不斷進行優化與創新,諸如多頭潛在注意力機制和混合專家系統等結構性創新顯著提升了算法在大模型訓練與推理階段的效率與表現力。數據方面,通過構建多源異構、結構化與非結構化并重的行業知識圖譜與高質量訓練語料庫,為大模型預訓練與垂類模型精調提供了豐富的“養料”保障。其二,框架層是連接基礎層與上層應用的技術橋梁,主要包括深度學習框架、開發工具鏈及開源社區。深度學習框架方面,我國已構建起以飛漿(PaddlePaddle)、昇思(MindSpore)、一流科技(OneFlow)等為代表的自主框架體系,初步具備與機器學習框架(TensorFlow)、深度學習工具(PyTorch)等國際主流框架競爭的能力。開發工具鏈方面,一是圍繞國產芯片,如昇騰(Ascend)、昆侖(Baidu)構建的異構兼容編譯工具與算子優化系統,實現了從硬件到算法的深度融合,顯著提升了大模型在本土算力平臺上的運行效率;二是以飛槳、昇思為核心的開發工具鏈體系,在模型壓縮、自動并行訓練、跨端部署、可解釋性分析等環節形成了差異化優勢。開源社區方面,通過構建活躍的社區生態,聚集了大量開發者與開源項目,推動了開源技術的本土化演進與產業化落地。其三,模型層聚焦大模型及垂直領域模型的研發與優化,是技術落地的關鍵環節。深度求索、百度、騰訊、阿里巴巴、字節跳動、商湯科技等企業憑借各自的發展戰略和技術特色,“紛紛投身大模型研發賽道,不斷探索創新的模型架構、訓練算法與優化策略,呈現‘百模競爭’的火熱局面”。其四,應用層不僅是技術價值的最終體現,更是驅動新質生產力加快形成的實踐前沿。一方面,依托大模型與行業知識融合能力,在智能制造、智慧醫療、金融風控、教育輔助、數字政務等領域持續涌現出一批具備場景適配性與規模化部署能力的AI應用解決方案。另一方面,不斷推動算法能力與實體經濟深度融合,催生了智能客服、虛擬人、智能駕駛、工業質檢等新業態、新模式。
(三)DeepSeek大模型技術優勢為新質生產力發展提供創新支撐
DeepSeek之所以能夠在短時間內實現對國際頂尖大模型的趕超,并非源自技術代際超越,而是現有算力、算法與數據三大核心維度實現了協同推進、極致優化的系統性創新,構建了具有高性能、高效率和高適應性的機器學習模型。
算力維度體現為自主可控的算力生態與技術鏈的系統整合。其一,實現動態異構資源的高效映射。DeepSeek 采用動態資源調度策略,能夠在CPU、GPU、AI加速芯片等多種異構算力資源之間實現高效映射。其底層調度系統可根據模型訓練階段的不同計算需求,動態分配資源,從而提升整體算力利用率與能源效率。其二,國產化高性能芯片適配。DeepSeek在算力部署過程中,積極適配國產AI 芯片,如昇騰(Ascend)、寒武紀(Cambricon)等,并針對其架構特性優化深度學習框架與編譯器,加快了自主可控AI基礎設施的落地,提升了系統的安全性與可持續性。其三,引入FP8混合精度訓練框架。DeepSeek-V3使用FP8(8位浮點數)全棧技術,提升算力運行效率,并顯著降低對存儲的消耗,實現了“高性能—低能耗”的平衡。
算法維度體現為以稀疏激活機制為核心的算法效率優化路徑。其一,混合專家模型架構的優化。該架構主要通過細粒度專家、共享專家和路由機制實現了模型容量的高效擴展,在保持模型整體容量(總參數671B)的同時,大幅降低了計算負載(每步僅激活參數37B),實現了“規模—效率”兼容。其二,多頭潛在注意力機制的創新。DeepSeek的多頭潛在注意力機制創新地采用低秩聯合壓縮技術,顯著減少了推理時的鍵值緩存和訓練時的激活內存,同時保持了與標準多頭注意力機制相當的性能。其三,知識蒸餾技術的應用。DeepSeek的蒸餾技術將數據蒸餾與模型蒸餾相結合,通過監督微調的方式,將教師模型的知識遷移到學生模型中,實現了從大型復雜模型到小型高效模型的知識遷移。
數據維度體現為本土語義建模與知識體系的融合并進。其一,多令牌預測(MTP)技術的應用。多令牌預測是語言建模中的一種先進方法,其工作原理是通過模型一次預測多個token,以提升模型的訓練效率、生成質量和推理速度。DeepSeek團隊率先將MTP技術應用于大模型訓練中,通過動態分配計算資源,利用MTP模塊約束模型的高效優勢,在保持模型性能的同時顯著提升訓練和推理效率。其二,本土知識結構深度嵌入。DeepSeek在語料構建過程中系統引入中國本土知識體系,包括傳統文化經典、政策法規文書、國家發展戰略文本、產業發展資料與社會治理文獻等內容。這種知識嵌入不僅增強了模型對特定領域語言的理解深度,也提升了其在面對中文場景時復雜語義推理與內容生成的能力。
總體來看,DeepSeek通過“算力彈性化—算法稀疏化—數據價值化”的協同推進,突破了傳統大模型的“算力堆砌”困境,為大模型技術持續進化提供了可擴展的技術框架。(作者:劉偉)