國信證券:DeepSeek多層面技術提升訓練效率 測試性能領跑開源模型阿思達克財經新聞 (2025-01-28 10:57:22)

國信證券發表報告表示,中國人工智能公司深度求索(DeepSeek)於去年12月26日上線並開源DeepSeek-V3模型,多項評測超同類開源模型,在重要領域與頂尖閉源模型相當,訓練成本低。模型層採用MoE架構,經多階段訓練與能力提煉,在知識、代碼、數學推理等測評中領先開源模型。架構層沿用V2架構,引入新技術,如無輔助損失負載均衡策略、MTP提升數據利用率。訓練層通過DualPipe算法和FP8混合精度訓練實現成本控制與效率提升。

推理層先推出R1-Lite模型,後將R1推理能力遷移至V3提升其性能,推理算力包含GB300、博通、marvell等各類asic芯片。2025年1月發布的DeepSeek-R1模型在多測試中超越OpenAI的o1,在數學、編程及多種測試中表現出色。

國信證券指,DeepSeek的MoE較傳統MoE有多方面改進。與傳統MoE架構相比,DeepSeek MoE使用了更細粒度的專家,並將部分專家設置為共享專家,能夠更精確地針對特定的問題提供解決方案。同時,傳統MoE架構採用輔助損失來鼓勵負載平衡,以免不平衡的專家載荷導致計算效率降低,但這可能在某些情況下影響模型性能。DeepSeekMoE引入了無輔助損失的負載平衡策略,在每個專家模型的任務匹配程度評分中添加一個偏置項,用於調整每個專家在決定哪些專家應該處理哪些任務時的負載,同時使用補充序列級輔助損失,以此來優化整個系統的性能和效率。

該行指,為了促進模型的高效訓練,DeepSeek實施了工程優化。首先,模型使用了DualPipe算法,以實現高效的管道並行。與現有方法相比,DualPipe具有更少的管道氣泡(等待數據處理或通信延遲形成的停滯區域),在模型訓練的前向和後向傳播過程實現了重疊計算和通信,從而提高了整體的訓練效率。其次,DeepSeek引入了FP8混合精度訓練,優化了訓練期間的內存佔用。

DualPipe技術優化通信成本。在大規模分布式訓練系統中,每個計算節點需要頻繁地與其他節點交換信息,導致部分時間在等待數據的傳輸,計算資源不能持續進行數據處理,資源利用率低下。以DeepSeek-V3為例,在模型訓練時跨節點的專家並行性帶來的通信開銷導致計算與通信的比率約為1:1。為了解決這一問題,DeepSeek在單獨的前向和後向塊內部重疊計算和通信,通過採用雙向管道調度, 同時從管道的兩端供給數據,使大部分通信可以完全重疊,從而實現通信成本的降低。

本周一(20)日晚,擁有660B參數的超大規模模型DeepSeekR1正式發布。這款模型在數學任務上表現出色,如在AIME2024上獲得79.8%的pass@1得分,略超OpenAI-o1;在MATH-500上得分高達97.3%,與OpenAI-o1相當。編程任務方面,如Codeforces 上獲得2029 Elo評級,超越96.3%的人類參與者。在MMLU、MMLU-Pro和GPQA Diamond等知識基準測試中,DeepSeek R1得分分別為90.8%、84.0%和71.5%,雖略低於OpenAI-o1,但優於其他閉源模型。在最新公布的大模型競技場LM Arena的綜合榜單中,DeepSeek R1排名第三, 與o1並列。(wl/k)~

阿思達克財經新聞
網址: www.aastocks.com
相關股票: 00020,01357,03896...
成交量排行 / 成交價排行 / 漲幅排行 / (看全部)
股票 成交價 漲跌 漲幅 成交張
世芯-KY 3450.00 +145.00 +4.39% 2,490
大立光 2735.00 -25.00 -0.91% 522
祥 碩 2135.00 -- -- 602
緯 穎 2080.00 -- -- 1,192
川 湖 1865.00 -10.00 -0.53% 2,928
加密貨幣
比特幣BTC 96611.01 -1,729.66 -1.76%
以太幣ETH 2763.47 23.45 0.86%
瑞波幣XRP 2.58 -0.11 -4.12%
比特幣現金BCH 321.58 -4.42 -1.36%
萊特幣LTC 126.58 -4.02 -3.08%
卡達幣ADA 0.778108 -0.03 -3.28%
波場幣TRX 0.236760 -0.01 -3.92%
恆星幣XLM 0.335180 -0.01 -2.77%
投資訊息
相關網站
股市服務區
行動版 電腦版
系統合作: 精誠資訊股份有限公司
資訊提供: 精誠資訊股份有限公司
資料來源: 台灣證券交易所, 櫃買中心, 台灣期貨交易所
依證券主管機關規定,使用本網站股票、期貨等金融報價資訊之會員,務請詳細閱讀「資訊用戶權益暨使用同意聲明書」並建議會員使用本網站資訊, 在金融和投資等方面,能具有足夠知識及經驗以判斷投資的價值與風險,同時會員也同意本網站所提供之金融資訊, 係供參考,不能做為投資交易之依據;若引以進行交易時,仍應透過一般合法交易管道,並自行判斷市場價格與風險。
請遵守台灣證券交易所『交易資訊使用管理辦法』等交易資訊管理相關規定本資料僅供參考,所有資料以台灣證券交易所、櫃買中心公告為準。 因網路傳輸問題造成之資料更新延誤,精誠資訊不負交易損失責任。