DeepSeek R1 真的有料嗎

左打 GPT 右打 Claude 的 LLM 開源模型,歐美 AI 被超車了嗎

Chris Lee
5 min readJan 27, 2025

現在時間是 2025/01/27,在 DeepSeek 發佈最新模型 R1 後第 7 天,引發的回饋越演越烈,甚至AI市場都為之震動,美股整個嚇壞。

DeepSeek (後面簡稱DS) 的 R1 僅使用 557.6 美金,就達到媲美甚至超越 GPT-o1 的效果,要知道 o1 是目前 OpenAI 最強的閉源模型,每月課金200鎂都還有使用限制,結果現在 DS 只用1/20 的成本就超車,有如護國神山台積電死命熬出來的2奈米製成,被中國用低成本超車,台灣股價還不跌爛?!美股科技股崩盤真的是不意外。

然後看到中國超車歐美,大家第一反應應該是「真的假的」「強國作弊吧」,以為又是華為式遙遙領先,但這次真的不一樣,DeepSeek 公開了論文,且模型完全 MIT 授權開源出來,包含底層的小模型 R1-Zero,讓全世界 AI 專家為之震驚,所以你說這次有沒有料呢?

我們來從 DS 發表的論文,看一下葫蘆裡賣什麼藥。

Paper 整理幾個重點:

  • OpenAI 模型在加入 Chain-of-Thought (CoT)後,有顯著的成長,DS站在巨人的肩膀上,當然也採用 CoT 策略。
  • 使用純強化學習 (pure reinforcement learning) 來進行訓練,也就是沒有用監督學習去做 fine-tuning,從 DS-V3 模型作為基底,先使用 GRPO 作為 RL 的框架訓練 R1-Zero。眾所周知 RL 最重要的就是獎勵機制,DS 使用 Accuracy rewards、Format rewards 作為獎勵機制,而非傳統的 NN。
  • 然後跟過去 LLM 發展一樣,R1-Zero 突然頓悟了 (aha moment),推理能力大幅提升,但可能因為是純 RL 的非監督學習,output 會有語言混用的狀況,接下來就是怎麼改善目前 Zero 模型的問題。
  • 有上面的 R1-Zeor 為基礎,使用 Reinforcement Learning with Cold Start 冷啟動的方式,讓幾個 CoT 表現好的作為 RL 起點,加強學習收斂及穩定性。
  • 接下來就是各種多階段訓練 multi-stage training,針對 RL 做一些優化,如在程式、數學、科學的推理上做加強,然後上面說到的混用語言問題,也透過 RL 的獎勵機制來調整 output 的偏好。
  • 如果是非推理數據,如寫作、翻譯等創作需求,就會用 DeepSeek-V3 的 SFT 資料集,以獎勵語言通順為主。
  • Paper 內還有些對於獎勵機制的細節,但主要招式都如上所述。

上面這一套組合拳下來,DeepSeek-R1 就誕生了,看一下個模型比較見證奇蹟的時刻。

DeepSeek-R1 無疑在模型訓練給予新的思路,而且在 GPU 重重管制的情況下,使用上個世代的GPU (謠傳使用 H100) 能創造這樣的成效,搭配這樣的API 價格,只能說真香!

但即使再香,不代表 R1 打趴市面上的模型,首先在上下文 token 上是個硬傷,目前僅 64k,不如 o1 的 128k,雖然這個問題應該能再後面幾代就解決了。

此外因為是中國,怎麼可以少了言論審查呢,所以對於政治立場敏感的應用,可以確定是無法使用的~

非專業推理類的任務就掰了
相較 o1 模型給的內容豐富許多

老實說我一直以為開源模型會是 Llama 跟 Gemma 神仙打架,誰知道殺出一個 DeepSeek 一棒打死神仙,對於消費者來說有些競爭是好事,但對於歐美的 AI 巨頭來說,就是個挺尷尬的狀況,趨勢上我還是相信開源模型才是未來。

這次造成的 AI 市場波動,我還是認為短空長多,有競爭才會有進步,希望 Llama 不要再擠牙膏,快拿出厲害的開源模型出來吧~

--

--

Chris Lee
Chris Lee

Written by Chris Lee

隱身在金融業的資料科學家

Responses (1)