DeepSeek R1 測試感想

Posted by

中國的 DeepSeek AI 模型日前非常熱門,包括 DeepSeek V3、DeepSeek R1 的釋出,其呈現的效果不輸美國幾家大手的 AI 模型,讓人好奇是怎樣做的,如果觀看他們的論文,大概可知一二,這種訓練方式後續也會各家來採用,來加快迭代的時間,以及提升模型的品質。DeepSeek 也能夠在本地端跑,然後雲端一堆可以測試的,而許多UI直接可以串它的API去用。預期未來滿多其他AI模型也會用新的訓練方法和流程去改善各自的產品。

DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning 論文在這邊,可以好好看他們的寫法,這篇論文最大的貢獻,主要就是在 LLM 的訓練方法論上。

根據諸多報導和市場跡象顯示,DeepSeek 對外講的號稱是大廠十分之一的低成本訓練,其實重點只有在 V3 這個模型的後訓練中提到,實際上他們可能還是有數萬張 Nvidia H100之類的算力資源在支撐著 R1 的前期訓練和計算。從另一個角度來看,不論是怎樣的成本訓練降低,還是需要 Nvidia 高效能繪圖卡,以及相當的運算資源,這點在馬斯克他們 X.AI,透過相當數量的 Nvidia 顯卡,但改用不同的訓練方式,也能產出相當優秀的 X.AI 模型成果是異曲同工之妙。

DeepSeek 本身使用的基礎模型是Meta 的 llama 3,並使用 gpt4o 作為驗證器,我自己除了測試 DeepSeek 的雲端版本外,也把 DeepSeek 可在本地端跑的版本也下載到電腦中讓我的設備去跑,以及丟到 NAS 上去跑。我自己測試的結果,是很明顯如果單單要讓處理器去運算我提問的問題,系統要跑非常久的時間,當你把 layer 指定給 GPU 的部分納入,速度才會快上一點。

現階段在雲端跑的 DeepSeek 就滿多可以測試看看效果的,而蒸餾過的縮小版模型,我覺得進一步來說,再繼續改善後,在中國市場自己品牌的智慧型手機或許能夠納入,跑滿多日常生活中會用到的情境應用輔助。

DeepSeek 資料集的部分,我觀察到它用了相當多中國市場在地的網路文本來訓練,不論是網路小說啦,論壇資料、新聞資料等等,這讓 DeepSeek 在進行創作上,會有不錯的效果,畢竟是有一堆資料拿來跑。

按照市場上謠傳的中國團隊其實透過新加坡買了一堆 Nvidia 顯卡資源,也是有可能的,因為這個號稱低成本訓練的模型,從已知資料來看,應該只有後面的訓練是這樣用的,實際上,進一步來看,打造出 DeepSeek 的中國廠商幻方,那個五百多萬美元的低成本訓練,是在 DeepSeek v3技術文件上提到的,且是真的僅包括DeepSeek-V3的正式訓練,不包括Pre Training、前期研究、演算法、資料集相關的成本。

從架構上來看,R1 和其他 AI 模型相比,真的沒有非常特別的地方,能讓人津津樂道的,是它最大的改變是整個訓練的流程是新的,而這種新的流程的改變,就能夠有更好的結果,而依據這樣的案例來看,擁有高算力的其他 AI 大手公司,也能夠藉由這個方法,以及這個方法的改良,去打造出更優質的 AI 模型出來。

由於 DeepSeek 目前是開放原始碼,和之前 Meta 釋出的 llama 都是開放原始碼,所以可以期待之後更多人參考這部分的進展。

對於市場上其他 AI 公司、Nvidia 晶片廠商來說,AI 的算力資源確實還是重點,而包括我之前提到 Google 在 2025 年新的 AI 運算場、Meta、OpenAI、X.AI與微軟等廠商繼續在算力方面的投資,可預期 2025 下半年將會有相當精彩的新模型與更好的應用能誕生,而中國的 AI 市場發展,是否會受到算力的影響,也是未來觀察的重點。

歡迎留下您的想法與意見:
新網站新氣象,會想到緞帶教堂的美好
一直很喜歡的緞帶教堂 Ribbon Chapel
2025 年 1 月
 12345
6789101112
13141516171819
20212223242526
2728293031