近期 AI 市場持續熱門,各家推陳出新,OpenAI 最近又再度更新了人工智慧領域的發展。在周六(2月1日),他們正式推出了其最新研發的人工智慧模型 o3-mini,這款新模型的效能還不錯,也是第一次向全球免費使用者開放推理功能,在這之前呀,像我是付費用戶,就可以使用到 o1 的推理功能,但這並沒有對外開放給 ChatGPT 的免費用戶,而如今 o3-mini 也開放這項功能了,我認為是因為日前中國 AI 平台與模型 DeepSeek 釋出後,其推理功能也被業界關注, OpenAI 剛好水到渠成也順勢推出,畢竟他們還是有 AI 業界首位的光環在。
我自己實際測試 o3-mini,以及 o3-mini high,對後者的印象深刻,剛好前陣子我也測試了中國的千問 qwen、Deepseek,可以比較一下,原因後述,
o3-mini 發展進度
在 2024 年 12 月,OpenAI 首次公佈了 o3-mini 的計劃,同時也對外透露了更強大的 o3 模型,這是目前它提供公開平台 GPT-4 o1 的更上一層樓新重點版本。 o3 與 o3 mini 這兩款模型都致力於應對與程式設計、數學和科學等主題相關的複雜問題,原本 OpenAI 是打算在 2025 年 1 月底發表 o3-mini,之後再推出 o3。 如今 o3 mini 推出後,業界正在期待 o3 的正式登場。
o3-mini 的特色與效能
o3-mini 可說為科學運作與學術研究者們提供了一個靈活且有效的解決方案。從目前已知的資訊,以下是其關鍵特點:
STEM 領域的高效能推理 : o3-mini 特別最佳化了用在科學、技術、工程和數學等領域的推理,能夠處理複雜問題並在相關領域提供正確回應。
官方給的圖片中,如競賽數學(AIME 2024)、博士級科學問答(GPQA Diamond)、 Codeforces 程式設計比賽,o3-mini 它都有很多發揮空間。
根據 A/B 測試結果,o3-mini 的平均反應時間為 7.7 秒,比 o1-mini 快了 24%。
開發者友善: o3-mini 首次在小型推理模型中支援多項開發者喜歡且需要的功能,包括函數呼叫、結構化輸出、開發者訊息和串流功能。
靈活的運作模式 : 模型支援多種運作等級,使用者可以根據自身需求和限制調整 AI 推論性能與反應時間。
審慎對齊技術 : 這次 OpenAI 在訓練 o3 系列機時採用了先進的 Deliberative Alignment「審慎對齊」技術,確保模型在回答前能夠充分考量安全性規範。
效能評估 : 在高難度安全性測試中,o3-mini 明顯強於 GPT-4o 和其他競爭對手。
使用者如何體驗 o3-mini
OpenAI 提供了多樣化的方式讓使用者體驗到 o3-mini 的功能:
免費用戶 : 可直接在 ChatGPT 中選擇「Reason」來試用。
ChatGPT Plus 和團隊版 : 每日有 150 次對話限制。
ChatGPT Pro : 提供無限制訪問權。
企業和教育版 : 將在近期一周內開放使用。
此外,大家關注的 API 部分,對於 3-5 級開發者也開放了試用,現階段暫時不支援影像分析功能。
不但如此,所有付費使用者還可以選擇更高智慧等級的 o3-mini-high。
o3-mini-high
這個版本哪,我實際測試的感想,真的是寫程式和解決問題的好幫手。
同樣的問題,我在千問 qwen、DeepSeek、Claude.ai 獲得的解答,並沒辦法比 o3-mini-high 要好,它很明顯地知道我碰到的問題在哪裡,而其他關於輔助 coding 的測試也讓我滿意,這呼應了我之前提過的,各種領域的 AI 服務模型,在導入了更多不同產業的 domain knowledge 後,是可以再特化的,針對不同任務給適合的 AI 模型,這也是業界現在正積極努力的方向之一。
與 DeepSeek 的競爭
o3-mini 的推出被認為是對近期熱門的 DeepSeek 的反擊。DeepSeek 以低成本開源模型受到業界關注,不過 o3-mini 以其效能和功能上的提升,讓 OpenAI 在人工智慧領域保有相當的地位吧,只是呢,實際價格來看,應該會高於其他平台,當然也包括 DeepSeek-R1,從這個角度來看,o3-mini 仍是有相當價值的,實際效果也備受矚目。