,

超越 GPT-4?NVIDIA 開源 720 億參數 AI 模型 NVLM-D-72B,圖像理解與文字能力全面升級

Posted by

NVIDIA 日前發布了一款強大的開源人工智慧模型 NVLM-D-72B,現在也開放了下載,這個 AI 模型擁有 720 億參數,足以媲美 OpenAI 和 Google 等業界領導者的 AI 模型。這款新 AI 模型在視覺和語言任務中展現出卓越的性能,同時也提升了純文字處理的能力。

NVLM-D-72B:多模態任務的全能選手

NVLM 1.0 系列以 NVLM-D-72B 為首,展示了在處理複雜視覺和文字輸入方面的強大適應性。研究人員提供的範例中,該模型能夠解讀迷因、分析圖像,甚至逐步解決數學問題。經過多模態訓練後,NVLM-D-72B 在純文字任務上的效率也有所提升,平均在關鍵文字基準測試中準確度提高了 4.3 個百分點。

NVIDIA的研究人員強調他們的 NVLM-D-1.0-72B 在純文字的數學和程式撰寫基準測試中,相較於其文字骨幹模型展現了顯著的改進。

NVLM-D-1.0-72B 模型也展示了搭配 OCR 辨識、推理、常識、世界知識以及程式撰寫能力等多模態任務。

AI 開源策略:打破 AI 封閉趨勢

NVIDIA 不僅公開了模型的權重,還承諾發布完整的訓練程式碼,這一舉動打破了將先進 AI 系統封閉起來的行業趨勢。這為研究人員和開發者提供了前所未有的機會,讓他們能夠直接接觸並使用這項新的技術。

基準測試結果顯示,NVLM-D 模型在各種視覺和語言任務中的表現,可與 GPT-4、Claude 3.5 和 Llama 3-V 等 AI 巨頭相媲美。這意味著在不依賴大型科技公司的情況下,開源社群也能擁有強大的 AI 工具。

結合了不同的多模態處理技術的新架構

NVLM 項目還引入了創新的架構設計,結合了不同的多模態處理技術,採用了混合方法。這種創新可能會影響未來該領域的研究方向,為多模態 AI 系統的開發提供新的走法吧。

開源 AI 發展的新篇章

NVIDIA NVLM 1.0 模型釋出下載,也是滿重要的,透過開源一個可與現有 AI 大手如 ChatGPT 等匹敵的模型,NVIDIA 不僅是在分享程式碼,更是在挑戰 AI 產業的現有結構。

這一舉動我在想是否會讓其他業者也釋出更多他們的研究成果,加速 AI 的整體進步,讓更多的團隊和研究人員有機會使用曾經只有大型科技公司才能擁有的工具,讓較小的組織和獨立研究人員也有機會貢獻更多囉。

以上圖片皆由 AI 生圖模型 Dall-E 3 產生

延伸閱讀:

NVIDIA  NVLM 1.0 NVLM-D-72B 下載

NVLM: Open Frontier-Class Multimodal LLMs 論文

歡迎留下您的想法與意見:
新網站新氣象,會想到緞帶教堂的美好
一直很喜歡的緞帶教堂 Ribbon Chapel
2024 年 10 月
 123456
78910111213
14151617181920
21222324252627
28293031