Google推出新AI模型Gemini，效能超越OpenAI的GPT-4V

Posted by

永遠的真田幸村

–

2023 年 12 月 7 日

Google推出了一款新的多模態人工智慧模型Gemini，其性能在32項人工智慧測試中超過OpenAI的GPT-4V，也引起業界關注。

Gemini 支援文字、圖像和聲音輸入，分為Ultra、Pro和Nano三個版本，其中Nano版本可在不聯網的情況下在智慧型手機上運行，Google說會在新出的 Google Pixle 手機新型號上實做這個 AI模型於手機上，可離線使用。

另外，Gemini使用Google的TPU晶片進行訓練，並引入了改進的編碼系統AlphaCode 2。Nano Gemini的特點是能夠在手機上總結會議錄音。Google目前正在對Ultra版本進行信任和安全測試，計畫不久後發佈。目前，Gemini Pro正在Bard中使用，預計很快會支援更多語言，我也很期待這方面的新進展呢。

這段 Google 釋出的示範影片，可以看到Gemini的多模態分析能力很強，它能夠同時觀看（輸入）影片並解讀影片內的畫面。舉例來說，Gemini能夠即時解析影片中的手繪過程及每個動作的含義。例如，解釋畫中的鴨子在水上游泳、以及它的藍色外觀。當展示者拿出一個會發聲的實體鴨子玩具時，Gemini甚至能幽默地評論，並糾正展示者的發音。

Gemini還能區分手勢的含義、識別不同物體的特徵，如食物的分類或形狀，並在觀看影片時進行推理，比如判斷哪個杯子裡藏有硬幣，模仿人類觀看影片並進行解說的行為，滿酷的。

via https://deepmind.google/technologies/gemini/#introduction

and 隆重推出 Gemini：我們最強大的 AI 模型

歡迎留下您的想法與意見:

AI, Bard, Gemini, google

永遠的真田幸村

Ivan Lin，有豐富的國際產業研究機構、智庫、科技、平面媒體 (書籍、雜誌、報紙)、電子廣電媒體、影音平台、新媒體、國際媒體經驗，Linux使用者。關心時事、經濟、開源軟體與市場情報，喜閱讀、書寫、電影、音樂、旅遊、歷史，信仰科學。是能善用科技的新舊媒體人、熟悉媒體的科技人、懂得市場分析與產業趨勢的半個法律人、能整合行銷概念的多元內容工作者與創意發想者。

新網站新氣象，會想到緞帶教堂的美好 — 一直很喜歡的緞帶教堂 Ribbon Chapel

一	二	三	四	五	六	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

Google推出新AI模型Gemini，效能超越OpenAI的GPT-4V

歡迎追蹤我們

最新文章

#hashTags