Google推出了一款新的多模態人工智慧模型Gemini,其性能在32項人工智慧測試中超過OpenAI的GPT-4V,也引起業界關注。
Gemini 支援文字、圖像和聲音輸入,分為Ultra、Pro和Nano三個版本,其中Nano版本可在不聯網的情況下在智慧型手機上運行,Google說會在新出的 Google Pixle 手機新型號上實做這個 AI模型於手機上,可離線使用。
另外,Gemini使用Google的TPU晶片進行訓練,並引入了改進的編碼系統AlphaCode 2。Nano Gemini的特點是能夠在手機上總結會議錄音。Google目前正在對Ultra版本進行信任和安全測試,計畫不久後發佈。目前,Gemini Pro正在Bard中使用,預計很快會支援更多語言,我也很期待這方面的新進展呢。
這段 Google 釋出的示範影片,可以看到Gemini的多模態分析能力很強,它能夠同時觀看(輸入)影片並解讀影片內的畫面。舉例來說,Gemini能夠即時解析影片中的手繪過程及每個動作的含義。例如,解釋畫中的鴨子在水上游泳、以及它的藍色外觀。當展示者拿出一個會發聲的實體鴨子玩具時,Gemini甚至能幽默地評論,並糾正展示者的發音。
Gemini還能區分手勢的含義、識別不同物體的特徵,如食物的分類或形狀,並在觀看影片時進行推理,比如判斷哪個杯子裡藏有硬幣,模仿人類觀看影片並進行解說的行為,滿酷的。
via https://deepmind.google/technologies/gemini/#introduction