谷歌繼續上新：推理模型2.5 Pro發布，多項測試擊敗OpenAI和Grok

澎湃新聞記者胡含嫣

2025-03-26 17:31

來源：澎湃新聞

面對AI（人工智能）初創企業帶來的競爭壓力，谷歌Gemini模型開始加速上新。

當地時間3月25日，谷歌宣布推出“最智能的AI模型”Gemini 2.5系列，實驗版Gemini 2.5 Pro是該系列上線的首款推理模型。據介紹，實驗版Gemini 2.5 Pro是谷歌旗下最先進的復雜任務模型，展示了強大的推理和代碼能力，并擁有Gemini系列此前各模型所具有的全部功能。目前，該模型已在Google AI Studio和Gemini應用程序中向Gemini Advanced的訂閱用戶開放，將很快登陸谷歌模型商店Vertex AI，并在未來幾周內宣布公開定價，允許用戶進行大規模商用。

作為原生多模態大模型，Gemini 2.5 Pro可以處理來自文本、音頻、圖像、視頻和大型數據集的多模態輸入，還能夠理解編碼項目的整個代碼存儲庫。該模型具有高達100萬個tokens的超長上下文窗口，谷歌稱很快就會擴展到200萬個tokens。

目前，實驗版Gemini 2.5 Pro在GPQA和AIME 2025等多項基準測試任務中取得了優異成績，并以39分的顯著優勢在測試人類偏好的大模型競技場Chatbot Arena榜上排名第一，超越了Grok-3和GPT-4.5.

Gemini 2.5 Pro實驗版登頂大模型競技場。來源：Chatbot Arena

在全球數百位專家設計、專注于前沿知識和推理的Humanity's Last Exam中，Gemini 2.5 Pro也獲得了18.8%的最高得分。而OpenAI的o3-mini在該項目中得分為14%，DeepSeek-R1為8.6%。

Gemini 2.5 Pro在推理和知識、科學以及數學相關測試集中取得優異成績。來源：谷歌

不過，谷歌并未放出Gemini 2.5 Pro與完整版OpenAI-o1、o3等模型在基準測試中的成績對比。此外，在智能體編程評估基準SWE-bench verified中，Gemini 2.5 Pro的得分低于Claude 3.7 Sonnet。

Gemini 2.5 Pro在各項基準測試中的成績。來源：谷歌

谷歌DeepMind首席技術官Koray Kavukcuoglu表示，Gemini 2.5代表了谷歌實現“更智能、更具有推理能力的AI”的重要一步。Kavukcuoglu寫道：“現在，有了Gemini 2.5，我們通過將顯著增強的基礎模型與改進的后訓練相結合，達到了新的性能水平?！?/p>

演示視頻顯示，Gemini 2.5 Pro可以具有強大的編程能力，例如，其可以根據提示詞創建互動式圖表、將復雜數據進行可視化處理，或開發兼具設計性和可玩性的小游戲。

Gemini 2.5 Pro可以根據要求生成小游戲。來源：YouTube

25日當天，谷歌母公司Alphabet（Nasdaq：GOOGL）股價漲1.72%收于每股170.56美元，總市值2.08萬億美元。

今年以來，或許是感受到了來自“老對手”OpenAI和中國AI初創公司深度求索（DeepSeek）的持續壓力，谷歌大模型上新速度逐漸加速。去年12月，谷歌宣布了Gemini 2.0的推出。今年2月，谷歌旗下AI大模型Gemini系列全面上新，包括正式版Gemini 2.0 Flash、Gemini 2.0 Flash-Lite以及新一代旗艦大模型Gemini 2.0 Pro實驗版，并在Gemini App中推出了其推理模型Gemini 2.0 Flash Thinking實驗版。

就在谷歌宣布Gemini 2.5 Pro推出的當天，OpenAI緊隨其后，正式推出基于GPT-4o模型的原生圖像生成功能，能夠直接從文本提示生成圖像，同時支持多輪迭代優化圖像時保持角色形象一致。從25日起，該功能向所有免費和付費用戶推出，將在未來幾周內向開發者開放API調用。

此前，3月24日晚間，DeepSeek發布了V3模型的版本更新DeepSeek-V3-0324，新版本生成前端代碼的能力大大提升。初代DeepSeek-V3發布于2024年12月26日晚間，這款模型自上線后便以高性價比火速“出圈”。

責任編輯：王杰

圖片編輯：陳飛燕

校對：施鋆

澎湃新聞報料：021-962866

澎湃新聞，未經授權不得轉載

我要舉報

#谷歌 #Gemini #AI #人工智能