- +1
谷歌繼續上新:推理模型2.5 Pro發布,多項測試擊敗OpenAI和Grok
面對AI(人工智能)初創企業帶來的競爭壓力,谷歌Gemini模型開始加速上新。
當地時間3月25日,谷歌宣布推出“最智能的AI模型”Gemini 2.5系列,實驗版Gemini 2.5 Pro是該系列上線的首款推理模型。據介紹,實驗版Gemini 2.5 Pro是谷歌旗下最先進的復雜任務模型,展示了強大的推理和代碼能力,并擁有Gemini系列此前各模型所具有的全部功能。目前,該模型已在Google AI Studio和Gemini應用程序中向Gemini Advanced的訂閱用戶開放,將很快登陸谷歌模型商店Vertex AI,并在未來幾周內宣布公開定價,允許用戶進行大規模商用。
作為原生多模態大模型,Gemini 2.5 Pro可以處理來自文本、音頻、圖像、視頻和大型數據集的多模態輸入,還能夠理解編碼項目的整個代碼存儲庫。該模型具有高達100萬個tokens的超長上下文窗口,谷歌稱很快就會擴展到200萬個tokens。
目前,實驗版Gemini 2.5 Pro在GPQA和AIME 2025等多項基準測試任務中取得了優異成績,并以39分的顯著優勢在測試人類偏好的大模型競技場Chatbot Arena榜上排名第一,超越了Grok-3和GPT-4.5.

Gemini 2.5 Pro實驗版登頂大模型競技場。來源:Chatbot Arena
在全球數百位專家設計、專注于前沿知識和推理的Humanity's Last Exam中,Gemini 2.5 Pro也獲得了18.8%的最高得分。而OpenAI的o3-mini在該項目中得分為14%,DeepSeek-R1為8.6%。

Gemini 2.5 Pro在推理和知識、科學以及數學相關測試集中取得優異成績。來源:谷歌
不過,谷歌并未放出Gemini 2.5 Pro與完整版OpenAI-o1、o3等模型在基準測試中的成績對比。此外,在智能體編程評估基準SWE-bench verified中,Gemini 2.5 Pro的得分低于Claude 3.7 Sonnet。

Gemini 2.5 Pro在各項基準測試中的成績。來源:谷歌
谷歌DeepMind首席技術官Koray Kavukcuoglu表示,Gemini 2.5代表了谷歌實現“更智能、更具有推理能力的AI”的重要一步。Kavukcuoglu寫道:“現在,有了Gemini 2.5,我們通過將顯著增強的基礎模型與改進的后訓練相結合,達到了新的性能水平?!?/p>
演示視頻顯示,Gemini 2.5 Pro可以具有強大的編程能力,例如,其可以根據提示詞創建互動式圖表、將復雜數據進行可視化處理,或開發兼具設計性和可玩性的小游戲。

Gemini 2.5 Pro可以根據要求生成小游戲。來源:YouTube
25日當天,谷歌母公司Alphabet(Nasdaq:GOOGL)股價漲1.72%收于每股170.56美元,總市值2.08萬億美元。
今年以來,或許是感受到了來自“老對手”OpenAI和中國AI初創公司深度求索(DeepSeek)的持續壓力,谷歌大模型上新速度逐漸加速。去年12月,谷歌宣布了Gemini 2.0的推出。今年2月,谷歌旗下AI大模型Gemini系列全面上新,包括正式版Gemini 2.0 Flash、Gemini 2.0 Flash-Lite以及新一代旗艦大模型Gemini 2.0 Pro實驗版,并在Gemini App中推出了其推理模型Gemini 2.0 Flash Thinking實驗版。
就在谷歌宣布Gemini 2.5 Pro推出的當天,OpenAI緊隨其后,正式推出基于GPT-4o模型的原生圖像生成功能,能夠直接從文本提示生成圖像,同時支持多輪迭代優化圖像時保持角色形象一致。從25日起,該功能向所有免費和付費用戶推出,將在未來幾周內向開發者開放API調用。
此前,3月24日晚間,DeepSeek發布了V3模型的版本更新DeepSeek-V3-0324,新版本生成前端代碼的能力大大提升。初代DeepSeek-V3發布于2024年12月26日晚間,這款模型自上線后便以高性價比火速“出圈”。





- 報料熱線: 021-962866
- 報料郵箱: news@thepaper.cn
互聯網新聞信息服務許可證:31120170006
增值電信業務經營許可證:滬B2-2017116
? 2014-2025 上海東方報業有限公司




