1. <acronym id="vwv6e"><var id="vwv6e"></var></acronym>
    2. 午夜福利国产精品视频,中文字幕日韩有码av,av午夜福利一片免费看久久,欧美牲交a欧美牲交aⅴ图片,国产精品亚洲二区在线播放,四虎在线成人免费观看,麻豆国产成人AV在线播放,亚洲av永久无码精品网站
      澎湃Logo
      下載客戶端

      登錄

      • +1

      GPT-5王座難坐穩(wěn),OpenAI想靠?jī)r(jià)格贏過(guò)一切

      2025-08-08 16:26
      來(lái)源:澎湃新聞·澎湃號(hào)·湃客
      字號(hào)

      文|魏琳華

      編|王一粟

      從2023年底OpenAI CEO Sam Altman第一次提到GPT-5,到今天模型的正式發(fā)布,時(shí)間過(guò)去了一年半。

      如今,人們?nèi)匀话疽箛^OpenAI的發(fā)布會(huì),但徹夜討論的聲音中少了驚呼,多了質(zhì)疑。

      值得欣慰的是,從模型性能上來(lái)說(shuō),OpenAI成功扳回了之前下滑的口碑。在發(fā)布會(huì)上拿出的GPT-5,依然做到了多方面能力SOTA,更是靠GPT-5直言“世界最強(qiáng)編程模型”,狙擊Claude的領(lǐng)先地位。

      但繞不開(kāi)的一些固有印象是,OpenAI拉開(kāi)同行的差距,遠(yuǎn)遠(yuǎn)不及GPT-3、GPT-4的斷崖式領(lǐng)先。

      OpenAI的同行者也虎視眈眈。不說(shuō)Anthropic本周官宣要在當(dāng)月發(fā)布大版本更新的模型,馬斯克更是刷屏一晚,強(qiáng)調(diào)自家模型Grok-4在部分測(cè)試上已經(jīng)超過(guò)了OpenAI的新模型。

      OpenAI又能在這個(gè)新“王座”上坐多久?Altman不語(yǔ),只是一味地講起了大模型便宜落地的故事。

      盯上最強(qiáng)代碼模型,GPT-5全面升級(jí)

      刷新的性能分?jǐn)?shù)、極高的性價(jià)比、針對(duì)性優(yōu)化的幻覺(jué)問(wèn)題和超長(zhǎng)上下文,方方面面的優(yōu)化,都是為了讓GPT-5成為一個(gè)更適合干活的大模型。

      首先在架構(gòu)上,GPT-5是一個(gè)統(tǒng)一架構(gòu)版本的模型,由三個(gè)部分組成:一個(gè)基礎(chǔ)模型、一個(gè)具有深度推理能力的GPT-5 thinking模型,加上一個(gè)實(shí)時(shí)路由器。

      這樣設(shè)計(jì)的好處是,實(shí)時(shí)路由器能根據(jù)對(duì)話類型、問(wèn)題復(fù)雜性、工具需求以及用戶意圖快速?zèng)Q定使用哪個(gè)模型。比如當(dāng)用戶的提示詞包括“幫我認(rèn)真思考一下”這類話術(shù),它就會(huì)調(diào)用深度推理模型。

      在發(fā)布會(huì)前一天就大肆預(yù)熱的Altman,就在X上發(fā)圖暗示GPT-5的性能優(yōu)勢(shì),在發(fā)布會(huì)上,他也強(qiáng)調(diào)了對(duì)GPT-5的信心。

      “如果說(shuō)和GPT-4的聊天像跟高中生對(duì)話,和O3像是跟大學(xué)生聊天,那么跟GPT-5的交流就相當(dāng)于對(duì)話博士生?!盇ltman這樣定義GPT-5的體驗(yàn)感受。

      先從性能說(shuō)起,被Altman當(dāng)成殺器的GPT-5,確實(shí)在多個(gè)模型能力上做到了SOTA。聚焦到測(cè)評(píng)指標(biāo)上,GPT-5的優(yōu)勢(shì)體現(xiàn)在編程、數(shù)學(xué)、多模態(tài)理解和健康等方面。

      先說(shuō)OpenAI著重放到開(kāi)頭講的編程能力,這一次,OpenAI如愿以償?shù)負(fù)尰亓祟I(lǐng)先地位。用他們的話說(shuō),“GPT-5是世界上最強(qiáng)的編程模型?!?/p>

      在SWE-Bench(測(cè)試大模型代碼補(bǔ)全能力)的指標(biāo)上,GPT-5的推理版本拿到了74.9%,不僅超越了自家模型O3,也超越了Anthropic剛發(fā)布的Claude Opus 4.1(74.5%)。在編程能力上,OpenAI搶過(guò)了Claude系列的王座。

      發(fā)布會(huì)現(xiàn)場(chǎng),OpenAI通過(guò)一些案例具體展示了OpenAI的編程能力,比如讓它做一個(gè)闡釋伯努利效應(yīng)的網(wǎng)頁(yè),在兩分鐘內(nèi),GPT-5跑出了400行代碼,做了一個(gè)支持調(diào)整參數(shù)的網(wǎng)頁(yè)版本。

      除此之外,OpenAI還展示了模型做一些網(wǎng)頁(yè)端小游戲的能力,比如蹦跳躲障礙的網(wǎng)頁(yè)小游戲、隨心畫畫的畫布小游戲,還有美觀提升一個(gè)度的貪吃蛇。這些能力其實(shí)交給當(dāng)下一些開(kāi)源大模型同樣能完成,只是OpenAI的美觀度和流程完整度上了一個(gè)臺(tái)階。

      除了這種面向C端用戶體驗(yàn)的案例,在B端實(shí)際使用上,OpenAI也面向開(kāi)發(fā)者演示了GPT-5寫代碼落地的能力,GPT-5不再埋頭寫代碼,而是把“開(kāi)箱可用”的落地能力夯實(shí)了。比如,GPT-5在后臺(tái)寫代碼并自行優(yōu)化迭代之后,按照需求開(kāi)發(fā)了一個(gè)財(cái)務(wù)信息看板,UI做得也足夠漂亮。

      除了編程,在其他多個(gè)維度上,GPT-5也有部分指標(biāo)刷新自家模型的上限,包括數(shù)學(xué)(AIME 2025,GPT-5無(wú)工具版本拿到94.6%)、多模態(tài)理解(MMMU 為 84.2%)和健康(HealthBench Hard 為 46.2%)。

      GPT-5再次向我們證明了“模型即產(chǎn)品”的觀點(diǎn)可行性——加上工具能力的GPT-5 pro,它甚至能直接把AIME 2025(美國(guó)數(shù)學(xué)競(jìng)賽)的測(cè)試刷滿分。

      不過(guò),OpenAI的翻車變成了第一個(gè)出圈的討論。在發(fā)布會(huì)演示的現(xiàn)場(chǎng),OpenAI上來(lái)就犯了一個(gè)非常嚴(yán)重和低級(jí)的錯(cuò)誤:在現(xiàn)場(chǎng)展示的圖表中,數(shù)字大小和柱狀圖顯示的關(guān)系甚至都匹配不上,69.1和30.8的柱圖高度一模一樣,52.8甚至比69.1更大......

      對(duì)此,光錐智能也隨便給了一組數(shù)據(jù)測(cè)試,讓GPT-5做柱狀圖。最終跑出來(lái)的數(shù)據(jù)和圖表關(guān)系對(duì)照沒(méi)有錯(cuò)誤,可見(jiàn)不是模型生成的問(wèn)題,大概單純是制圖失誤。

      除了上述優(yōu)化外,GPT-5還在模型的超長(zhǎng)上下文理解、幻覺(jué)問(wèn)題等方面做調(diào)整,一切的努力都是為了讓這個(gè)模型能夠更好地落地。

      根據(jù)OpenAI給出的數(shù)據(jù),GPT-5在上下文理解上的處理效果不僅有所提升,并且在文本更長(zhǎng)的階段(比如輸入在128-256k長(zhǎng)度),可以從圖示看到,GPT-5理解能力下降的速度顯著低于其他模型。再有,GPT-5還顯著降低了幻覺(jué)問(wèn)題,其事實(shí)錯(cuò)誤率比GPT-4o降低了45%,這對(duì)于模型應(yīng)用在法律、醫(yī)療等要求精準(zhǔn)的行業(yè)算是利好。

      如果從性能上評(píng)估,GPT-5雖然能力全面升級(jí),不過(guò)顯然不是大眾期待的顛覆式超越。但從性價(jià)比上來(lái)說(shuō),GPT-5給出的價(jià)格直接甩了對(duì)手一條街。

      以標(biāo)準(zhǔn)版的GPT-5來(lái)說(shuō),和Claude Opus 4.1每百萬(wàn)Token輸入15美元、輸出75美元的定價(jià)相比,前者的輸入價(jià)格低于后者的1/10,輸出價(jià)格低于后者1/7。

      極低的價(jià)格,也是OpenAI愿意限量免費(fèi)開(kāi)放給所有用戶使用的底氣。目前,免費(fèi)用戶也可以體驗(yàn)到GPT-5,不過(guò)區(qū)別于付費(fèi)用戶的不限量開(kāi)放,前者會(huì)在用到一定額度后自動(dòng)切換為GPT-5-mini模型使用。

      此外,針對(duì)開(kāi)發(fā)者使用的不同需求,GPT-5還在API 中引入了新功能,通過(guò)控制冗余量(verbosity)的方式,分為低中高三檔,幫助開(kāi)發(fā)者控制AI生成內(nèi)容的長(zhǎng)短。

      難坐穩(wěn)的SOTA但價(jià)格或許能贏過(guò)一切

      GPT-5固然在多項(xiàng)能力上刷新了SOTA紀(jì)錄,但這種領(lǐng)先優(yōu)勢(shì),不再是需要長(zhǎng)期追趕的鴻溝。

      先從本次OpenAI最先喊出的“最強(qiáng)編程模型”來(lái)說(shuō),領(lǐng)先于Claude Opus 4.1僅0.4%的優(yōu)勢(shì),很有可能在本月被Anthropic趕超。

      從去年挖角OpenAI成員,再到部分能力超過(guò)OpenAI旗艦?zāi)P汀nthropic正處在像之前OpenAI狙擊Google新模型的階段,緊緊追著OpenAI的步伐。

      本月,在OpenAI發(fā)布兩個(gè)開(kāi)源模型的當(dāng)天,Anthropic早其十幾分鐘,發(fā)布了小更新版本Claude 4.1。特別是在這家公司還預(yù)告了“大幅度更新模型”即將在本月發(fā)布的情況下,0.4%的微弱差距,很難讓人對(duì)OpenAI保持樂(lè)觀。

      微弱的優(yōu)勢(shì)同樣造成了評(píng)測(cè)口碑的兩極分化。即使OpenAI喊出了最佳編程模型的地位,但在用戶使用體驗(yàn)的階段,OpenAI還沒(méi)有形成一邊倒的優(yōu)勢(shì)。

      有用戶表示,對(duì)比GPT-5和Claude,后者跑出的各個(gè)案例都明顯優(yōu)于前者,在UI和前端效果上更佳;也有用戶認(rèn)為,用GPT-5跑出來(lái)的代碼效果更精細(xì)。

      而GPT-5的面面俱到以及微弱優(yōu)勢(shì),或許還不如前一天Google發(fā)布的視覺(jué)生成模型Genie更讓人印象深刻。畢竟每秒24幀已經(jīng)能讓AI跑出來(lái)的視頻達(dá)到流暢的效果,畫質(zhì)720p的清晰度也翻越了一倍。

      在Anthropic、Google等競(jìng)爭(zhēng)對(duì)手的步步緊逼下,AI領(lǐng)域的“SOTA”寶座,正變得越來(lái)越難以坐穩(wěn),也難以留下深刻印象。

      那么,在性能趨同的背景下,AI大模型的競(jìng)爭(zhēng)將走向何方?OpenAI給出的答案是價(jià)格。當(dāng)技術(shù)領(lǐng)先難以形成絕對(duì)壁壘時(shí),“價(jià)格戰(zhàn)”才是贏得市場(chǎng)的終極武器。

      “GPT-5 是我們迄今為止最聰明的模型,但我們主要追求的是實(shí)際應(yīng)用價(jià)值和大規(guī)模的普及/負(fù)擔(dān)能力。”Altman在X上說(shuō),“我們完全可以發(fā)布更智能的模型,而且我們會(huì)這樣做,但這個(gè)模型將有數(shù)十億人受益。”

      通過(guò)優(yōu)化成本的方式,OpenAI的價(jià)格雖然不能和國(guó)內(nèi)便宜大碗的開(kāi)源模型們比較,不過(guò)和一個(gè)月讓程序員輕松花掉上千美元的Claude相比,OpenAI能在API端把輸入輸出價(jià)格分別拉低到1/10和1/7,其成本優(yōu)勢(shì)斷層領(lǐng)先。

      這也是為什么發(fā)布會(huì)后半場(chǎng),OpenAI開(kāi)設(shè)了一個(gè)“開(kāi)發(fā)者專場(chǎng)”,專門面向開(kāi)發(fā)者群體展示模型的實(shí)用能力,并拉來(lái)Cursor CEO、Manus的首席科學(xué)家背書,秀自家模型在Agent、Vibe Coding(氛圍式編程)上的效果。

      于C端,免費(fèi)開(kāi)放的GPT-5將大幅提升之前無(wú)法體驗(yàn)O3等付費(fèi)模型用戶的使用體驗(yàn);于B端,便宜的API也會(huì)成為開(kāi)發(fā)者尋求性價(jià)比的考慮。

      從GPT-5秘密訓(xùn)練到發(fā)布的一年半之間,OpenAI真正的壁壘已然不再靠越來(lái)越短的SOTA紅利支撐,而是變成了價(jià)格和模型的落地效果。

      當(dāng)成本急劇降低到更普適大眾的節(jié)點(diǎn),AI應(yīng)用的爆發(fā),才能指日可待。

        本文為澎湃號(hào)作者或機(jī)構(gòu)在澎湃新聞上傳并發(fā)布,僅代表該作者或機(jī)構(gòu)觀點(diǎn),不代表澎湃新聞的觀點(diǎn)或立場(chǎng),澎湃新聞僅提供信息發(fā)布平臺(tái)。申請(qǐng)澎湃號(hào)請(qǐng)用電腦訪問(wèn)http://renzheng.thepaper.cn。

                查看更多

                掃碼下載澎湃新聞客戶端

                滬ICP備14003370號(hào)

                滬公網(wǎng)安備31010602000299號(hào)

                互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006

                增值電信業(yè)務(wù)經(jīng)營(yíng)許可證:滬B2-2017116

                ? 2014-2025 上海東方報(bào)業(yè)有限公司

                反饋
                主站蜘蛛池模板: 超碰成人人人做人人爽| 收藏| 久播影院无码中文字幕| 黄色不卡视频一区二区三区 | 国产欧美精品aaaaaa片| 午夜在线观看成人av| 四虎成人精品在永久免费| 东京热一精品无码av| 毛茸茸性xxxx毛茸茸毛茸茸| 成人乱码一区二区三区四区| 日本中文字幕有码在线视频| 东京热一精品无码av| 国产在线观看91精品亚瑟| 开心五月深深爱天天天操| 日本国产一区二区三区在线观看| 亚洲日韩性欧美中文字幕| 日本丰满的人妻hd高清在线| 国产精品美女免费无遮挡| 日本无码欧美一区精品久久| 国产精品一区二区日韩精品| 国产在线观看免费观看| 国产成人午夜精品永久免费| 99久久婷婷国产综合精品青草漫画 | 国产精品高清一区二区三区不卡| 久久狠狠高潮亚洲精品夜色| 康保县| 激情五月日韩中文字幕| 久久无码中文字幕免费影院| 平遥县| 日本一二三区视频在线| 人禽无码视频在线观看| 国产精品午夜福利资源| 亚洲国产精品成人无码区| 人妻少妇精品无码专区二区| 精品国产精品中文字幕| 国产91午夜福利精品| 丰满少妇高潮无套内谢| 国产不卡一区二区在线视频| 欧美丰满熟妇xxxx性大屁股| 伊人成色综合人夜夜久久| 国产免费高清69式视频在线观看 |