您現(xiàn)在的位置：首頁(yè)圍場(chǎng)科技 OpenAI正式發(fā)布o(jì)3：通往AGI的路上，已經(jīng)沒(méi)有了任何阻礙

OpenAI正式發(fā)布o(jì)3：通往AGI的路上，已經(jīng)沒(méi)有了任何阻礙

初柳小娘子 2024-12-21 圍場(chǎng)科技 390 次瀏覽 6個(gè)評(píng)論

　　本文來(lái)源：數(shù)字生命卡茲克，原文標(biāo)題：《OpenAI正式發(fā)布o(jì)3 - 通往AGI的路上，已經(jīng)沒(méi)有了任何阻礙》

　　o3的能力，對(duì)現(xiàn)在所有模型，幾乎都直接是降維打擊。

　　今天凌晨2點(diǎn)，OpenAI的12天直播，終于來(lái)到了最終章。

　　奧特曼，也在一片圣誕的氣息中終于回歸。

　　為大家?guī)?lái)了最后的壓軸大戲。

　　OpenAI o3。

　　又一次超群，又一次把模型的能力，推到了新的高度。

　　也向全世界證明了，OpenAI，依然在鐵王座上牢不可摧。

　　我也想起了OpenAI研究員在發(fā)布o(jì)1之前的那句話：

　　“我們通往AGI的路上，已經(jīng)沒(méi)有任何阻礙了”

　　之所以O(shè)penAI直接發(fā)布o(jì)3沒(méi)有o2，原因也挺簡(jiǎn)單的。

　　因?yàn)楦?guó)電信服務(wù)提供商O(píng)2可能存在版權(quán)或商標(biāo)沖突，所以直接跳過(guò)了。。。

　　直接到o3。

　　而OpenAI直播一完，X上基本就沸騰了。

　　o3的能力，對(duì)現(xiàn)在所有模型，幾乎都直接是降維打擊。

　　看下o3的能力吧。

　　一些粗的評(píng)測(cè)集簡(jiǎn)單過(guò)一下。

　　左邊的是軟件工程考試（SWE-Bench Verified），這就像是一個(gè)考寫(xiě)程序的考試，比如你寫(xiě)一個(gè)軟件要它快速、準(zhǔn)確，還不能有 bug（小錯(cuò)誤）。這是考察 o3 是否能像一流的軟件工程師一樣寫(xiě)出完美的代碼。

　　o3 的成績(jī)：71.7%，比o1還強(qiáng)了不少。

　　右邊的那個(gè)基準(zhǔn)比較猛，Codeforces，一個(gè)全球著名的編碼競(jìng)賽平臺(tái)。

　　o3的得分是2727，這個(gè)得分，相當(dāng)于整個(gè)榜單的第175名，已經(jīng)超越了99.99%的人類了。

　　o1的代碼能力已經(jīng)強(qiáng)到爆炸了，而o3，又向AGI的山頂，前進(jìn)了一大步。

　　數(shù)學(xué)競(jìng)賽AIEM 2024和博士級(jí)科學(xué)考試GPQA Diamond。

　　AIEM 2024接近滿分，如果我沒(méi)記錯(cuò)的話，這應(yīng)該也是第一次AI能達(dá)到有AIEM接近滿分的水平。

　　博士級(jí)科學(xué)考試有進(jìn)化，但沒(méi)數(shù)學(xué)和編程進(jìn)化的這么猛。

　　接下來(lái)的這個(gè)數(shù)學(xué)基準(zhǔn)比較有趣一點(diǎn)。

　　FrontierMath，Epoch AI 開(kāi)發(fā)的一個(gè)數(shù)學(xué)基準(zhǔn)測(cè)試，由60多位頂尖數(shù)學(xué)家的合作開(kāi)發(fā)，旨在評(píng)估人工智能在高級(jí)數(shù)學(xué)推理方面的能力。

　　而且為了避免數(shù)據(jù)污染，所有的題目都是原創(chuàng)的且從來(lái)沒(méi)有發(fā)布過(guò)的新題目。

　　之前GPT-4 和 Gemini 1.5 Pro這種模型去評(píng)估的時(shí)候，成功功率不足2%，與其他傳統(tǒng)數(shù)學(xué)基準(zhǔn)（如 GSM-8K 和 MATH）中超過(guò)90%的成功率形成鮮明對(duì)比。

　　而這一次，o3直接達(dá)到了25.2。

　　當(dāng)各大其他模型都還在卷傳統(tǒng)數(shù)學(xué)基準(zhǔn)的時(shí)候，o3真的已經(jīng)進(jìn)入了另一個(gè)世界了。。。

　　就像大家還在大斗師階段互相卷，你是五星大斗師，我是八星大斗師。

　　兩者爭(zhēng)論不休，正準(zhǔn)備要比試比試，忽然就看到一個(gè)斗宗強(qiáng)者踏空而行，留下一地的臥槽。

　　這還比個(gè)鬼。

　　然后，就是我覺(jué)得，整個(gè)基準(zhǔn)里，最有趣的一個(gè)基準(zhǔn)了：

　　ARC-AGI。

　　先說(shuō)說(shuō)這是個(gè)啥玩意。

　　ARC-AGI于2019年首次提出，旨在通過(guò)一系列抽象和推理任務(wù)來(lái)測(cè)試AI系統(tǒng)的能力。

　　主要是因?yàn)閭鹘y(tǒng)的技能測(cè)量方法并不能有效代表智能，因?yàn)樗鼈兺蕾囉谙惹爸R(shí)和經(jīng)驗(yàn)，而真正的智能應(yīng)體現(xiàn)在廣泛的適應(yīng)能力和通用性上。

　　所以，ARC-AGI誕生了，里面的這些任務(wù)要求AI識(shí)別模式并解決新問(wèn)題，每個(gè)任務(wù)由輸入輸出示例組成。這些任務(wù)以網(wǎng)格形式呈現(xiàn)，每個(gè)方塊可以是十種顏色中的一種，網(wǎng)格的大小可以從1x1到30x30不等。參與者需要根據(jù)給定的輸入生成正確的輸出，測(cè)試其推理和抽象能力。

　　可以簡(jiǎn)單的理解成，找規(guī)律。

　　大概就是這樣的。

　　非常的難且抽象。

　　過(guò)去幾代模型的評(píng)分在此：

　　* GPT-2 （2019）： 0%

　　* GPT-3 （2020）： 0%

　　* GPT-4 （2023）： 2%

　　* GPT-4o （2024）： 5%

　　* o1-preview （2024）： 21%

　　* o1 （2024）： 32%

　　* o1 Pro （2024）： ~50%

　　但是今天，o3的分?jǐn)?shù)，達(dá)到了恐怖的87.5%。

　　從0%到5%，整整花了5年的時(shí)間，而如今，從5%到87.5%，僅僅只花了半年。

　　而對(duì)應(yīng)的，人類的閾值分?jǐn)?shù)，是85%。

　　我們通往AGI的路上，已經(jīng)沒(méi)有任何阻礙了。

　　不過(guò)o3強(qiáng)歸強(qiáng)，但是又是一個(gè)期貨，OpenAI目前只對(duì)紅隊(duì)開(kāi)放，如果是巨佬的話，可以去申請(qǐng)?jiān)囋嚒?/p>

　　目前不知道o3什么時(shí)候放出，但是OpenAI又基于o3，訓(xùn)了3個(gè)小尺寸的o3模型。

　　目前o3-mimi，預(yù)估在1月底可以對(duì)外開(kāi)放，但是感覺(jué)到時(shí)候，肯定又是pro會(huì)員專屬的模型了。

　　我越來(lái)越期待，2025年AI行業(yè)的進(jìn)化了。

　　推理模型、Agent、AI硬件、世界模型。

　　每一個(gè)都是比這個(gè)中間態(tài)的2024，都更讓人興奮的東西。

　　2025，必是AI行業(yè)，真正的星辰大海。

　　我們也在最后，回顧一下這12天的直播吧。

　　Day 1：滿血o1上線，ChatGPT Pro會(huì)員上線，o1 pro推出。

　　Day 2：基于o1的強(qiáng)化微調(diào)。

　　Day 3：Sora正式發(fā)布。

　　Day 4：ChatGPT Canvas全員開(kāi)放以及小功能更新。

　　Day 5：給蘋(píng)果站臺(tái)，宣傳蘋(píng)果全系接入GPT。

　　Day 6：4o的實(shí)時(shí)視頻理解上線。

　　Day 7：ChatGPT發(fā)布新建文件夾“項(xiàng)目”功能。

　　Day 8：ChatGPT Search全量開(kāi)放，搜索體驗(yàn)大幅優(yōu)化。

　　Day 9：發(fā)布了o1的API、更新了實(shí)時(shí)語(yǔ)音的API、發(fā)布了偏好微調(diào)能力（PFT）。

　　Day 10：物理意義上的可以給ChatGPT打電話了。

　　Day 11：炒冷飯，ChatGPT 桌面版能讀到別的應(yīng)用。

　　Day 12：OpenAI o3正式發(fā)布。

　　這12天，稍微有點(diǎn)驚喜的日子大概只有2、3天，其他都是垃圾時(shí)間。

　　還好，今天的大貨，補(bǔ)上了之前的陰霾。

　　最后，還是忍不住感嘆一聲。

　　這12天，像一場(chǎng)漫長(zhǎng)的馬拉松。

　　我們經(jīng)歷了深夜中數(shù)不勝數(shù)的垃圾時(shí)間。

　　卻也迎來(lái)了最后的高光時(shí)刻。

　　這感覺(jué)。

　　還挺AI的。

　　風(fēng)險(xiǎn)提示及免責(zé)條款

　　市場(chǎng)有風(fēng)險(xiǎn)，投資需謹(jǐn)慎。本文不構(gòu)成個(gè)人投資建議，也未考慮到個(gè)別用戶特殊的投資目標(biāo)、財(cái)務(wù)狀況或需要。用戶應(yīng)考慮本文中的任何意見(jiàn)、觀點(diǎn)或結(jié)論是否符合其特定狀況。據(jù)此投資，責(zé)任自負(fù)。

你可能想看：

OpenAI奧特曼：已找到通往AGI之路，今年首批AI智能體“就業(yè)”

OpenAI大地震一分為二，全力沖刺AGI！一半向錢(qián)看，一半裝理想

看了今天OpenAI的新品發(fā)布直播，我感覺(jué)被奧特曼耍了

奧特曼給粉絲潑冷水：把期望降低100倍 OpenAI下月不會(huì)部署AGI

隔夜要聞：美股收跌納指金龍大漲逾8.5% 英偉達(dá)涉嫌違反反壟斷法 OpenAI發(fā)布視頻模型Sora 蘋(píng)果創(chuàng)歷史新高

蘋(píng)果發(fā)布軟件更新 Siri正式接入ChatGPT

消息稱OpenAI計(jì)劃放棄AGI限制條款以吸引更多投資

事關(guān)數(shù)字澳門(mén)元，澳門(mén)金融管理局正式發(fā)布！

博通的“英偉達(dá)時(shí)刻”已經(jīng)到來(lái) 現(xiàn)在只欠持續(xù)的亮眼表現(xiàn)

安徽民營(yíng)企業(yè)百?gòu)?qiáng)榜單發(fā)布，營(yíng)收百?gòu)?qiáng)營(yíng)收總額超1600億元

轉(zhuǎn)載請(qǐng)注明來(lái)自服裝零售_服裝批發(fā)_服裝貿(mào)易，本文標(biāo)題：《OpenAI正式發(fā)布o(jì)3：通往AGI的路上，已經(jīng)沒(méi)有了任何阻礙》