东京道一本热中文字幕_久久久这里有精品_国产精品无码中出一区二区三区_亚洲一级在线播放a_嗯好大好爽高潮了av大片_一级毛片黄色

DeepSeek火出圈,英偉達完了嗎?

DeepSeek火出圈,英偉達完了嗎?

涵亮醬吖 2024-12-29 圍場科技 201 次瀏覽 0個評論

  DeepSeek v3因為是后發(fā),完全可以避開前人走的坑,用更高效方式避坑,也就是“站在巨人的肩膀上”。真實邏輯應(yīng)該是:榨干同等算力去攫取10倍收益。就比如o1的訓練成本遠超GPT-4,而o3的訓練成本大概率遠超o1。從前沿探索角度看,訓練所需算力只會越來越多。應(yīng)用生態(tài)越繁榮,只會讓訓練投入的支付能力更強;而算力通縮,只會讓同等投入買到更多訓練Flops。

  首先訓練同一代模型所需算力每隔N個月就是指數(shù)級降低,這里面有算法進步、算力本身通縮、數(shù)據(jù)蒸餾等等因素,這也是為什么說“模型后發(fā)更省力”。援引下星球內(nèi)一則評論:“就好像看過幾遍答案,水平很一般的學生也能在1小時內(nèi)把高考數(shù)學卷整出滿分”。?DeepSeek v3因為是后發(fā),完全可以避開前人走的坑,用更高效方式避坑,也就是“站在巨人的肩膀上”。因此幻方在GPT4o發(fā)布7個月后,用1/10算力實現(xiàn)幾乎同等水平,是合理的,甚至可以作為未來對同代模型訓練成本下降速度的預測。但這里面依然有幾個概念上的誤解。

  首先是“訓練”范圍上的混淆。幻方的論文明確說明了:“上述成本僅包括DeepSeek-V3 的正式訓練,不包括與架構(gòu)、算法、數(shù)據(jù)相關(guān)的前期研究、消融實驗的成本。”?也就是星球內(nèi)一位算法工程師說的“有點斷章取義,幻方在訓這個模型之前,用了他們自己的r1模型(對標openai o1)來生成數(shù)據(jù),這個部分的反復嘗試要不要算在成本里呢?單就在訓練上做降本增效這件事,這不代表需求會下降,只代表大廠可以用性價比更高的方式去做模型極限能力的探索。應(yīng)用端只要有增長的邏輯,推理的需求依然是值得期待的。”

  隨著Ilya說的“公開互聯(lián)網(wǎng)數(shù)據(jù)窮盡”,未來合成數(shù)據(jù)是突破數(shù)據(jù)天花板的重要來源,且天花板理論上足夠高。相當于過去的預訓練范式從卷參數(shù)、卷數(shù)據(jù)總量,到了卷數(shù)據(jù)質(zhì)量,卷新的Scaling因子(RL、測試時間計算等),而算力只不過換了個地方,繼續(xù)被其他訓練環(huán)節(jié)榨干。

  從目前各大實驗室的實際情況看也是,OpenAI、Anthropic至今仍處于缺卡狀態(tài),相信幻方也是。看訓練算力是否下降,不應(yīng)該只看某代模型某次訓練這種切面,而應(yīng)該從“總量”以及“自上而下”去看,這些實驗室的訓練算力總需求是下降了嗎?反而一直在上升。預訓練的經(jīng)濟效益下降,那就把卡挪給RL post train,發(fā)現(xiàn)模型實現(xiàn)同等提升所需卡減少了,那就減少投入了嗎?不會,真實邏輯應(yīng)該是:榨干同等算力去攫取10倍收益。就比如o1的訓練成本遠超GPT-4,而o3的訓練成本大概率遠超o1。從前沿探索角度看,訓練所需算力只會越來越多。應(yīng)用生態(tài)越繁榮,只會讓訓練投入的支付能力更強;而算力通縮,只會讓同等投入買到更多訓練Flops。

  就好比幻方這次發(fā)布的模型,依然是LLM路線下,將MoE壓榨到了極致。但相信幻方自己的推理模型r1(對標o1)也在探索r2/r3,這顯然需要更多算力。而r2/r3訓完,又被用來消耗大量算力為deepseek v4合成數(shù)據(jù)。發(fā)現(xiàn)沒,pre-train scaling、RL scaling、test-time compute scaling三條線甚至還有正反饋。因此,只會在可獲得最大資源的前提下,用最高效的算法/工程手段,壓榨出最大的模型能力提升。而不會因為效率提升而減少投入,個人認為這是個偽邏輯。

  對于推理,不必多說了,一定是上升。引用下星球內(nèi)洪博的評論:DeepSeek-V3的出現(xiàn)(可能還包括輕量版V3-Lite),將支持私有部署和自主微調(diào),為下游應(yīng)用提供遠大于閉源模型時代的發(fā)展空間。未來一兩年,大概率將見證更豐富的推理芯片產(chǎn)品、更繁榮的LLM應(yīng)用生態(tài)。

  文章來源:信息平權(quán),原文標題:《訓練算力真的下降了嗎?》

你可能想看:

轉(zhuǎn)載請注明來自服裝零售_服裝批發(fā)_服裝貿(mào)易,本文標題:《DeepSeek火出圈,英偉達完了嗎?》

每一天,每一秒,你所做的決定都會改變你的人生!

發(fā)表評論

快捷回復:

評論列表 (暫無評論,201人圍觀)參與討論

還沒有評論,來說兩句吧...

Top
網(wǎng)站統(tǒng)計代碼
主站蜘蛛池模板: 亚洲全部视频 | 黄色av观看| 高清精品自拍亚洲 | 青青草久草| 你好星期六加更版免费观看 | 亚洲国产123 | 亚洲精品97久久久babes | gogogo免费观看 | 成年人小视频在线观看 | 韩国理伦片一区二区三区在线播放 | 国产黄色大片在线观看 | 免费av在线播放 | 亚洲精选久久 | 健身瑜伽4免费观看 | 国产美女高潮在线观看 | 国产精品第一页在线 | 色诱亚洲精品久久久久久 | 欧美精品乱码99久久蜜桃 | 国产成人av大片在se | gogogo高清在线观看视频 | 亚洲国产精品免费在线观看 | 国产va免费精品高清在线 | 91免费网站视频 | 国产精品国产三级国产普通话三级 | 91精品国产麻豆国产在线观看 | 99精品视频久久精品视频 | 99极品在线 | 亚洲国产婷婷香蕉久久久久久 | 精品一区二区三区毛片 | 国产精品一区二区三区精品 | 亚洲国产一二区 | xxxxxx片免费播放软件 | 欧美亚洲愉拍一区二区 | 国产国语对白影音先锋 | www.99爱| 在线观看欧美一级 | 国产一区欧美日韩 | 欧美成人亚洲成人 | 国产精品久久久麻豆 | 久久久网页 | 黄色网址免费在线观看 |