來源:中國新聞周刊
AI圈又領(lǐng)教了一回“神秘的神秘東方力量”。
1月20日,量出國內(nèi)人工智能技術(shù)企業(yè)深度求索(DeepSeek)官宣了其最新AI推理模型DeepSeek R1?,F(xiàn)全該模型在數(shù)學(xué)、球科代碼和自然語言推理等任務(wù)上表現(xiàn)優(yōu)異,技圈性能直接對標(biāo)美國OpenAI最新的神秘推理模型o1。此時,量出距離o1的現(xiàn)全正式發(fā)布過去還不到半年。
消息一出,球科AI圈幾近沸騰。技圈社交平臺X上,神秘有國外大廠工程師直白表示,量出其所在生成式模型研發(fā)部門“處于恐慌之中”?,F(xiàn)全英偉達資深科學(xué)家Jim Fan給予R1極高評價,球科稱其不僅開源,技圈還分享了所有模型訓(xùn)練細(xì)節(jié),做了OpenAI“一直聲稱要做卻沒做到的事”。一時間,圈內(nèi)掀起了測試和復(fù)刻R1的熱潮。1月27日,DeepSeek同時登頂蘋果中美兩區(qū)App免費榜。據(jù)媒體報道,這也是唯一一次中國應(yīng)用能同期在中國和美區(qū)蘋果App Store占據(jù)第一位。
多位業(yè)內(nèi)人士指出,DeepSeek此次最大的貢獻,是向世界展示了快速、低成本實現(xiàn)o1同等模型能力的可能性。清華大學(xué)計算機科學(xué)與技術(shù)系副教授劉知遠告訴《中國新聞周刊》,“東方力量”其實就是工程創(chuàng)新加持下的追趕能力。在算力吃緊的情況下,DeepSeek打了一場以少勝多的仗。
DeepSeek R1手機端App下載界面 圖/視覺中國低成本培養(yǎng)出的“數(shù)理天才”
DeepSeek R1有多厲害?
有測試者讓R1詳細(xì)解釋勾股定理,R1在不到30秒的時間內(nèi)生成了完整的圖形動畫,給出了經(jīng)典的證明過程,沒有出現(xiàn)差錯。另一個常用的測試問題是碰撞檢測,測試者要求大模型編寫一個程序,使得一顆小球在某個緩慢旋轉(zhuǎn)的幾何形狀內(nèi)彈跳,并保持小球停留在形狀內(nèi)。碰撞檢測十分考驗?zāi)P偷耐评砟芰?,稍有不慎就會?dǎo)致肉眼可見的物理錯誤。這項測試?yán)?,R1的表現(xiàn)明顯優(yōu)于OpenAI o1 pro模式。
OpenAI于2024年9月發(fā)布了推理模型o1,首次實現(xiàn)真正的通用推理能力,相比其前作GPT-4o有巨大的性能提升,能在“博士級別”的科學(xué)問答環(huán)節(jié)上超越人類專家。新加坡南洋理工大學(xué)計算機學(xué)院助理教授劉子緯向《中國新聞周刊》解釋,傳統(tǒng)的ChatGPT模型屬于感知模型,擅長提取事件信息。但真實世界的很多任務(wù)不能僅靠感知完成,而是需要一定的決策推理,而且越復(fù)雜的任務(wù)決策成分越多,比如編程、數(shù)據(jù)分析等。因此,推理模型是業(yè)界公認(rèn)的通往通用人工智能(AGI)不可或缺的模型形態(tài)。
同為推理模型,在很多方面,R1都與o1的性能持平。在美國數(shù)學(xué)邀請賽AIME2024的測試中,R1取得了79.8%的成績,甚至略高于o1,甩開其他開源模型一大截。編碼類任務(wù)方面,R1也展現(xiàn)出專家級水平,在算法競賽平臺Codeforces上的表現(xiàn)超過了96.3%的人類參賽者。
在DeepSeek公開的22頁技術(shù)報告中,有一個展示R1能力的直觀案例。在解決一道復(fù)雜數(shù)學(xué)表達式問題時,R1在解題步驟中突然停下來說“等等,這是個值得標(biāo)記的啊哈時刻”,隨后自主修正了解題過程。“啊哈”類似于人類的頓悟,R1的這種行為完全是自發(fā)產(chǎn)生的,而非預(yù)先設(shè)定。這也意味著,它已經(jīng)擁有了相當(dāng)程度的思考和自悟能力。
看上去R1已經(jīng)走出了“題海戰(zhàn)術(shù)”,轉(zhuǎn)而進入了探究性學(xué)習(xí)的領(lǐng)域。事實上,這正是它的核心技術(shù)強化學(xué)習(xí)與傳統(tǒng)監(jiān)督學(xué)習(xí)的差別。劉知遠指出,傳統(tǒng)大模型特別是o1以前的GPT系列模型,都采用監(jiān)督學(xué)習(xí)的訓(xùn)練方法,意味著模型學(xué)習(xí)的目標(biāo)有標(biāo)準(zhǔn)答案。比如讓模型根據(jù)一篇文章的部分文字,去預(yù)測下一個詞。由于用于訓(xùn)練的文章是完整的,因此這個詞是固定的,預(yù)測結(jié)果也有明確的對錯。人類就像嚴(yán)厲的老師,對模型的預(yù)測行為反復(fù)規(guī)訓(xùn)。
而強化學(xué)習(xí)則是在開放環(huán)境中進行的任務(wù)訓(xùn)練,開發(fā)者只會告訴模型,它走出的每一步會得到外部環(huán)境怎樣的反饋。模型需要根據(jù)反饋,自己學(xué)會如何去接近最終目標(biāo)?!斑@個世界沒有那么多純數(shù)學(xué)題,因此無法永遠通過給標(biāo)準(zhǔn)答案的方式,讓模型完成監(jiān)督學(xué)習(xí)?!眲⒅h說。從監(jiān)督學(xué)習(xí)向強化學(xué)習(xí)的范式轉(zhuǎn)變,是實現(xiàn)推理模型的關(guān)鍵。
劉子緯指出,o1可視作大模型強化學(xué)習(xí)的鼻祖,但其沒有公開技術(shù)文件,因此其強化學(xué)習(xí)的具體技術(shù)路線和占比,只能靠業(yè)內(nèi)猜測,但可以確定其采用了預(yù)訓(xùn)練、監(jiān)督微調(diào)、強化學(xué)習(xí)的流程。預(yù)訓(xùn)練類似“背書自學(xué)”基礎(chǔ)知識,監(jiān)督微調(diào)類似學(xué)生模仿教師的示范來解例題,最后強化學(xué)習(xí)相當(dāng)于“模擬考試”。而R1則拋棄了監(jiān)督學(xué)習(xí),也就是跳過了例題階段,僅憑基礎(chǔ)語言能力和數(shù)學(xué)規(guī)則,在持續(xù)解題試錯中自悟方法論,考出高分,這一點得到了絕大多數(shù)從業(yè)者的贊嘆。
而除了性能外,R1更令人震撼的優(yōu)點在于便宜。2024年底,DeepSeek推出V3模型,作為R1的前體,訓(xùn)練成本僅為557.6萬美元,而2020年發(fā)布的GPT-3的訓(xùn)練成本接近1200萬美元,GPT-4更是超1億美元。技術(shù)報告顯示,R1面向開發(fā)者的服務(wù)定價為每百萬輸入字符串(token)1—4元,這一價格只有o1的1/30左右。
R1怎么能如此便宜?劉子緯認(rèn)為,算力達到一定量級的情況下,可以通過工程創(chuàng)新把性能差距抹平。在堆算力的“大力出奇跡”路線進入瓶頸后,DeepSeek選擇了在底層算法、訓(xùn)練模式和數(shù)據(jù)三個層面進行了工程迭代。基于混合專家模型、注意力機制等方面的創(chuàng)新,R1做到了“用50次運算達成別人做100次運算的效果”,效能提升明顯。而在拋棄監(jiān)督學(xué)習(xí)后,計算資源的需求也大幅減少。
由于超高性價比,1月27日,蘋果App Store中國區(qū)免費榜顯示,DeepSeek站上首位。同時,DeepSeek在美區(qū)蘋果App Store免費榜從昨日的第六位飆升至第一位。有業(yè)內(nèi)人士稱,R1已經(jīng)成為美國頂尖高校研究人員的首選模型。一位不愿具名的來自澳門大學(xué)的AI研究者向《中國新聞周刊》表示,R1完全可以取代日常科研對GPT模型的使用需求,在對科研文章的錯誤識別、修改潤色、語言轉(zhuǎn)換上都表現(xiàn)出色。
商業(yè)化落地仍待探索
盡管R1展現(xiàn)出了驚人的推理能力,但它的思維過程可能難以被人理解。技術(shù)報告指出,純強化學(xué)習(xí)訓(xùn)練出來的模型存在可讀性差和語言混雜問題,有用戶反映多語言輸入可能會造成模型輸出混亂,有時中文的提問也可能得到英文的回答。這一現(xiàn)象更多出現(xiàn)在純強化學(xué)習(xí)的R1-Zero模型中。
劉子緯也將R1形容為“有些偏科的數(shù)理天才”。R1在他眼中雖然很聰明,但給出的文字回復(fù)相比于o1缺乏流暢性和情緒價值,顯得笨拙?!肮径ㄎ粫?dǎo)致其偏重模型性能。”劉子緯說。由于DeepSeek還在提升模型能力,尚未開始優(yōu)化用戶體驗,因此用戶親和度方面還有待提升。在這一點上,OpenAI涉足較早。
但當(dāng)創(chuàng)作任務(wù)涉及推演和類比時,R1的表現(xiàn)仍可圈可點。有測試者用簡單的幾個提示詞,就讓R1在極短時間內(nèi)創(chuàng)作了一篇情節(jié)精彩的科幻小說。社交平臺上,有電影評論賬號喂給R1《出師表》,讓其仿照該文體創(chuàng)作一篇影評,R1給出了符合文言文規(guī)范,且“超越一般影評人”的洞見。劉子緯認(rèn)為,模型的推理能力可以遷移到文學(xué),令其產(chǎn)生通過邏輯思辨的方式創(chuàng)作議論文的能力。
用戶使用R1的過程中,偶爾會得到錯誤答案,甚至有用戶發(fā)現(xiàn)詢問R1身份時,其可能自稱o1。這種混亂廣泛出現(xiàn)在現(xiàn)有大模型中,有業(yè)內(nèi)人士認(rèn)為,這源于大多數(shù)模型對OpenAI基礎(chǔ)模型的蒸餾。蒸餾即將訓(xùn)練過的“教師模型”的知識傳遞給“學(xué)生模型”,從而在最大程度保存原模型性能的同時,大幅縮減計算資源消耗。“有模型做到了60分,我想迅速達到55分的水平,比較快的方式就是去蒸餾一個‘教師模型’,可以迅速拿到模型反饋,暴露思維過程,得到可貴的數(shù)據(jù)基礎(chǔ)。研發(fā)初期,許多企業(yè)都依靠或者部分依靠模型蒸餾。”劉子緯坦言。
由于原模型只能提供60分的答案,要漲到70分就得靠模型努力找一條新路。因此蒸餾無法形成模型的真正迭代。劉知遠認(rèn)為,強化學(xué)習(xí)是通向AGI的重要版圖之一,符合人類認(rèn)知世界的方式,已成為大模型未來發(fā)展的業(yè)內(nèi)共識,強化學(xué)習(xí)的技術(shù)成熟也需要時間。
劉子緯指出,R1使用了一些GPT-4o產(chǎn)生的數(shù)據(jù)去做“熱啟動”,讓模型先形成對現(xiàn)有問題的基本認(rèn)知,這也被稱為數(shù)據(jù)蒸餾。相比之下,完全通過“冷啟動”讓模型立刻進入強化學(xué)習(xí)狀態(tài)是非常困難的?!耙粋€小學(xué)生學(xué)習(xí)知識也得先學(xué)課本,達到一定智力水平后,再進入實踐中學(xué)習(xí)?!庇谜鎸崝?shù)據(jù)而非模型數(shù)據(jù)訓(xùn)練模型是開發(fā)者的共識,但真實數(shù)據(jù)的篩選、清洗、降噪等工作并不容易。
“即使用模型輸出數(shù)據(jù)也很難保證訓(xùn)練結(jié)果,這取決于人類給模型創(chuàng)造了怎樣的問題,以及提供怎樣的答案。”劉子緯說。例如DeepSeek使用了大量代碼數(shù)據(jù)、數(shù)學(xué)題甚至奧數(shù)題用于訓(xùn)練R1。“如何將這些數(shù)據(jù)喂給模型,需要大量創(chuàng)新?!?/p>
從這個意義上說,R1的表現(xiàn)已足夠出色,而它的創(chuàng)造者的主業(yè)甚至不是AI。DeepSeek背后的投資公司為幻方量化,是一家依靠數(shù)學(xué)與計算機科學(xué)進行量化投資的基金公司。該公司從2016年起將深度學(xué)習(xí)模型應(yīng)用于實盤交易,囤積了大量算力,正式成立大模型團隊DeepSeek的時間則是2023年?!耙菜闶歉睒I(yè)做得比主業(yè)出圈的典型了?!眲⒆泳曊f。
大模型企業(yè)仍需審慎研判模型的商業(yè)價值,也就是能不能賺錢。劉知遠指出,國內(nèi)外企業(yè)都還在尋找大模型的最佳變現(xiàn)方式。目前,市場上已有多家企業(yè)具備做出GPT水平大模型的能力,接下來要考慮區(qū)分度是什么,落地的用戶App是什么,以及在價格戰(zhàn)的前提下如何收回上億元的研發(fā)成本。這些問題的答案都還相對模糊。
劉子緯認(rèn)為,大模型已足夠強,但在垂類上跟用戶需求還沒有緊密貼合,未來AGI的核心交互形態(tài)也尚無定論。目前,國內(nèi)外大模型企業(yè)一部分繼續(xù)高舉高打AGI,保證模型能力,通過用戶來試探落地方式。比如有學(xué)生用大模型來備考、寫論文等。另一部分企業(yè)則專注于做垂類應(yīng)用,比如醫(yī)療領(lǐng)域。劉子緯預(yù)計,2025年會涌現(xiàn)一大批大模型應(yīng)用,是真正的“強化學(xué)習(xí)之年”。
多位業(yè)內(nèi)人士表示,DeepSeek真正的價值,在于展示了工程實踐和理論創(chuàng)新之間的平衡點,開創(chuàng)了一條符合現(xiàn)實算力約束的技術(shù)迭代道路。“R1說明開源 AI 僅落后于閉源 AI 不到 6 個月?!痹趧⒅h看來,GPT階段也就是2023年初的時候, OpenAI模型發(fā)布之后,國內(nèi)團隊需要一年的時間才能趕上。但是到了文生視頻模型Sora,以及后來的GPT-4o和o1,國內(nèi)的追趕時間縮短到半年以內(nèi)。
“DeepSeek的階段性成果釋放了一個信號,那就是通過芯片禁運等方式來遏制國內(nèi)AI發(fā)展難以行通。這就是開源的力量?!眲⒅h說。
記者:周游(nolan.y.zhou@gmail.com)
點擊進入專題: DeepSeek“火”到海外" Lorem ipsum dolor sit amet, consectetur adipiscing elit. Nam fermentum iaculis diam quis sodales. Vestibulum eu dui tellus. In viverra porttitor auctor. Pellentesque habitant morbi tristique senectus et netus et malesuada fames ac turpis egestas "
為進一步做好高校學(xué)生群體高校學(xué)生為全日制本??茖W(xué)生、非在職研究生)的醫(yī)療保障工作,加快補齊參保短板,切實提高醫(yī)療保障供給水平和保障質(zhì)量,國家發(fā)展改革委辦公廳、教育部辦公廳、民政部辦公廳、財政部辦公廳、 ...
每經(jīng)記者 任 飛 每經(jīng)編輯 肖芮冬11月27日,又有多只公募ETF公告即將分紅。值得注意的是,2024年以來,市場頻出關(guān)于ETF的分紅計劃,相比于2023年全年來看,ETF基金分紅意愿更加強烈。Win ...
當(dāng)?shù)貢r間11月28日,美國康涅狄格州多名民主黨國會議員表示,他們當(dāng)天收到了炸彈威脅。據(jù)悉,國會議員賈哈娜·海耶斯Jahana Hayes)和吉姆·海默斯Jim Himes)表示,他們收到了針對其住宅的 ...
韓國媒體25日披露了韓國高級公職人員犯罪調(diào)查處關(guān)于尹錫悅拘留令申請書的內(nèi)容細(xì)節(jié)。據(jù)韓國媒體報道,尹錫悅拘留令申請書共有10頁,大部分內(nèi)容為調(diào)查報告形式的說明材料。申請書列舉了7個拘留理由,包括尹錫悅可 ...
既然我們說,“中國對南海諸島及其附近海域擁有主權(quán)”,還說,“我們將堅決維護國家領(lǐng)土主權(quán)和海洋權(quán)益,繼續(xù)采取一切必要措施反制侵權(quán)挑釁,堅定維護南海和平穩(wěn)定”,那當(dāng)然不是說說而已!文| 海上客“董軍部長當(dāng) ...
△美國國家安全顧問杰克·沙利文資料圖)當(dāng)?shù)貢r間12月1日,據(jù)美國廣播公司消息,美國國家安全顧問杰克·沙利文當(dāng)天表示,美國現(xiàn)任總統(tǒng)拜登希望在下個月卸任前在外交政策上取得盡可能多的進展。沙利文在采訪時表示 ...
中俄兩軍完成第9次聯(lián)合空中戰(zhàn)略巡航第二階段任務(wù)11月30日,中俄兩國空軍位太平洋西部空域完成第9次聯(lián)合空中戰(zhàn)略巡航第二階段任務(wù)。來源 | 國防部發(fā)布 ...