DeepSeek 近日推出的系列模型在全球 AI 圈引發(fā)震動。DeepSeek-V3 以低成本實現(xiàn)高性能,在多項評測中與頂尖閉源模型相當;DeepSeek-R1 則通過創(chuàng)新的訓(xùn)練方式,讓模型展現(xiàn)出強大推理能力,性能對標 OpenAI o1 正式版,還開源了模型權(quán)重,為 AI 領(lǐng)域帶來新的突破和思考。
DeepSeek 還公開全部訓(xùn)練技術(shù)。R1 對標 OpenAI 的 o1 模型,后訓(xùn)練階段大量用強化學(xué)習(xí)技術(shù)。DeepSeek 稱,R1 在數(shù)學(xué)、代碼、自然語言推理等任務(wù)上與 o1 相當,且 API 價格不到 o1 的 4% 。
DeepSeek R1 太強!Meta 工程師陷入恐慌:瘋狂拆解試圖復(fù)制
日前國外匿名職場社區(qū) teamblind 上一個 Meta 員工匿名帖《Meta genAI org in panic mode》特別火。DeepSeek V3 推出使 Llama 4 在基準測試中全面落后,Meta 生成式 AI 團隊陷入恐慌。一家「不知名的中國公司」550 萬美元預(yù)算完成訓(xùn)練打臉現(xiàn)有大模型。
Meta 工程師瘋狂拆解 DeepSeek 試圖復(fù)制,而管理層焦慮如何向高層交代高昂成本,其團隊「領(lǐng)導(dǎo)者」薪水超 DeepSeek V3 訓(xùn)練成本就有數(shù)十人。DeepSeek R1 的出現(xiàn)讓情況更糟,雖然有些信息還不能透露,但很快就會公開,到時候情況可能更加不利。
Meta 員工匿名帖譯文如下(由 DeepSeek R1 翻譯):
Meta 生成式 AI 部門進入緊急狀態(tài)
這一切始于 DeepSeek V3——它讓 Llama 4 的基準測試成績瞬間顯得過時。更令人難堪的是,「一家不知名的中國公司僅用 500 萬美元訓(xùn)練預(yù)算」就實現(xiàn)了如此突破。
工程師團隊正瘋狂拆解DeepSeek架構(gòu),試圖復(fù)制其所有技術(shù)細節(jié)。這絕非夸張,我們的代碼庫正在經(jīng)歷地毯式搜查。
管理層正為部門巨額開支的合理性焦頭爛額。當每位生成式AI部門的「領(lǐng)導(dǎo)者」年薪都超過DeepSeek V3 整個訓(xùn)練成本,而這樣的「領(lǐng)導(dǎo)者」我們養(yǎng)著幾十個時,他們該如何向高層交代?
DeepSeek R1 讓局勢更加嚴峻。雖不能透露機密信息,但相關(guān)數(shù)據(jù)即將公之于眾。
本應(yīng)是精干的技術(shù)導(dǎo)向型團隊,卻因大量人員涌入爭奪影響力,導(dǎo)致組織架構(gòu)被刻意膨脹。這場權(quán)力游戲的結(jié)果?最終所有人都成了輸家。
DeepSeek 系列模型簡介
DeepSeek-V3:是一個參數(shù)量為 671B 的混合專家(MoE)語言模型,每個 token 激活 37B。它采用 Multi-head Latent Attention(MLA)和 DeepSeekMoE 架構(gòu),在 14.8 萬億高質(zhì)量 token 上進行預(yù)訓(xùn)練,經(jīng)過監(jiān)督微調(diào)與強化學(xué)習(xí),在多項測評中超越部分開源模型,與 GPT-4o、Claude 3.5 Sonnet 等頂尖閉源模型性能相當。訓(xùn)練成本低,僅需 278.8 萬 H800 GPU 小時,約 557.6 萬美元,且訓(xùn)練過程穩(wěn)定。
DeepSeek-R1:包括 DeepSeek-R1-Zero 和 DeepSeek-R1.DeepSeek-R1-Zero 通過大規(guī)模強化學(xué)習(xí)訓(xùn)練,不依賴監(jiān)督微調(diào)(SFT),展現(xiàn)出自我驗證、反思等能力,但存在可讀性差和語言混雜問題。
DeepSeek-R1 在 DeepSeek-R1-Zero 基礎(chǔ)上,引入多階段訓(xùn)練和冷啟動數(shù)據(jù),解決了部分問題,在數(shù)學(xué)、代碼、自然語言推理等任務(wù)上性能比肩 OpenAI o1 正式版。同時,還開源了多個不同參數(shù)規(guī)模的模型,推動開源社區(qū)發(fā)展。
是什么讓 DeepSeek 如此特別?
性能卓越:在多項基準測試中,DeepSeek-V3 和 DeepSeek-R1 表現(xiàn)出色。如 DeepSeek-V3 在 MMLU、DROP 等評測中取得優(yōu)異成績;DeepSeek-R1 在 AIME 2024、MATH-500 等測試里,準確率高,與 OpenAI o1 正式版相當甚至在某些方面超越。
訓(xùn)練創(chuàng)新:
DeepSeek-V3 采用無輔助損失的負載均衡策略和多 Token 預(yù)測目標(MTP),減少性能下降,提高模型性能;使用 FP8 訓(xùn)練,驗證了其在大規(guī)模模型上的可行性。
DeepSeek-R1-Zero 通過純粹強化學(xué)習(xí)訓(xùn)練,僅依靠簡單獎懲信號優(yōu)化模型,證明了強化學(xué)習(xí)可提升模型推理能力;DeepSeek-R1 在此基礎(chǔ)上,利用冷啟動數(shù)據(jù)微調(diào),提升模型穩(wěn)定性和可讀性。
開源共享:DeepSeek 系列模型秉持開源理念,開源了模型權(quán)重,如 DeepSeek-V3 和 DeepSeek-R1 及其蒸餾的小模型,允許用戶通過蒸餾技術(shù)借助 R1 訓(xùn)練其他模型,推動 AI 技術(shù)的交流與創(chuàng)新。
多領(lǐng)域優(yōu)勢:DeepSeek-R1 在多個領(lǐng)域展現(xiàn)強大能力,在代碼領(lǐng)域,于 Codeforces 平臺評級高,超越多數(shù)人類參賽者;在自然語言處理任務(wù)中,處理各類文本理解和生成任務(wù)表現(xiàn)優(yōu)秀。
性價比高:DeepSeek 系列模型 API 價格親民。如 DeepSeek-V3 API 輸入輸出價格遠低于同類模型;DeepSeek-R1 API 服務(wù)定價也具有競爭力,降低了開發(fā)者使用成本。
DeepSeek-R1 適用場景
自然語言處理任務(wù):包括文本生成、問答系統(tǒng)、機器翻譯、文本摘要等。例如在問答系統(tǒng)中,DeepSeek-R1 能理解問題,運用推理能力給出準確答案;在文本生成任務(wù)里,可根據(jù)給定主題生成高質(zhì)量文本。
代碼開發(fā):幫助開發(fā)者編寫代碼、調(diào)試程序、理解代碼邏輯。比如開發(fā)者遇到代碼問題時,DeepSeek-R1 可分析代碼并提供解決方案;還能根據(jù)功能描述生成代碼框架或具體代碼片段。
數(shù)學(xué)問題求解:在數(shù)學(xué)教育、科研等場景,解決復(fù)雜數(shù)學(xué)問題。像 DeepSeek-R1 在 AIME 競賽相關(guān)題目中表現(xiàn)出色,可用于輔助學(xué)生學(xué)習(xí)數(shù)學(xué)、科研人員處理數(shù)學(xué)難題。
模型研究與開發(fā):為 AI 研究人員提供參考和工具,用于模型蒸餾、改進模型結(jié)構(gòu)和訓(xùn)練方法等研究。研究人員可基于 DeepSeek 開源模型進行實驗,探索新的技術(shù)方向。
輔助決策:在商業(yè)、金融等領(lǐng)域,處理數(shù)據(jù)和信息,提供決策建議。例如分析市場數(shù)據(jù),為企業(yè)制定營銷策略提供參考;處理金融數(shù)據(jù),輔助投資決策。
DeepSeek 系列模型簡明使用教程
訪問平臺:用戶可登錄 DeepSeek 官網(wǎng)(https://www.DeepSeek.com/),進入平臺。
選擇模型:在官網(wǎng)或 App 中,默認對話由 DeepSeek-V3 驅(qū)動,點擊打開「深度思考」模式則是由 DeepSeek-R1 模型驅(qū)動。若通過 API 調(diào)用,根據(jù)需求在代碼中設(shè)置對應(yīng)的模型參數(shù),如使用 DeepSeek-R1 時設(shè)置model='deepseek-reasoner'。
輸入任務(wù):在對話界面輸入自然語言描述的任務(wù),如「寫一篇愛情小說」「解釋這段代碼的功能」「求解數(shù)學(xué)方程」等;若使用 API,按照 API 規(guī)范構(gòu)建請求,將任務(wù)相關(guān)信息作為輸入?yún)?shù)傳遞。
獲取結(jié)果:模型處理任務(wù)后返回結(jié)果,在界面上查看生成的文本、解答的問題等;使用 API 時,從 API 響應(yīng)中解析結(jié)果數(shù)據(jù)進行后續(xù)處理。
結(jié)語
DeepSeek 系列模型憑借其卓越的性能、創(chuàng)新的訓(xùn)練方式、開源共享的精神以及高性價比的優(yōu)勢,在 AI 領(lǐng)域取得了顯著成果。
如果你對 AI 技術(shù)感興趣,不妨點贊、評論,分享你對 DeepSeek 系列模型的看法。同時,持續(xù)關(guān)注 DeepSeek 的后續(xù)發(fā)展,期待它為 AI 領(lǐng)域帶來更多驚喜和突破,推動 AI 技術(shù)不斷進步,為各個行業(yè)帶來更多變革與機遇。
- 同時登頂中美的DeepSeek,談贏麻了還有點早
- Deepseek基礎(chǔ)界面認識全解【附圖解】
- DeepSeek vs ChatGPT:人工智能的兩大巨頭對比,哪個更適合你?
- 拯救你服務(wù)繁忙的DeepSeek!白嫖2000萬tokens!DeepSeek模型免費用!
- Deepseek安卓手機如何下載?【2025年最新版附圖解】
- 國內(nèi)首個對標o1的推理模型發(fā)布:DeepSeek-R1-Lite初體驗!
- 簡單搞定DeepSeek服務(wù)器繁忙,白嫖滿血版R1,包教會!
- 一覺醒來,美股崩了;始作俑者,是DeepSeek。
- DeepSeek R1 + 個人知識庫,直接起飛!
- DeepSeek為啥吹的這么過分?與ChatGPT的實測對比
本文鏈接:http://www.756gnhl.cn/post/1811.html ,轉(zhuǎn)載需注明文章鏈接來源:http://www.756gnhl.cn/
- 喜歡(10)
- 不喜歡(1)