深圳哪家公司做網(wǎng)站,網(wǎng)站建設(shè)建站在線建站,建設(shè)網(wǎng)站通過什么賺錢,泰安本地網(wǎng)站Boss直聘南北閣大模型實驗室發(fā)布30億參數(shù)小模型Nanbeige4-3B#xff0c;通過Hybrid質(zhì)量篩選體系和細粒度WSD調(diào)度器等創(chuàng)新技術(shù)#xff0c;在數(shù)學(xué)推理、科學(xué)推理、工具調(diào)用等多項評測中超越更大規(guī)模模型#xff0c;展現(xiàn)出以小搏大的卓越能力。模型已開源#xff…Boss直聘南北閣大模型實驗室發(fā)布30億參數(shù)小模型Nanbeige4-3B通過Hybrid質(zhì)量篩選體系和細粒度WSD調(diào)度器等創(chuàng)新技術(shù)在數(shù)學(xué)推理、科學(xué)推理、工具調(diào)用等多項評測中超越更大規(guī)模模型展現(xiàn)出以小搏大的卓越能力。模型已開源為AI普惠落地提供新范式。近年來大語言模型LLM的發(fā)展仿佛陷入了一場“參數(shù)軍備競賽”參數(shù)規(guī)模從百億、千億一路飆升至萬億級別。模型規(guī)模不斷膨脹效果雖有所提升但推理成本與微調(diào)訓(xùn)練成本也水漲船高讓眾多企業(yè)與開發(fā)者望而卻步。正因如此業(yè)界開始重新關(guān)注一個曾被忽視的方向——小語言模型SLM。它們參數(shù)量小、推理速度快、部署成本低若能在能力上逼近大模型無疑將成為推動 AI 普惠落地的關(guān)鍵力量。近日Boss 直聘南北閣大模型實驗室Nanbeige LLM Lab發(fā)布了一項令人矚目的新成果Nanbeige4-3B。這款僅 30 億參數(shù)的小模型正在實踐探索小規(guī)模參數(shù)下的能力上限。整體介紹在預(yù)訓(xùn)練階段Nanbeige4-3B 使用 23T tokens 進行訓(xùn)練通過設(shè)計 Hybrid 數(shù)據(jù)篩選體系實現(xiàn)精準(zhǔn)的質(zhì)量判別并采用細粒度 WSD 調(diào)度器使高質(zhì)量數(shù)據(jù)發(fā)揮更大作用。在后訓(xùn)練中Nanbeige4-3B 使用了 3000w 高質(zhì)量指令進行微調(diào)結(jié)合多階段 RL 訓(xùn)練從而在多個維度上都有良好表現(xiàn)。在此基礎(chǔ)上結(jié)合思維鏈推敲進化、大規(guī)模工具調(diào)用環(huán)境合成、多粒度蒸餾算法等創(chuàng)新手段來進一步拔高效果。在與通義千問 Qwen3 系列模型的橫向?qū)Ρ戎蠳anbeige4-3B 不僅顯著超越同體量的 Qwen3-4B 和 Qwen3-8B還在多項關(guān)鍵指標(biāo)上媲美更大規(guī)模的 Qwen 系列模型。在 AIME、GPQA 等高難度數(shù)學(xué)與科學(xué)推理任務(wù)上Nanbeige4-3B 超越了 Qwen3-32B 與 Qwen3-30B-A3B展現(xiàn)出卓越的復(fù)雜推理能力。除了解題能力強在工具調(diào)用與人類偏好對齊等實用能力評測中Nanbeige4-3B 同樣表現(xiàn)搶眼。其中BFCl-V4工具調(diào)用評測基準(zhǔn)上得分比 Qwen3-32B 和 Qwen3-30B-A3B 高出 10% 以上。在 Arena-Hard-V2 人類偏好對齊榜單上其表現(xiàn)與 Qwen3-30B-A3B 相當(dāng)。更令人驚喜的是在 2025 年 11 月2511WritingBench 大模型寫作能力榜單中Nanbeige4-3B 在包含 54 個開源與閉源模型的激烈競爭中憑借僅 3B 參數(shù)斬獲第 11 名的成績多個場景的創(chuàng)作能力可比肩 DeepSeek-R1-0528 等千億級大尺寸模型。南北閣實驗室此次開源再度印證通過數(shù)據(jù)與算法的極致優(yōu)化小模型也能爆發(fā)出超越其參數(shù)體量的潛力。Nanbeige4-3B 正在為社區(qū)樹立“輕量級旗艦”的新范式。接下來我們將剖析 Nanbeige4-3B 在預(yù)訓(xùn)練與后訓(xùn)練階段的關(guān)鍵技術(shù)細節(jié)。預(yù)訓(xùn)練Nanbeige4-3B 在構(gòu)建預(yù)訓(xùn)練配方時聚焦兩個核心問題進行優(yōu)化如何科學(xué)、精準(zhǔn)地篩選高質(zhì)量訓(xùn)練數(shù)據(jù)并有效剔除低質(zhì)量內(nèi)容。如何設(shè)計合理的數(shù)據(jù)配比策略與調(diào)度機制使高質(zhì)量數(shù)據(jù)發(fā)揮最大效用。2.1 Hybrid 質(zhì)量篩選體系為了精準(zhǔn)地評價每一條預(yù)訓(xùn)練數(shù)據(jù)的質(zhì)量好壞我們構(gòu)建了一套 Hybrid 質(zhì)量篩選體系通過“基于質(zhì)量標(biāo)簽的內(nèi)在屬性”與“基于檢索召回的外部對齊”兩個維度綜合進行評價。在質(zhì)量標(biāo)簽維度我們設(shè)計了含 20 個標(biāo)簽如知識密度、推理密度等的質(zhì)量標(biāo)簽體系通過大尺寸模型標(biāo)注與小尺寸模型高效蒸餾相結(jié)合的方式對全部原始語料進行 0–9 的細粒度評分并據(jù)此加權(quán)排序保留高分樣本、過濾低質(zhì)內(nèi)容。在檢索召回維度我們建立了一個支持百億級混合檢索文本向量的數(shù)據(jù)庫并基于預(yù)定義的高質(zhì)量可靠來源種子集對全量語料計算相似度。實驗表明在質(zhì)量標(biāo)簽篩選的基礎(chǔ)上疊加檢索召回機制能夠更精準(zhǔn)篩選出對模型效果更具貢獻的高質(zhì)量樣本。通過這套內(nèi)外結(jié)合的篩選機制我們從數(shù)十 Ttokens 的原始語料中淘選出 12.5T tokens 高質(zhì)量數(shù)據(jù)并進一步對其中 6.5T tokens 高分數(shù)據(jù)進行多輪上采樣最終構(gòu)建出 23T tokens 的訓(xùn)練語料庫。2.2 細粒度 WSD Scheduler高質(zhì)量數(shù)據(jù)是能力的基石高效調(diào)度策略是釋放潛力的引擎。為此Nanbeige4-3B 提出一種細粒度 Warmup-Stable-DecayFine-Grained WSD調(diào)度器。具體地我們在恒定學(xué)習(xí)率階段動態(tài)調(diào)整數(shù)據(jù)配比訓(xùn)練前期側(cè)重語料多樣性以夯實基礎(chǔ)能力后期則逐步聚焦于更高質(zhì)量的數(shù)據(jù)從而讓高質(zhì)量數(shù)據(jù)的價值得到更充分的利用。在 1B 參數(shù)模型訓(xùn)練相同 1T tokens 的小規(guī)模驗證實驗中FG-WSD 調(diào)度策略相比傳統(tǒng) WSD 調(diào)度策略在多個任務(wù)上提升顯著。在 Nanbeige4-3B 的完整訓(xùn)練中該調(diào)度器擴展為四個階段Warmup0.1T tokens、多樣性穩(wěn)定階段12.4T、高質(zhì)量穩(wěn)定階段6.5T和衰減階段4T。在衰減階段中結(jié)合 ABFAdjusting Base Frequency方法將上下文長度擴展至 64K確保論文、代碼庫和思維鏈等不被截斷實現(xiàn)完整訓(xùn)練。2.3 效果評測為客觀評估 Base 模型的潛力我們采用 Post-SFT 評測范式即對 Nanbeige4-3B 與其他開源 Base 模型施加相同的微調(diào)SFT流程隨后在下游任務(wù)上對比微調(diào)后模型的效果。鑒于實際應(yīng)用場景中通常不會直接使用 Base 模型進行推理而大多是部署經(jīng)過微調(diào)的模型因此該評測方式相比傳統(tǒng)的 Base 模型 few-shot 評估更能科學(xué)、真實地反映 Base 模型的能力與下游應(yīng)用的潛力。在多組 SFT 實驗中Nanbeige4-3B 均展現(xiàn)出顯著優(yōu)勢在數(shù)學(xué)、科學(xué)、代碼等多個核心 benchmark 上不僅大幅超越 Qwen3-4B-Base甚至優(yōu)于更大規(guī)模的 Qwen3-8B-Base充分驗證了其預(yù)訓(xùn)練階段的數(shù)據(jù)與調(diào)度策略的有效性。后訓(xùn)練預(yù)訓(xùn)練中Nanbeige4-3B 構(gòu)建了堅實的知識基礎(chǔ)為充分激發(fā)其推理能力以及在各類任務(wù)上的表現(xiàn)我們設(shè)計了一套四階段遞進式后訓(xùn)練流程。從 Cold-Start SFT 建立基礎(chǔ)推理能力到 Overall SFT 拓展多任務(wù)泛化性繼而通過 Dual-Level Preference Distillation 注入強模型思維模式縮小了小模型和大模型之間能力差距最終以 Multi-Stage Reinforcement Learning進一步提升效果。3.1 Cold-Start SFT在 Base 模型之上我們使用收集的 3000 萬條高質(zhì)量的數(shù)學(xué)、科學(xué)與代碼樣本進行 Cold-Start SFT其中數(shù)學(xué)推理占 50%、科學(xué)推理占 30%、代碼任務(wù)占 20%。與許多只依賴幾十萬條指令的做法不同我們發(fā)現(xiàn)在多樣性與質(zhì)量均有所保證的前提下指令規(guī)模持續(xù)擴展仍能帶來顯著收益。如圖所示當(dāng) SFT 數(shù)據(jù)從 50 萬增長到 3000 萬時模型在 AIME 2025 和 GPQA-Diamond 等任務(wù)上的表現(xiàn)持續(xù)提升。此外全鏈路實驗表明Nanbeige4-3B 在 Cold-Start SFT 階段采用的 “Scaling SFT Instructions” 策略在后續(xù)階段持續(xù)引入更優(yōu)的數(shù)據(jù)與訓(xùn)練策略時并不會阻礙模型效果的持續(xù)提升。3.2 Overall SFT在 Cold-Start SFT 階段賦予模型較強的數(shù)理方面的推理能力后我們引入 Overall SFT 階段旨在提升模型在人類偏好對齊、工具調(diào)用等更多維度的綜合能力。在人類偏好對齊方面為我們創(chuàng)新提出推敲式生成思維鏈重構(gòu)的范式來構(gòu)建高質(zhì)量回復(fù)。推敲式生成Deliberative Generation針對每條指令系統(tǒng)自動生成一個多維度評估清單如正確性、完整性、可執(zhí)行性等并調(diào)用多個教師模型生成候選答案。隨后一個專用評估模型對所有候選進行交叉打分指出具體錯誤、缺失步驟和優(yōu)化建議。在“生成 → 批評 → 修訂”的閉環(huán)中持續(xù)打磨輸出質(zhì)量。思維鏈重構(gòu)CoT Reconstruction經(jīng)過多輪推敲后的答案雖更準(zhǔn)確但原始推理路徑常被打亂難以作為有效監(jiān)督信號。為此我們額外訓(xùn)練了一個 Chain-Completion 模型它以“指令最終答案”為輸入先生成一個簡潔的推理摘要再據(jù)此反向還原出一條結(jié)構(gòu)清晰、邏輯連貫、與答案嚴(yán)格對齊的完整思維鏈。實驗發(fā)現(xiàn)這種推敲式生成思維鏈重構(gòu)的數(shù)據(jù)構(gòu)造方法相比于直接拒絕采樣在 Arena-Hard-v2 人類偏好對齊榜單上可提升 16%并且不會對其他能力維度造成負面影響。此外在工具調(diào)用方面為解決環(huán)境數(shù)量難以 scaling 的挑戰(zhàn)我們采用 multi-agent 數(shù)據(jù)合成策略使用 LLM 分別扮演用戶-助手-環(huán)境結(jié)合多維度數(shù)據(jù)篩選保證了環(huán)境與指令的多樣性以及回復(fù)的質(zhì)量。3.3 蒸餾經(jīng)過兩階段 SFT 后模型在各類任務(wù)上建立了較好的推理能力為進一步提升效果我們使用 Nanbeige 系列旗艦?zāi)Ｐ?Nanbeige3.5-Pro 對 Nanbeige4-3B 進行蒸餾。為充分將大模型的能力有效遷移到小模型我們一方面在數(shù)據(jù)層面精確篩選出具有多樣區(qū)分度的正負 pair另一方面在 loss 設(shè)計上進行創(chuàng)新提出一種聯(lián)合優(yōu)化 token 級與 sequence 級分布對齊的 DPDDual-Leval Preference Distillation算法。Token 級對齊方面在正樣本上學(xué)生模型逐 token 模仿教師的輸出分布在負樣本上引入教師對錯誤路徑的概率引導(dǎo)幫助模型學(xué)會識別并修正自身錯誤。Sequence 級對齊方面借鑒 DPO 損失函數(shù)設(shè)計的思想顯式拉大正負樣本間的偏好得分差距讓模型學(xué)會區(qū)分高低質(zhì)量回復(fù)。DPD 方法為 Nanbeige4-3B 的多個評測維度帶來顯著提升AIME 8%、GPQA 10%、BFCL-V4 30%成功“把小模型訓(xùn)大”同時又沒有破壞模型的熵為RL階段保留了進一步提升空間。3.4 RL我們采用分階段、分領(lǐng)域的 RL 策略每個階段聚焦一類核心能力。階段一中我們重點優(yōu)化在高難度數(shù)學(xué)與科學(xué)問題上的表現(xiàn)并引入工具增強的 verifier克服符號與表達多樣性等問題來提供精確 reward。階段二中我們通過多種數(shù)據(jù)合成手段結(jié)合代碼沙箱驗證來優(yōu)化模型代碼編程能力。階段三中為提升寫作與開放問答等人類偏好對齊任務(wù)上的表現(xiàn)我們首先專項優(yōu)化 reward model。該模型不但計算高效僅用數(shù)個 token 即可輸出可靠偏好信號且對 reward hacking 具備強魯棒性引導(dǎo)模型學(xué)習(xí)“實質(zhì)優(yōu)質(zhì)”而非“表面合規(guī)”的輸出。實驗表明通過結(jié)合動態(tài)數(shù)據(jù)過濾機制確保每個階段訓(xùn)練始終作用模型“能力邊緣”的題目分階段的訓(xùn)練方式要優(yōu)于分別“多階段并行訓(xùn)練模型融合“以及”數(shù)據(jù)混合單階段訓(xùn)練“的方式。3.5 效果評測為驗證 Nanbeige4-3B 是否真正具備“以小搏大”的能力我們在評測中不僅與同規(guī)模開源模型如 Qwen3-4B、Qwen3-8B作為基線還引入了參數(shù)量顯著更大的 Qwen3-14B、Qwen3-32B 以及 Qwen3-30B-A3B 用來對比。在高難度數(shù)學(xué)推理任務(wù) AIME 2024 與 AIME 2025 上Nanbeige4-3B 分別取得 90.4 與 85.6 的得分超越 Qwen3-32B81.4 / 72.9和 Qwen3-30B-A3B89.2 / 85.0刷新了 32B 以下模型的 SOTA展現(xiàn)出優(yōu)秀的數(shù)學(xué)推理能力。在科學(xué)領(lǐng)域Nanbeige4-3B 在 GPQA-Diamond 任務(wù)上達到 82.2 分顯著高于 Qwen3-32B68.7和 Qwen3-30B-A3B73.4。在工具調(diào)用基準(zhǔn) BFCL-V4 上Nanbeige4-3B 成為當(dāng)前開源模型中工具調(diào)用能力最強的輕量級選手。在 ArenaHard-V2 評測中模型參數(shù)規(guī)模通常對性能影響顯著例如 Qwen3-4B、Qwen3-8B 與 Qwen3-30B-A3B 之間的差距達 20 分。盡管如此Nanbeige4-3B 仍做到以 60.0 分的成績與 Qwen3-30B-A3B 并駕齊驅(qū)展現(xiàn)出與大模型相當(dāng)?shù)娜祟惼脤R能力。那么如何系統(tǒng)的去學(xué)習(xí)大模型LLM作為一名深耕行業(yè)的資深大模型算法工程師我經(jīng)常會收到一些評論和私信我是小白學(xué)習(xí)大模型該從哪里入手呢我自學(xué)沒有方向怎么辦這個地方我不會啊。如果你也有類似的經(jīng)歷一定要繼續(xù)看下去這些問題啊也不是三言兩語啊就能講明白的。所以我綜合了大模型的所有知識點給大家?guī)硪惶兹W(wǎng)最全最細的大模型零基礎(chǔ)教程。在做這套教程之前呢我就曾放空大腦以一個大模型小白的角度去重新解析它采用基礎(chǔ)知識和實戰(zhàn)項目相結(jié)合的教學(xué)方式歷時3個月終于完成了這樣的課程讓你真正體會到什么是每一秒都在瘋狂輸出知識點。由于篇幅有限?? 朋友們?nèi)绻行枰?《2025全新制作的大模型全套資料》掃碼獲取~大模型學(xué)習(xí)指南路線匯總我們這套大模型資料呢會從基礎(chǔ)篇、進階篇和項目實戰(zhàn)篇等三大方面來講解。①.基礎(chǔ)篇基礎(chǔ)篇里面包括了Python快速入門、AI開發(fā)環(huán)境搭建及提示詞工程帶你學(xué)習(xí)大模型核心原理、prompt使用技巧、Transformer架構(gòu)和預(yù)訓(xùn)練、SFT、RLHF等一些基礎(chǔ)概念用最易懂的方式帶你入門大模型。②.進階篇接下來是進階篇你將掌握RAG、Agent、Langchain、大模型微調(diào)和私有化部署學(xué)習(xí)如何構(gòu)建外掛知識庫并和自己的企業(yè)相結(jié)合學(xué)習(xí)如何使用langchain框架提高開發(fā)效率和代碼質(zhì)量、學(xué)習(xí)如何選擇合適的基座模型并進行數(shù)據(jù)集的收集預(yù)處理以及具體的模型微調(diào)等等。③.實戰(zhàn)篇實戰(zhàn)篇會手把手帶著大家練習(xí)企業(yè)級的落地項目已脫敏比如RAG醫(yī)療問答系統(tǒng)、Agent智能電商客服系統(tǒng)、數(shù)字人項目實戰(zhàn)、教育行業(yè)智能助教等等從而幫助大家更好的應(yīng)對大模型時代的挑戰(zhàn)。④.福利篇最后呢會給大家一個小福利課程視頻中的所有素材有搭建AI開發(fā)環(huán)境資料包還有學(xué)習(xí)計劃表幾十上百G素材、電子書和課件等等只要你能想到的素材我這里幾乎都有。我已經(jīng)全部上傳到CSDN朋友們?nèi)绻枰梢晕⑿艗呙柘路紺SDN官方認證二維碼免費領(lǐng)取【保證100%免費】相信我這套大模型系統(tǒng)教程將會是全網(wǎng)最齊全最易懂的小白專用課

国产中文字幕在线视频,.com久久久,亚洲免费在线播放视频,神九影院电视剧免费观看,奇米在线888,天天网综合,久久免费视频观看

深圳哪家公司做網(wǎng)站網(wǎng)站建設(shè)建站在線建站

常見的建站工具直接進入網(wǎng)站的代碼

廈門網(wǎng)站建設(shè)cnmxcm公司做網(wǎng)站的目的

excel中批量做網(wǎng)站的超鏈接網(wǎng)站排名快速上升

網(wǎng)站開發(fā)視頻如何節(jié)省流量北京共振設(shè)計公司官網(wǎng)

百度網(wǎng)盤網(wǎng)站入口河北網(wǎng)站建設(shè)seo優(yōu)化營銷制作設(shè)計

電子商務(wù)網(wǎng)站建設(shè)需要注意什么建立互聯(lián)網(wǎng)網(wǎng)站需要錢嘛