国产中文字幕在线视频,.com久久久,亚洲免费在线播放视频,神九影院电视剧免费观看,奇米在线888,天天网综合,久久免费视频观看

珠海網(wǎng)站建設(shè)的公司哪家好wordpress4.8模板路徑

鶴壁市浩天電氣有限公司 2026/01/22 10:31:46
珠海網(wǎng)站建設(shè)的公司哪家好,wordpress4.8模板路徑,昆明 網(wǎng)站建設(shè),一般人公司注冊(cè)費(fèi)用以LLaMA 為代表的模型是大模型主流架構(gòu)Decoder-only的典型代表#xff0c;相對(duì)于基礎(chǔ)Transformer中的decoder模塊#xff0c;本文主要圍繞LLaMA 結(jié)構(gòu)的核心組成和主要變化點(diǎn)#xff0c;介紹以下內(nèi)容#xff1a; 1#xff09;LLaMA架構(gòu)的核心組成部分模塊MHA和FFN的結(jié)構(gòu)拆解…以LLaMA 為代表的模型是大模型主流架構(gòu)Decoder-only的典型代表相對(duì)于基礎(chǔ)Transformer中的decoder模塊本文主要圍繞LLaMA 結(jié)構(gòu)的核心組成和主要變化點(diǎn)介紹以下內(nèi)容1LLaMA架構(gòu)的核心組成部分模塊MHA和FFN的結(jié)構(gòu)拆解。2每個(gè)模塊的歸一化和激活函數(shù)相對(duì)于基礎(chǔ)transformer變化原因。3LLaMA系列模型發(fā)展及衍生模型介紹1LLaMA 架構(gòu)介紹LLaMA Large Language Model Meta AI是Meta 發(fā)布的一款開源模型和 GPT 系列一樣LLaMA 模型也是 Decoder-only 架構(gòu)其主要的改進(jìn)如下? Pre-norm。 為了提高訓(xùn)練穩(wěn)定性LLaMA 對(duì)每個(gè) Transformer 子層的輸入進(jìn)行歸一化使用 RMSNorm歸一化函數(shù)好處是不用計(jì)算樣本的均值速度提升了40%? FFN_SWiGLU 。結(jié)構(gòu)上使用門控線性單元且為了保持 FFN 層參數(shù)量不變將隱藏單元的數(shù)量調(diào)整為原來的三分之二而不是論文中的 4d同時(shí)將 ReLU 替換為 SiLU 激活以提高性能。? Rotary Embeddings 。模型的輸入不再使用 positional embeddings而是在網(wǎng)絡(luò)的每一層添加了 positional embeddings (RoPE)。架構(gòu)圖如下2歸一化位置和類型變化2.1由post-norm 到 pre-norm圖中的post和pre是指歸一化相對(duì)于殘差的位置。post 是指在殘差之后做歸一化而pre是在殘差之前做歸一化。一般認(rèn)為Post-Norm在殘差之后做歸一化對(duì)參數(shù)正則化的效果更強(qiáng)進(jìn)而模型的收斂性也會(huì)更好而Pre-Norm有一部分參數(shù)直接加在了后面沒有對(duì)這部分參數(shù)進(jìn)行正則化可以在反向時(shí)防止梯度爆炸或者梯度消失大模型的訓(xùn)練難度大。相同的深度條件下Post-Norm的效果要優(yōu)于Pre-Norm因?yàn)镻re-Norm實(shí)際上相當(dāng)于通過了一個(gè)更寬的網(wǎng)絡(luò)而非更深的網(wǎng)絡(luò)所以在同等深度下Pre-Norm的實(shí)際效果相當(dāng)于一個(gè)更淺卻更寬的網(wǎng)絡(luò)然而在LLaMA中卻采用了Pre-Norm或許是因?yàn)槟P蛪蛏?B13B30B65B的模型transformer layer數(shù)量分別為32406080而Pre-Norm的恒等分支更加明顯有利于梯度的傳播2.2由Layer-norm 到 RMS-norm層歸一化 LayerNorm 通過對(duì)輸入以及權(quán)重矩陣進(jìn)行重新中心化和重新縮放re-centering 和re-scaling即減均值和除方差也稱平移不變性和縮放不變性來幫助穩(wěn)定訓(xùn)練并加速模型收斂。?Layer Norm作用對(duì)特征張量按照某一維度或某幾個(gè)維度進(jìn)行均值為0方差為1的歸一化操作。其中 表示均值 均方值e為一個(gè)極小值防止分母為0 可以認(rèn)為是一個(gè)可以訓(xùn)練的參數(shù)。Layer Norm 的作用方式 可以理解為張量中具體某一維度的所有元素比如對(duì)于 shape 為 (2,2,8) 的張量 input若指定歸一化的操作為第三個(gè)維度則會(huì)對(duì)第三個(gè)維度中的四個(gè)張量(2,2,1) 即第一維度和第二維共四個(gè)元素各進(jìn)行上述的一次計(jì)算。nn.LayerNorm(normalized_shape, eps1e-05, elementwise_affineTrue, deviceNone, dtypeNone) “”“ - normalized_shape歸一化的維度int最后一維listlist里面的維度。以2,2,4為例如果輸入是int則必須是4如果是list則可以是[4], [2,4], [2,2,4]即最后一維倒數(shù)兩維和所有維度 - eps加在分母方差上的偏置項(xiàng)防止分母為0 - elementwise_affine是否使用可學(xué)習(xí)的參數(shù)前者開始為1后者為0設(shè)置該變量為True則二者均可學(xué)習(xí)隨著訓(xùn)練過程而變化 ”“”?RMS NormRMS NormRoot Mean Square Layer Normalization是一般Layer Norm的一種變體可以在梯度下降時(shí)令損失更加平滑。與layerNorm 相比RMS Norm的主要區(qū)別在于去掉了減去均值的部分re-centering只保留方差部分re-scaling從歸一化的表達(dá)式上可以直觀地看出。其中 均方值表示為一個(gè)直觀的猜測是center操作類似于全連接層的bias項(xiàng)儲(chǔ)存到的是關(guān)于數(shù)據(jù)的一種先驗(yàn)分布信息而把這種先驗(yàn)分布信息直接儲(chǔ)存在模型中反而可能會(huì)導(dǎo)致模型的遷移能力下降。所以T5模型中不僅去掉了Layer Norma的center操作它把每一層的bias項(xiàng)也都去掉了。3 FFN激活函數(shù)前饋網(wǎng)絡(luò) FFN Feed Forward Normal原版的激活函數(shù)為ReLU引入激活函數(shù)的目的是為了增加神經(jīng)網(wǎng)絡(luò)的非線性擬合能力。3.1ReLU 線性整流函數(shù)ReLURectified Linear Unit通常意義下其指代數(shù)學(xué)中的斜坡函數(shù)即 在神經(jīng)網(wǎng)絡(luò)中使用ReLU激活函數(shù)作為非線性變換得到的輸出結(jié)果是Transformer架構(gòu)采用了ReLU激活函數(shù)的函數(shù)表達(dá)式如下?ReLU 死亡單元問題一般參數(shù)的更新公式為當(dāng)學(xué)習(xí)率過大時(shí)導(dǎo)致參數(shù)更新后的值為負(fù)值此時(shí)輸入網(wǎng)絡(luò)的正值會(huì)和權(quán)重相乘后也會(huì)變?yōu)樨?fù)值負(fù)值通過relu后就會(huì)輸出0。如果權(quán)重w在后期有機(jī)會(huì)被更新為正值也不會(huì)出現(xiàn)大問題但是當(dāng)relu函數(shù)輸出值為0時(shí)relu的導(dǎo)數(shù)也為0因此會(huì)導(dǎo)致后邊Δw一直為0進(jìn)而導(dǎo)致權(quán)重w一直不會(huì)被更新因此會(huì)導(dǎo)致這個(gè)神經(jīng)元永久性死亡3.2Sigmoid 邏輯函數(shù)和Swish激活函數(shù)?Sigmoid 邏輯函數(shù)Sigmoid是常用的連續(xù)、平滑的s型激活函數(shù)也被稱為邏輯Logistic函數(shù)??梢詫⒁粋€(gè)實(shí)數(shù)映射到01的區(qū)間用來做二分類。其函數(shù)定義為:Sigmoid 存在一定梯度消失問題即在訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)時(shí)隨著反向傳播過程的深入當(dāng)輸入值過大或過小時(shí)函數(shù)的導(dǎo)數(shù)梯度會(huì)變得非常小接近零。這會(huì)導(dǎo)致梯度在向網(wǎng)絡(luò)的前層傳播時(shí)逐漸變小導(dǎo)致網(wǎng)絡(luò)的前層幾乎無法更新。注意死亡單元和梯度消失不是同一個(gè)問題具體解釋參考[4]。?Swish 激活函數(shù)Swish 又被稱為 SiLUSigmoid Linear Unit是Sigmoid 和線性函數(shù)的組合x 是輸入值β 是一個(gè)可學(xué)習(xí)參數(shù)。Swish 激活函數(shù)具有以下優(yōu)點(diǎn)1在某些情況下Swish 的梯度更加平穩(wěn)可以減少梯度消失問題。2Swish 可以通過學(xué)習(xí)參數(shù) β 來適應(yīng)不同的問題從而提高模型的泛化能力比如在圖像分類、自然語言處理等領(lǐng)域變現(xiàn)優(yōu)秀。3.3GLU 及其變體GLUGated Linear Units其實(shí)不算是一種激活函數(shù)而是一種神經(jīng)網(wǎng)絡(luò)層。它是一個(gè)線性變換后面接門控機(jī)制的結(jié)構(gòu)。其中門控機(jī)制是一個(gè)sigmoid函數(shù)用來控制信息能夠通過多少。其中的激活函數(shù)就是sigmod 函數(shù)通過改變激活函數(shù)可以得到 GLU 的各種變體。比如SwiGLU就是采用Swish作為激活函數(shù)的GLU變體。SwiGLU本質(zhì)上是對(duì)Transformer的FFN前饋傳播層的第一層全連接和ReLU進(jìn)行了替換原生的FFN中采用兩層全連接第一層升維第二層降維回歸到輸入維度兩層之間使用ReLU激活函數(shù)。SwiGLU也是全連接配合激活函數(shù)的形式不同的是SwiGLU采用兩個(gè)權(quán)重矩陣和輸入分別變換再配合Swish激活函數(shù)做哈達(dá)馬積的操作因?yàn)镕FN本身還有第二層全連接所以帶有SwiGLU激活函數(shù)的FFN模塊一共有三個(gè)權(quán)重矩陣用公式表達(dá)如下其中W1V為SwiGLU模塊的兩個(gè)權(quán)重矩陣W2為原始FFN的第二層全連接權(quán)重矩陣。這種方式使得FFN中的權(quán)重矩陣從2個(gè)變?yōu)榱?個(gè)為了使得模型的參數(shù)大體不變因此中間層的向量維度需要削減為原始維度的三分之二。4位置編碼在 Transformer 等序列模型中位置編碼用于向模型注入詞元的位置信息以幫助模型理解序列的順序關(guān)系。4.1Sinusoidal 位置編碼定義基于正弦和余弦函數(shù)的數(shù)學(xué)公式生成位置編碼? 偶數(shù)維度? 奇數(shù)維度其中pos 為詞元位置i 為維度索引為詞向量維度。優(yōu)勢(shì)? 天然的長度外推性正弦和余弦函數(shù)的周期性使其可生成任意長度的位置編碼無需預(yù)定義最大長度適合處理超長序列。? 隱含相對(duì)位置信息通過三角函數(shù)的性質(zhì)兩個(gè)位置的編碼差值可部分反映相對(duì)位置關(guān)系緩解了絕對(duì)位置編碼對(duì)相對(duì)位置感知的不足。? 計(jì)算高效無需訓(xùn)練直接通過公式生成節(jié)省顯存和訓(xùn)練成本。4.2RoPERotary Position Embedding定義通過對(duì)詞向量進(jìn)行旋轉(zhuǎn)操作注入絕對(duì)位置信息同時(shí)實(shí)現(xiàn)對(duì)相對(duì)位置的感知。其核心是使位置為m的查詢向量與位置為n的鍵向量的內(nèi)積僅依賴于相對(duì)位置m?n即 。優(yōu)勢(shì)? 兼顧絕對(duì)位置編碼的簡潔性和相對(duì)位置編碼的有效性通過絕對(duì)位置旋轉(zhuǎn)的方式自然引入相對(duì)位置信息解決了傳統(tǒng)絕對(duì)位置編碼無法感知詞元間距離的問題。? 支持長度外推優(yōu)化旋轉(zhuǎn)角度的周期性與 base 參數(shù)相關(guān)通過調(diào)整 base如放大至 1000000可擴(kuò)展序列長度。? 數(shù)學(xué)性質(zhì)穩(wěn)定旋轉(zhuǎn)操作不改變向量模長避免了位置編碼對(duì)詞向量本身的干擾??偨Y(jié)LLaMA 架構(gòu)作出的主要改變有三點(diǎn)層歸一化從post-norm 到pre-normFFN中的激活函數(shù)最終選擇了SwiReLU位置編碼選擇了穩(wěn)定性更強(qiáng)的 RoPR。LLaMA模型架構(gòu)取得成功為其變體提供了可參考的范式目前國內(nèi)流行的Qwen架構(gòu)基本為LLaMA架構(gòu)。千問Qwen大模型與標(biāo)準(zhǔn)transformer的主要區(qū)別如下1使用untied embedding嵌入2使用旋轉(zhuǎn)位置嵌入-即RoPE相對(duì)位置編碼3normalization實(shí)現(xiàn)–即 RMSNorm 代替 LayerNorm4FFN激活函數(shù)-即 SwiGLU 代替 ReLU5attention中除 QKV 外無bias–采用flash attention加速訓(xùn)練普通人如何抓住AI大模型的風(fēng)口領(lǐng)取方式在文末為什么要學(xué)習(xí)大模型目前AI大模型的技術(shù)崗位與能力培養(yǎng)隨著人工智能技術(shù)的迅速發(fā)展和應(yīng)用 大模型作為其中的重要組成部分 正逐漸成為推動(dòng)人工智能發(fā)展的重要引擎 。大模型以其強(qiáng)大的數(shù)據(jù)處理和模式識(shí)別能力 廣泛應(yīng)用于自然語言處理 、計(jì)算機(jī)視覺 、 智能推薦等領(lǐng)域 為各行各業(yè)帶來了革命性的改變和機(jī)遇 。目前開源人工智能大模型已應(yīng)用于醫(yī)療、政務(wù)、法律、汽車、娛樂、金融、互聯(lián)網(wǎng)、教育、制造業(yè)、企業(yè)服務(wù)等多個(gè)場景其中應(yīng)用于金融、企業(yè)服務(wù)、制造業(yè)和法律領(lǐng)域的大模型在本次調(diào)研中占比超過30%。隨著AI大模型技術(shù)的迅速發(fā)展相關(guān)崗位的需求也日益增加。大模型產(chǎn)業(yè)鏈催生了一批高薪新職業(yè)人工智能大潮已來不加入就可能被淘汰。如果你是技術(shù)人尤其是互聯(lián)網(wǎng)從業(yè)者現(xiàn)在就開始學(xué)習(xí)AI大模型技術(shù)真的是給你的人生一個(gè)重要建議最后只要你真心想學(xué)習(xí)AI大模型技術(shù)這份精心整理的學(xué)習(xí)資料我愿意無償分享給你但是想學(xué)技術(shù)去亂搞的人別來找我在當(dāng)前這個(gè)人工智能高速發(fā)展的時(shí)代AI大模型正在深刻改變各行各業(yè)。我國對(duì)高水平AI人才的需求也日益增長真正懂技術(shù)、能落地的人才依舊緊缺。我也希望通過這份資料能夠幫助更多有志于AI領(lǐng)域的朋友入門并深入學(xué)習(xí)。真誠無償分享vx掃描下方二維碼即可加上后會(huì)一個(gè)個(gè)給大家發(fā)大模型全套學(xué)習(xí)資料展示自我們與MoPaaS魔泊云合作以來我們不斷打磨課程體系與技術(shù)內(nèi)容在細(xì)節(jié)上精益求精同時(shí)在技術(shù)層面也新增了許多前沿且實(shí)用的內(nèi)容力求為大家?guī)砀到y(tǒng)、更實(shí)戰(zhàn)、更落地的大模型學(xué)習(xí)體驗(yàn)。希望這份系統(tǒng)、實(shí)用的大模型學(xué)習(xí)路徑能夠幫助你從零入門進(jìn)階到實(shí)戰(zhàn)真正掌握AI時(shí)代的核心技能01教學(xué)內(nèi)容從零到精通完整閉環(huán)【基礎(chǔ)理論 →RAG開發(fā) → Agent設(shè)計(jì) → 模型微調(diào)與私有化部署調(diào)→熱門技術(shù)】5大模塊內(nèi)容比傳統(tǒng)教材更貼近企業(yè)實(shí)戰(zhàn)大量真實(shí)項(xiàng)目案例帶你親自上手搞數(shù)據(jù)清洗、模型調(diào)優(yōu)這些硬核操作把課本知識(shí)變成真本事?02適學(xué)人群應(yīng)屆畢業(yè)生?無工作經(jīng)驗(yàn)但想要系統(tǒng)學(xué)習(xí)AI大模型技術(shù)期待通過實(shí)戰(zhàn)項(xiàng)目掌握核心技術(shù)。零基礎(chǔ)轉(zhuǎn)型?非技術(shù)背景但關(guān)注AI應(yīng)用場景計(jì)劃通過低代碼工具實(shí)現(xiàn)“AI行業(yè)”跨界?。業(yè)務(wù)賦能突破瓶頸傳統(tǒng)開發(fā)者Java/前端等學(xué)習(xí)Transformer架構(gòu)與LangChain框架向AI全棧工程師轉(zhuǎn)型?。vx掃描下方二維碼即可本教程比較珍貴僅限大家自行學(xué)習(xí)不要傳播更嚴(yán)禁商用03入門到進(jìn)階學(xué)習(xí)路線圖大模型學(xué)習(xí)路線圖整體分為5個(gè)大的階段04視頻和書籍PDF合集從0到掌握主流大模型技術(shù)視頻教程涵蓋模型訓(xùn)練、微調(diào)、RAG、LangChain、Agent開發(fā)等實(shí)戰(zhàn)方向新手必備的大模型學(xué)習(xí)PDF書單來了全是硬核知識(shí)幫你少走彎路不吹牛真有用05行業(yè)報(bào)告白皮書合集收集70報(bào)告與白皮書了解行業(yè)最新動(dòng)態(tài)0690份面試題/經(jīng)驗(yàn)AI大模型崗位面試經(jīng)驗(yàn)總結(jié)誰學(xué)技術(shù)不是為了賺$呢找個(gè)好的崗位很重要07 deepseek部署包技巧大全由于篇幅有限只展示部分資料并且還在持續(xù)更新中…真誠無償分享vx掃描下方二維碼即可加上后會(huì)一個(gè)個(gè)給大家發(fā)
版權(quán)聲明: 本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)聯(lián)系我們進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

合肥微網(wǎng)站制作做基礎(chǔ)網(wǎng)站主機(jī)要

合肥微網(wǎng)站制作,做基礎(chǔ)網(wǎng)站主機(jī)要,yole市場調(diào)研公司,做我的奴隸 good網(wǎng)站Hubot Sans#xff1a;專為現(xiàn)代技術(shù)場景設(shè)計(jì)的變量字體 【免費(fèi)下載鏈接】hubot-sans Hubot Sa

2026/01/21 15:35:01