国产中文字幕在线视频,.com久久久,亚洲免费在线播放视频,神九影院电视剧免费观看,奇米在线888,天天网综合,久久免费视频观看

網(wǎng)站建設(shè)合作伙伴寶安建網(wǎng)站

鶴壁市浩天電氣有限公司 2026/01/22 08:22:46
網(wǎng)站建設(shè)合作伙伴,寶安建網(wǎng)站,wordpress 菜單無法保存,微信長圖的免費(fèi)模板網(wǎng)站在深度強(qiáng)化學(xué)習(xí)的發(fā)展史上#xff0c;TRPO (Trust Region Policy Optimization) 占據(jù)著承前啟后的核心地位。它是連接早期 REINFORCE#xff08;樸素策略梯度#xff09;與現(xiàn)代 PPO#xff08;近端策略優(yōu)化#xff09;的橋梁。 很多人認(rèn)為 TRPO 僅僅是一個(gè)“帶約束的優(yōu)化算…在深度強(qiáng)化學(xué)習(xí)的發(fā)展史上TRPO (Trust Region Policy Optimization)占據(jù)著承前啟后的核心地位。它是連接早期 REINFORCE樸素策略梯度與現(xiàn)代 PPO近端策略優(yōu)化的橋梁。很多人認(rèn)為 TRPO 僅僅是一個(gè)“帶約束的優(yōu)化算法”這嚴(yán)重低估了它的理論深度。TRPO 的本質(zhì)是一次從**歐氏空間Euclidean Space向黎曼流形Riemannian Manifold**的思維跨越。它解決了一個(gè)根本性的問題在參數(shù)空間ΘThetaΘ上移動(dòng)多遠(yuǎn)才等同于在策略空間ΠPiΠ上移動(dòng)了安全的距離本文將從單調(diào)提升理論出發(fā)通過拉格朗日對偶性、泰勒級數(shù)展開、自然梯度法以及共軛梯度下降完整推導(dǎo) TRPO 的每一個(gè)數(shù)學(xué)細(xì)節(jié)。第一章理論基石——性能差異與單調(diào)性保證一切優(yōu)化的前提是“不退步”。在強(qiáng)化學(xué)習(xí)中策略更新往往牽一發(fā)而動(dòng)全身我們需要一個(gè)數(shù)學(xué)保證新策略J(πnew)≥J(πold)J(pi_{new}) ge J(pi_{old})J(πnew?)≥J(πold?)。1.1 性能差異引理 (The Performance Difference Lemma)Kakade Langford (2002) 提出了一個(gè)恒等式量化了兩個(gè)策略表現(xiàn)的差距。設(shè)J(π)J(pi)J(π)為策略πpiπ的期望累積折扣回報(bào)對于任意兩個(gè)策略πpiπ和π~ ilde{pi}π~有J(π~)J(π)Eτ~π~[∑t0∞γtAπ(st,at)] J( ilde{pi}) J(pi) mathbb{E}_{ au sim ilde{pi}} left[ sum_{t0}^{infty} gamma^t A_pi(s_t, a_t) ight]J(π~)J(π)Eτ~π~?[t0∑∞?γtAπ?(st?,at?)]Aπ(s,a)Qπ(s,a)?Vπ(s)A_pi(s, a) Q_pi(s, a) - V_pi(s)Aπ?(s,a)Qπ?(s,a)?Vπ?(s)是舊策略的優(yōu)勢函數(shù)。核心洞察如果新策略π~ ilde{pi}π~在每一個(gè)狀態(tài)sss都能選擇出Aπ(s,a)0A_pi(s, a) 0Aπ?(s,a)0的動(dòng)作那么J(π~)J( ilde{pi})J(π~)必然大于J(π)J(pi)J(π)。1.2 替代目標(biāo)函數(shù) (Surrogate Objective)上述公式中期望是基于新策略π~ ilde{pi}π~的軌跡τ auτ計(jì)算的這在更新前是未知的。我們利用重要性采樣將狀態(tài)分布近似為舊策略的分布ρπ ho_piρπ?Lπ(π~)J(π)∑sρπ(s)∑aπ~(a∣s)Aπ(s,a) L_pi( ilde{pi}) J(pi) sum_{s} ho_pi(s) sum_{a} ilde{pi}(a|s) A_pi(s, a)Lπ?(π~)J(π)s∑?ρπ?(s)a∑?π~(a∣s)Aπ?(s,a)在 TRPO 中我們通常優(yōu)化Lπ(π~)L_pi( ilde{pi})Lπ?(π~)的等價(jià)形式忽略常數(shù)項(xiàng)J(π)J(pi)J(π)max?θEs~ρθold,a~πθold[πθ(a∣s)πθold(a∣s)Aθold(s,a)] max_{ heta} mathbb{E}_{s sim ho_{ heta_{old}}, a sim pi_{ heta_{old}}} left[ frac{pi_ heta(a|s)}{pi_{ heta_{old}}(a|s)} A_{ heta_{old}}(s,a) ight]θmax?Es~ρθold??,a~πθold???[πθold??(a∣s)πθ?(a∣s)?Aθold??(s,a)]1.3 誤差邊界與下界最大化 (MM Algorithm)由于狀態(tài)分布的近似ρπ~≈ρπ ho_{ ilde{pi}} approx ho_piρπ~?≈ρπ?引入了誤差Schulman 證明了如下不等式J(π~)≥Lπ(π~)?C?DKLmax?(π,π~) J( ilde{pi}) ge L_pi( ilde{pi}) - C cdot D_{KL}^{max}(pi, ilde{pi})J(π~)≥Lπ?(π~)?C?DKLmax?(π,π~)其中C4?γ(1?γ)2C frac{4epsilon gamma}{(1-gamma)^2}C(1?γ)24?γ?是常數(shù)DKLmax?D_{KL}^{max}DKLmax?是狀態(tài)空間上的最大 KL 散度。這構(gòu)成了一個(gè)Minorization-Maximization (MM)算法的基礎(chǔ)Mi(π)Lπi(π)?C?DKLmax?(πi,π)M_i(pi) L_{pi_i}(pi) - C cdot D_{KL}^{max}(pi_i, pi)Mi?(π)Lπi??(π)?C?DKLmax?(πi?,π)是J(π)J(pi)J(π)的下界函數(shù)。最大化這個(gè)下界就能保證真實(shí)目標(biāo)J(π)J(pi)J(π)的單調(diào)提升。第二章從理論到實(shí)踐——信賴域約束的構(gòu)建理論上的懲罰系數(shù)CCC通常過大導(dǎo)致步長極小幾乎無法訓(xùn)練。TRPO 將上述無約束的懲罰問題Lagrangian form轉(zhuǎn)化為帶約束的優(yōu)化問題Constrained form。2.1 優(yōu)化問題的形式化我們需要在滿足 KL 散度約束的前提下最大化替代目標(biāo)max?θL(θ)E[πθ(a∣s)πθold(a∣s)Aθold(s,a)]subject toDˉKL(πθold,πθ)≤δ egin{aligned} max_{ heta} quad L( heta) mathbb{E} left[ frac{pi_ heta(a|s)}{pi_{ heta_{old}}(a|s)} A_{ heta_{old}}(s,a) ight] \ ext{subject to} quad ar{D}_{KL}(pi_{ heta_{old}}, pi_ heta) le delta end{aligned}θmax?subject to?L(θ)E[πθold??(a∣s)πθ?(a∣s)?Aθold??(s,a)]DˉKL?(πθold??,πθ?)≤δ?這里DˉKLar{D}_{KL}DˉKL?是所有狀態(tài)下的平均 KL 散度δdeltaδ是信賴域半徑Trust Region Radius。2.2 為什么是 KL 散度這是一個(gè)極其關(guān)鍵的數(shù)學(xué)選擇。如果我們使用歐氏距離∥θ?θold∥2≤δ| heta - heta_{old}|^2 le delta∥θ?θold?∥2≤δ會(huì)發(fā)生什么參數(shù)空間與概率分布空間是不等價(jià)的。有些參數(shù)變化很小卻導(dǎo)致概率分布劇變有些參數(shù)變化很大概率分布卻幾乎不變。KL 散度衡量的是分布之間的統(tǒng)計(jì)距離。它定義了一個(gè)黎曼流形使得我們的步長具有協(xié)變性Covariant——無論我們將參數(shù)如何縮放或重參數(shù)化只要分布不變KL 散度就不變更新軌跡也就不變。第三章數(shù)值求解——泰勒展開與自然梯度上述約束優(yōu)化問題是非線性的難以直接求解。我們使用泰勒級數(shù)對其進(jìn)行局部近似。3.1 一階與二階泰勒近似設(shè)更新量Δθθ?θoldDelta heta heta - heta_{old}Δθθ?θold?。目標(biāo)函數(shù)一階展開L(θ)≈L(θold)?θL(θold)TΔθ L( heta) approx L( heta_{old}) abla_ heta L( heta_{old})^T Delta hetaL(θ)≈L(θold?)?θ?L(θold?)TΔθ其中?θL(θold) abla_ heta L( heta_{old})?θ?L(θold?)即為常用的策略梯度記為ggg。約束條件二階展開由于DKL(θ,θ)0D_{KL}( heta, heta) 0DKL?(θ,θ)0且 KL 散度在兩分布相等處取得極小值因此一階導(dǎo)數(shù)為 0。我們展開到二階DˉKL(θold,θ)≈12ΔθTFΔθ ar{D}_{KL}( heta_{old}, heta) approx frac{1}{2} Delta heta^T mathbf{F} Delta hetaDˉKL?(θold?,θ)≈21?ΔθTFΔθ其中Fmathbf{F}F是費(fèi)雪信息矩陣Fisher Information Matrix, FIM也就是 KL 散度的 Hessian 矩陣FEs,a[?θlog?πθ(a∣s)?θlog?πθ(a∣s)T] mathbf{F} mathbb{E}_{s, a} left[ abla_ heta log pi_ heta(a|s) abla_ heta log pi_ heta(a|s)^T ight]FEs,a?[?θ?logπθ?(a∣s)?θ?logπθ?(a∣s)T]3.2 近似問題的解析解現(xiàn)在問題變成了標(biāo)準(zhǔn)的二次規(guī)劃Quadratic Programmingmax?ΔθgTΔθs.t.12ΔθTFΔθ≤δ egin{aligned} max_{Delta heta} quad g^T Delta heta \ ext{s.t.} quad frac{1}{2} Delta heta^T mathbf{F} Delta heta le delta end{aligned}Δθmax?s.t.?gTΔθ21?ΔθTFΔθ≤δ?利用拉格朗日乘子法構(gòu)造拉格朗日函數(shù)L(Δθ,λ)gTΔθ?λ(12ΔθTFΔθ?δ) mathcal{L}(Delta heta, lambda) g^T Delta heta - lambda left( frac{1}{2} Delta heta^T mathbf{F} Delta heta - delta ight)L(Δθ,λ)gTΔθ?λ(21?ΔθTFΔθ?δ)對ΔθDelta hetaΔθ求導(dǎo)并令其為 0g?λFΔθ0 ? Δθ1λF?1g g - lambda mathbf{F} Delta heta 0 implies Delta heta frac{1}{lambda} mathbf{F}^{-1} gg?λFΔθ0?Δθλ1?F?1g這里的F?1gmathbf{F}^{-1} gF?1g就是大名鼎鼎的自然梯度Natural Gradient。它根據(jù)參數(shù)空間的局部曲率Fmathbf{F}F校正了梯度方向。3.3 求解步長系數(shù)我們還需要確定λlambdaλ或者說步長大小。將Δθ1λF?1gDelta heta frac{1}{lambda} mathbf{F}^{-1} gΔθλ1?F?1g代入約束條件12ΔθTFΔθδfrac{1}{2} Delta heta^T mathbf{F} Delta heta delta21?ΔθTFΔθδ12(1λF?1g)TF(1λF?1g)δ frac{1}{2} left( frac{1}{lambda} mathbf{F}^{-1} g ight)^T mathbf{F} left( frac{1}{lambda} mathbf{F}^{-1} g ight) delta21?(λ1?F?1g)TF(λ1?F?1g)δ12λ2gTF?1FF?1gδ frac{1}{2lambda^2} g^T mathbf{F}^{-1} mathbf{F} mathbf{F}^{-1} g delta2λ21?gTF?1FF?1gδ12λ2gTF?1gδ frac{1}{2lambda^2} g^T mathbf{F}^{-1} g delta2λ21?gTF?1gδ解得λgTF?1g2δ lambda sqrt{frac{g^T mathbf{F}^{-1} g}{2delta}}λ2δgTF?1g??因此最終的更新向量為Δθ2δgTF?1gF?1g Delta heta sqrt{frac{2delta}{g^T mathbf{F}^{-1} g}} mathbf{F}^{-1} gΔθgTF?1g2δ??F?1g第四章工程實(shí)現(xiàn)的藝術(shù)——共軛梯度與 HVP理論推導(dǎo)很完美但在深度學(xué)習(xí)中參數(shù)量NNN可能高達(dá)數(shù)百萬。Fmathbf{F}F是一個(gè)N×NN imes NN×N的矩陣。計(jì)算并存儲(chǔ)它需要O(N2)O(N^2)O(N2)空間求逆F?1mathbf{F}^{-1}F?1需要O(N3)O(N^3)O(N3)時(shí)間。這在計(jì)算上是不可行的。TRPO 使用共軛梯度法 (Conjugate Gradient, CG)來避開這個(gè)瓶頸。4.1 將求逆轉(zhuǎn)化為解方程我們不需要顯式求F?1mathbf{F}^{-1}F?1我們只需要求向量xF?1gx mathbf{F}^{-1} gxF?1g。這等價(jià)于求解線性方程組Fxg mathbf{F} x gFxg由于Fmathbf{F}F是對稱正定矩陣CG 算法非常適合求解此類方程。4.2 Hessian-Vector Product (HVP)在 CG 迭代中我們需要頻繁計(jì)算矩陣與向量的乘積Fvmathbf{F} vFv其中vvv是 CG 算法中的搜索方向向量。Pearlmutter (1994) 提出的技巧告訴我們計(jì)算 Hessian 與向量的乘積不需要構(gòu)建 Hessian 矩陣?;仡橣mathbf{F}F的定義我們可以通過兩次反向傳播來計(jì)算Fvmathbf{F} vFvFv?θ((?θlog?πθ(a∣s)?v)T?θlog?πθ(a∣s)) mathbf{F} v abla_ heta left( ( abla_ heta log pi_ heta(a|s) cdot v)^T abla_ heta log pi_ heta(a|s) ight)Fv?θ?((?θ?logπθ?(a∣s)?v)T?θ?logπθ?(a∣s))但在實(shí)踐中我們通常使用 KL 散度的梯度形式更方便Fv?θ(?θDKL(πθold∥πθ)?v) mathbf{F} v abla_ heta left( abla_ heta D_{KL}(pi_{ heta_{old}} | pi_ heta) cdot v ight)Fv?θ?(?θ?DKL?(πθold??∥πθ?)?v)具體操作步驟計(jì)算 KL 散度關(guān)于θ hetaθ的梯度一階導(dǎo)。計(jì)算該梯度與向量vvv的點(diǎn)積標(biāo)量。對這個(gè)標(biāo)量再求一次關(guān)于θ hetaθ的梯度二階導(dǎo)信息。這樣我們就在O(N)O(N)O(N)的時(shí)間復(fù)雜度內(nèi)算出了Fvmathbf{F} vFv使得 TRPO 在大模型上變得可行。第五章最后一道防線——回溯線性搜索 (Backtracking Line Search)由于我們在第三章使用了泰勒展開計(jì)算出的ΔθDelta hetaΔθ只是在局部是準(zhǔn)確的。如果步子邁得太大泰勒近似就會(huì)失效導(dǎo)致 KL 散度越界或者目標(biāo)函數(shù)下降。TRPO 引入了線性搜索機(jī)制來確保單調(diào)性。設(shè)搜索方向?yàn)閐F?1gd mathbf{F}^{-1} gdF?1g最大步長為β2δ/(dTFd)eta sqrt{2delta / (d^T mathbf{F} d)}β2δ/(dTFd)?。我們嘗試更新θnewθoldαjβd heta_{new} heta_{old} alpha^j eta dθnew?θold?αjβd其中α∈(0,1)alpha in (0, 1)α∈(0,1)是衰減率例如 0.5jjj從 0 開始增加。我們接受θnew heta_{new}θnew?當(dāng)且僅當(dāng)滿足以下兩個(gè)條件目標(biāo)提升條件L(θnew)?L(θold)0L( heta_{new}) - L( heta_{old}) 0L(θnew?)?L(θold?)0或者滿足一定的提升比例。信賴域約束條件DˉKL(θold,θnew)≤δar{D}_{KL}( heta_{old}, heta_{new}) le deltaDˉKL?(θold?,θnew?)≤δ。通過這種“先計(jì)算最佳方向再小心翼翼試探”的策略TRPO 實(shí)現(xiàn)了極其穩(wěn)定的更新??偨Y(jié)TRPO 的數(shù)學(xué)美學(xué)TRPO 的推導(dǎo)過程是一場數(shù)學(xué)盛宴從性能差異引理出發(fā)建立了單調(diào)提升的目標(biāo)。利用KL 散度構(gòu)建了黎曼流形上的信賴域約束。通過泰勒展開將非線性約束規(guī)劃轉(zhuǎn)化為二次規(guī)劃。引入費(fèi)雪信息矩陣得到了自然梯度解。使用共軛梯度法和HVP 技巧解決了高維矩陣求逆難題。最后用線性搜索彌補(bǔ)了近似誤差。每一個(gè)環(huán)節(jié)都環(huán)環(huán)相扣邏輯嚴(yán)密。雖然后來的 PPO 通過 Clip 操作極大地簡化了這一過程但 PPO 之所以有效正是因?yàn)樗谠噲D模擬 TRPO 所定義的那個(gè)完美的“信賴域”。理解了 TRPO你才真正觸碰到了策略梯度算法的靈魂。
版權(quán)聲明: 本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請聯(lián)系我們進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

購物網(wǎng)站開發(fā) 書籍2022最好的百度seo

購物網(wǎng)站開發(fā) 書籍,2022最好的百度seo,pageadmin做網(wǎng)站要錢嗎,要建設(shè)一個(gè)網(wǎng)站需要什么微信小程序UI設(shè)計(jì)革命#xff1a;WeUI-WXSS讓你的應(yīng)用瞬間擁有原生體驗(yàn) 【免費(fèi)下載鏈接】w

2026/01/21 15:36:01

在線網(wǎng)站建設(shè)課程wordpress 升級提示

在線網(wǎng)站建設(shè)課程,wordpress 升級提示,金華建設(shè)網(wǎng)站,定制網(wǎng)站開發(fā)食道里感覺有東西堵第一章#xff1a;C 語言與 Rust 數(shù)據(jù)交互實(shí)戰(zhàn)#xff08;性能優(yōu)化與內(nèi)存安全雙突破#xff09;

2026/01/21 19:15:01

淮南網(wǎng)站制作所有網(wǎng)站打不開

淮南網(wǎng)站制作,所有網(wǎng)站打不開,網(wǎng)絡(luò)站點(diǎn)推廣的方法,網(wǎng)站開發(fā)要花費(fèi)多少錢如何快速配置3D球體抽獎(jiǎng)#xff1a;面向活動(dòng)策劃的完整指南 【免費(fèi)下載鏈接】log-lottery #x1f388;#x1f38

2026/01/21 16:07:02