起飛頁(yè)自助建站平臺(tái),wordpress登陸可見(jiàn),九江建設(shè)局網(wǎng)站,社交網(wǎng)站建設(shè)各位同學(xué)#xff0c;大家剛學(xué)完線性回歸#xff0c;知道它能幫我們預(yù)測(cè)連續(xù)值——比如根據(jù)房屋面積預(yù)測(cè)房?jī)r(jià)。但如果遇到“判斷郵件是不是垃圾郵件”“病人是否患病”這類分類問(wèn)題#xff0c;線性回歸就有些力不從心了。今天我們就來(lái)學(xué)習(xí)專門解決二分類問(wèn)題的“邏輯回歸”大家剛學(xué)完線性回歸知道它能幫我們預(yù)測(cè)連續(xù)值——比如根據(jù)房屋面積預(yù)測(cè)房?jī)r(jià)。但如果遇到“判斷郵件是不是垃圾郵件”“病人是否患病”這類分類問(wèn)題線性回歸就有些力不從心了。今天我們就來(lái)學(xué)習(xí)專門解決二分類問(wèn)題的“邏輯回歸”它本質(zhì)是線性回歸的“分類化改造”咱們一步步把它講透。第一部分邏輯回歸的核心原理——把線性回歸“掰成”分類工具線性回歸的核心是找一條直線或高維平面擬合數(shù)據(jù)公式是span code y w?x? w?x? ... w?x? b也就是span code y W?X b。但分類問(wèn)題需要的是“是/否”的判斷怎么把連續(xù)的線性輸出轉(zhuǎn)化為0-1的分類結(jié)果呢邏輯回歸用了三步完成這個(gè)改造1. 第一步用“直線”做初步分割和線性回歸一樣邏輯回歸先構(gòu)造一條決策邊界二分類問(wèn)題中是直線高維數(shù)據(jù)中是超平面用它把數(shù)據(jù)分成兩類。比如判斷“是否購(gòu)買商品”我們可以用“年齡x?”和“收入x?”構(gòu)造邊界span code w?x? w?x? b 0。直線一側(cè)的樣本我們傾向于判斷為“是1類”另一側(cè)則為“否0類”。但此時(shí)將數(shù)據(jù)帶入直線的輸出span code W?X b是連續(xù)值范圍可能從-∞到∞沒(méi)法直接代表“屬于某類”的概率這就需要第二步改造。2. 第二步sigmoid函數(shù)——把連續(xù)值“擠”到0-1之間我們需要一個(gè)“轉(zhuǎn)換器”把線性輸出span code z W?X b映射到0到1之間這個(gè)轉(zhuǎn)換器就是sigmoid函數(shù)公式如下span code σ(z) 1 / (1 e??)它的圖像是一條“S型曲線”當(dāng)z0時(shí)σ(z)0.5z越大σ(z)越接近1z越小σ(z)越接近0。這樣一來(lái)sigmoid的輸出就有了明確的概率意義——我們可以把σ(z)理解為“樣本屬于1類的概率”。比如σ(z)0.8就說(shuō)明這個(gè)樣本有80%的概率是1類20%的概率是0類此時(shí)我們通常會(huì)以0.5為閾值判斷它為1類。3. 第三步極大似然估計(jì)梯度下降——找到最優(yōu)決策邊界線性回歸用“最小二乘法”找最優(yōu)參數(shù)邏輯回歸則用“極大似然估計(jì)”。核心思想是讓已有的樣本數(shù)據(jù)出現(xiàn)的“概率最大化”。假設(shè)某個(gè)樣本屬于1類的概率是σ(z)屬于0類的概率就是1-σ(z)我們可以把這兩種情況合并成一個(gè)“似然函數(shù)”對(duì)于每個(gè)樣本似然值為span code P(y|X) [σ(z)]? · [1-σ(z)]^(1??)y是樣本的真實(shí)標(biāo)簽1或0。所有樣本的聯(lián)合似然值就是各個(gè)樣本似然值的乘積我們的目標(biāo)就是找到一組參數(shù)W和b讓這個(gè)聯(lián)合似然值最大。為了計(jì)算方便我們會(huì)對(duì)似然函數(shù)取對(duì)數(shù)變成“對(duì)數(shù)似然函數(shù)”把乘法轉(zhuǎn)化為加法此時(shí)“最大化對(duì)數(shù)似然”就等價(jià)于“最小化負(fù)對(duì)數(shù)似然”這就是邏輯回歸的損失函數(shù)也叫交叉熵?fù)p失。但這個(gè)損失函數(shù)沒(méi)有解析解無(wú)法直接求出最優(yōu)參數(shù)所以我們用“梯度下降”來(lái)迭代求解先隨機(jī)初始化W和b然后沿著損失函數(shù)梯度下降的方向一步步調(diào)整參數(shù)直到損失函數(shù)達(dá)到最小值此時(shí)的W和b就是我們要找的最優(yōu)參數(shù)。第二部分梯度下降算法原理與參數(shù)意義1. 梯度下降的核心邏輯梯度可以理解為“損失函數(shù)變化最快的方向”梯度下降就是“沿著梯度的反方向損失減少最快的方向調(diào)整參數(shù)”。具體步驟是初始化參數(shù)給W和b賦初始值比如全0或隨機(jī)小值計(jì)算梯度求損失函數(shù)對(duì)每個(gè)參數(shù)w?、w?...w?、b的偏導(dǎo)數(shù)得到梯度向量更新參數(shù)用參數(shù)減去“學(xué)習(xí)率×梯度”學(xué)習(xí)率控制每一步調(diào)整的幅度太大容易震蕩太小收斂太慢迭代終止當(dāng)梯度的絕對(duì)值小于某個(gè)閾值比如1e-4或迭代次數(shù)達(dá)到上限時(shí)停止調(diào)整。2. 邏輯回歸中參數(shù)的實(shí)際意義邏輯回歸的參數(shù)W每個(gè)特征對(duì)應(yīng)一個(gè)w和b直接決定了決策邊界和分類概率它們的意義很具體參數(shù)w特征系數(shù)表示“該特征每增加1個(gè)單位zW?Xb的變化量”進(jìn)而影響sigmoid輸出的概率。如果w為正說(shuō)明該特征值越大樣本屬于1類的概率越高如果w為負(fù)則相反。比如“收入”特征的w0.02說(shuō)明收入每增加1元購(gòu)買商品的概率會(huì)相應(yīng)提高而“年齡”特征的w-0.01可能表示年齡越大購(gòu)買概率越低。參數(shù)b偏置項(xiàng)相當(dāng)于“調(diào)整決策邊界的位置”。當(dāng)所有特征x都為0時(shí)zbsigmoid(b)就是此時(shí)樣本屬于1類的基礎(chǔ)概率。b的存在讓模型更靈活避免因特征全為0而無(wú)法輸出合理概率。第三部分邏輯回歸的模型評(píng)價(jià)指標(biāo)——不同場(chǎng)景選對(duì)“尺子”分類模型的評(píng)價(jià)不能只看“準(zhǔn)確率”正確分類的樣本占比因?yàn)樵诓黄胶鈹?shù)據(jù)中比如疾病篩查患病樣本只占1%即使全預(yù)測(cè)為“未患病”準(zhǔn)確率也能達(dá)到99%但模型毫無(wú)價(jià)值。這時(shí)候就需要用召回率、精確率等指標(biāo)它們的核心是基于“混淆矩陣”混淆矩陣核心四要素TP真陽(yáng)性實(shí)際1類預(yù)測(cè)為1類、TN真陰性實(shí)際0類預(yù)測(cè)為0類、FP假陽(yáng)性實(shí)際0類預(yù)測(cè)為1類、FN假陰性實(shí)際1類預(yù)測(cè)為0類1. 精確率Precision——“預(yù)測(cè)為1類的樣本中真的是1類的比例”公式span code Precision TP / (TP FP)適用場(chǎng)景重視“避免誤判1類”的場(chǎng)景。比如垃圾郵件分類我們不希望把正常郵件0類誤判為垃圾郵件1類此時(shí)精確率要高——確?！皹?biāo)記為垃圾的郵件里幾乎都是真垃圾”。2. 召回率Recall——“實(shí)際是1類的樣本中被正確預(yù)測(cè)出來(lái)的比例”公式span code Recall TP / (TP FN)適用場(chǎng)景重視“不漏掉1類”的場(chǎng)景。比如疾病篩查我們寧可把健康人0類誤判為患者1類FP高也不能漏掉真正的患者FN低此時(shí)召回率要高——確保“所有真正患病的人都能被檢測(cè)出來(lái)”。3. F1分?jǐn)?shù)——精確率和召回率的“平衡器”當(dāng)精確率和召回率存在矛盾時(shí)比如提高召回率會(huì)降低精確率用F1分?jǐn)?shù)綜合評(píng)價(jià)公式span code F1 2×Precision×Recall / (Precision Recall)F1越接近1模型綜合性能越好。4. ROC-AUC——“抗數(shù)據(jù)不平衡”的綜合指標(biāo)ROC曲線以“假陽(yáng)性率FP/(FPTN)”為橫軸“真陽(yáng)性率召回率”為縱軸AUC是ROC曲線下的面積范圍0-1。AUC越接近1模型區(qū)分兩類樣本的能力越強(qiáng)且不受類別不平衡的影響適合作為通用評(píng)價(jià)指標(biāo)。第四部分Python實(shí)戰(zhàn)——用sklearn快速實(shí)現(xiàn)邏輯回歸sklearn庫(kù)已經(jīng)封裝好了邏輯回歸算法我們只需關(guān)注“數(shù)據(jù)準(zhǔn)備-模型初始化-訓(xùn)練-預(yù)測(cè)-評(píng)價(jià)”這幾個(gè)步驟重點(diǎn)掌握參數(shù)選擇。1. 環(huán)境準(zhǔn)備與庫(kù)導(dǎo)入首先確保安裝了sklearn和相關(guān)依賴numpy、pandas然后導(dǎo)入必要的類和函數(shù)# 導(dǎo)入數(shù)據(jù)處理庫(kù) import numpy as np import pandas as pd # 導(dǎo)入邏輯回歸類、數(shù)據(jù)集、模型評(píng)價(jià)指標(biāo) from sklearn.linear_model import LogisticRegression from sklearn.datasets import load_breast_cancer # 以乳腺癌數(shù)據(jù)集為例二分類 from sklearn.model_selection import train_test_split # 劃分訓(xùn)練集/測(cè)試集 from sklearn.metrics import precision_score, recall_score, f1_score, roc_auc_score # 評(píng)價(jià)指標(biāo)2. 數(shù)據(jù)準(zhǔn)備與劃分用sklearn自帶的乳腺癌數(shù)據(jù)集特征是腫瘤的各項(xiàng)指標(biāo)標(biāo)簽是“良性0”或“惡性1”先劃分訓(xùn)練集用于訓(xùn)練模型和測(cè)試集用于評(píng)價(jià)模型# 加載數(shù)據(jù)集 data load_breast_cancer() X data.data # 特征矩陣30個(gè)特征 y data.target # 標(biāo)簽0/1 # 劃分訓(xùn)練集和測(cè)試集測(cè)試集占20%隨機(jī)種子確保結(jié)果可復(fù)現(xiàn) X_train, X_test, y_train, y_test train_test_split( X, y, test_size0.2, random_state42 )3. 模型初始化與參數(shù)選擇LogisticRegression類的核心參數(shù)需要根據(jù)場(chǎng)景調(diào)整重點(diǎn)關(guān)注以下幾個(gè)penalty正則化方式用于防止過(guò)擬合可選l1L1正則會(huì)讓部分參數(shù)為0實(shí)現(xiàn)特征選擇、l2L2正則默認(rèn)讓參數(shù)值都較小、elasticnet結(jié)合L1和L2C正則化強(qiáng)度的倒數(shù)C越小正則化越強(qiáng)防止過(guò)擬合的力度越大solver優(yōu)化器求解梯度下降的算法根據(jù)penalty選擇比如liblinear適合L1正則saga適合elasticnetmax_iter梯度下降的最大迭代次數(shù)默認(rèn)100若模型不收斂可增大比如200。初始化并訓(xùn)練模型初始化邏輯回歸模型采用L2正則化正則化系數(shù)C1.0使用liblinear優(yōu)化器最大迭代次數(shù)200次lr_model LogisticRegression( penaltyl2, C1.0, solverliblinear, max_iter200, random_state42 )訓(xùn)練模型4. 預(yù)測(cè)與模型評(píng)價(jià)模型訓(xùn)練完成后用測(cè)試集做預(yù)測(cè)然后計(jì)算各項(xiàng)評(píng)價(jià)指標(biāo)# 預(yù)測(cè)測(cè)試集的類別默認(rèn)用0.5為閾值 y_pred lr_model.predict(X_test) # 預(yù)測(cè)測(cè)試集屬于1類的概率用于計(jì)算ROC-AUC y_pred_prob lr_model.predict_proba(X_test)[:, 1] # 取第二列1類的概率 # 計(jì)算評(píng)價(jià)指標(biāo) precision precision_score(y_test, y_pred) recall recall_score(y_test, y_pred) f1 f1_score(y_test, y_pred) roc_auc roc_auc_score(y_test, y_pred_prob) # 輸出結(jié)果 print(f精確率{precision:.4f}) print(f召回率{recall:.4f}) print(fF1分?jǐn)?shù){f1:.4f}) print(fROC-AUC{roc_auc:.4f})運(yùn)行結(jié)果示例因數(shù)據(jù)集固定結(jié)果會(huì)很穩(wěn)定精確率0.9773 召回率0.9773 F1分?jǐn)?shù)0.9773 ROC-AUC0.9981這個(gè)結(jié)果說(shuō)明模型在乳腺癌診斷上表現(xiàn)很好召回率接近98%幾乎不會(huì)漏掉惡性腫瘤患者。5. 查看模型參數(shù)訓(xùn)練完成后我們可以查看模型的參數(shù)理解特征的影響# 查看每個(gè)特征的系數(shù)w print(特征系數(shù), lr_model.coef_) # 查看偏置項(xiàng)b print(偏置項(xiàng), lr_model.intercept_)系數(shù)為正的特征說(shuō)明該特征值越大腫瘤是惡性1類的概率越高系數(shù)為負(fù)的特征則相反?？偨Y(jié)邏輯回歸的核心脈絡(luò)邏輯回歸是“線性模型分類激活函數(shù)”的經(jīng)典組合核心是用sigmoid函數(shù)將線性輸出轉(zhuǎn)化為概率用極大似然估計(jì)定義損失用梯度下降求解最優(yōu)參數(shù)。實(shí)際使用中要根據(jù)“是否漏檢優(yōu)先”選高召回率還是“是否誤判優(yōu)先”選高精確率來(lái)調(diào)整模型并用sklearn快速落地重點(diǎn)關(guān)注正則化參數(shù)penalty、C以防止過(guò)擬合。

国产中文字幕在线视频,.com久久久,亚洲免费在线播放视频,神九影院电视剧免费观看,奇米在线888,天天网综合,久久免费视频观看

起飛頁(yè)自助建站平臺(tái)wordpress登陸可見(jiàn)

中國(guó)建設(shè)銀行網(wǎng)站口游戲制作器

網(wǎng)站開(kāi)發(fā)經(jīng)常遇到的問(wèn)題網(wǎng)站建設(shè)對(duì)公司的發(fā)展

安徽網(wǎng)站建設(shè)流程html格式的網(wǎng)站地圖

網(wǎng)站制作與app開(kāi)發(fā)哪個(gè)要難一點(diǎn)廈門做網(wǎng)站優(yōu)化價(jià)格

做哪一類網(wǎng)站容易有排名做一個(gè)網(wǎng)站能賣多少錢

深圳市手機(jī)網(wǎng)站建設(shè)報(bào)價(jià)ssh鮮花禮品網(wǎng)站建設(shè)