W3Cschool
恭喜您成為首批注冊用戶
獲得88經驗值獎勵
Semi-supervised learning是指訓練數據中一些樣本數據沒有標簽的情況。sklearn.semi_supervised
中的半監(jiān)督估計器,能夠利用這些附加的未標記數據來更好地捕獲底層數據分布的形狀,并將其更好地類推廣到新的樣本。當訓練數據中有非常少量的有標簽的點和大量的無標簽的點時,這些算法可以表現良好。
y 中含有未標記的數據
在使用
fit
方法訓練模型時,重要的是將標識符與標記數據一起分配給未標記點。此實現使用的標識符是整數值?1。
標簽傳播表示半監(jiān)督圖推理算法的幾個變體。
該模型中有以下幾個特性:
scikit-learn
提供了兩種標簽傳播模型: LabelPropagation
和 LabelSpreading
。 兩種方法都是在輸入數據集中的所有項上構造一個相似圖。
標簽傳播的說明: 未標記觀測的結構與類結構是一致的,從而可以將類標簽傳播到訓練集的未標記觀測。
LabelPropagation
和 LabelSpreading
在對圖形的相似性矩陣以及對標簽分布的夾持效應(clamping effect)方面的修改不太一樣。 夾持效應允許算法在一定程度上改變真實標簽化數據的權重。 LabelPropagation
算法執(zhí)行輸入標簽的全加持(hard clamping),這意味著 。夾持因子可以不一定很嚴格。例如 意味著我們將始終保留原始標簽分布的 80%,但該算法可以將其分布的置信度改變在 20% 以內。
LabelPropagation
使用未經修改的數據構造的原始相似度矩陣。相反 LabelSpreading
最小化了具有正則化特性的損失函數,因此它通常對噪聲更有魯棒性。該算法在原始圖形的修改版本上進行迭代,并通過計算 normalized graph Laplacian matrix(歸一化圖拉普拉斯矩陣)來對邊緣的權重進行歸一化。這一過程也用于光譜聚類。
標簽傳播模型有兩個內置的核方法。核的選擇對算法的可擴展性和性能都有影響??色@得以下:
RBF核將生成一個完全連通的圖,在內存中用稠密矩陣表示。該矩陣可能非常大,再加上對算法的每一次迭代執(zhí)行全矩陣乘法計算的成本,可能導致運行時間過長。另一方面,KNN核將產生一個對內存更友好的稀疏矩陣,可以大大減少運行時間。
示例 |
---|
Iris數據集上的標簽傳播與SVM的決策邊界 使用標簽傳播學習復雜的結構 手寫數據集上的標簽傳播:性能展示 手寫數字數據集上的標簽傳播:主動學習 |
參考
[1] Yoshua Bengio, Olivier Delalleau, Nicolas Le Roux. In Semi-Supervised Learning (2006), pp. 193-216
[2] Olivier Delalleau, Yoshua Bengio, Nicolas Le Roux. Efficient Non-Parametric Function Induction in Semi-Supervised Learning. AISTAT 2005 https://research.microsoft.com/en-us/people/nicolasl/efficient_ssl.pdf
Copyright©2021 w3cschool編程獅|閩ICP備15016281號-3|閩公網安備35020302033924號
違法和不良信息舉報電話:173-0602-2364|舉報郵箱:jubao@eeedong.com
掃描二維碼
下載編程獅App
編程獅公眾號
聯系方式:
更多建議: