我們探究了將原始數據映射到切合特性矢量的辦法,但這只是事情的一局部。如今,我們必需探究什么樣的值才算這些特性矢量中精良的特性。
精良的特性值應該在數據會合顯現約莫 5 次以上。如此一來,模子就可以學習該特性值與標簽是怎樣關聯的。也就是說,多量散伙值相反的樣本可讓模子天然會了解不同設置中的特性,從而推斷何時可以對標簽很好地做出猜測。比如,house_type 特性約莫包含多量樣本,此中它的值為 victorian:
?house_type: victorian
相反,假如某個特性的值僅顯現一次大概很少顯現,則模子就無法依據該特性舉行猜測。比如,unique_house_id 就不適互助為特性,由于每個值只使用一次,模子無法從中學習任何紀律:
?unique_house_id: 8SK982ZZ1242Z
每個特性關于項目中的任何人來說都應該具有明晰明白的涵義。比如,底下的房齡適互助為特性,可立刻識別是以年為單位的房齡:
?house_age: 27
相反,關于下方特性值的涵義,除了創建它的工程師,其他人恐怕辨識不出:
?house_age: 851472000
在某些情況下,雜亂的數據(而不是糟糕的工程選擇)會招致涵義不明晰的值。比如,以下 user_age 的泉源沒有反省值得當與否:
?user_age: 277
精良的浮點特性不包含超出范圍的特別斷點或特別的值。比如,假定一個特性具有 0 到 1 之間的浮點值。那么,如下值是可以承受的:
?quality_rating: 0.82
quality_rating: 0.37
不外,假如用戶沒有輸入 quality_rating,則數據集約莫使用如下特別值來表現不存在該值:
?quality_rating: -1
為處理特別值的成績,需將該特性轉換為兩個特性:
特性的界說不應隨時間產生厘革。比如,下列值是有效的,由于都市稱呼尋常不會改動。(注意,我們仍舊必要將“br/sao_paulo”如此的字符串轉換為獨熱矢量。)
?city_id: "br/sao_paulo"
但搜集由其他模子推理的值會產生分外本錢。約莫值“219”現在代表圣保羅,但這種表現在將來運轉其他模子時約莫容易產生厘革:
?inferred_city_cluster: "219"
版權聲明:本文來自互聯網整理發布,如有侵權,聯系刪除
原文鏈接:http://www.freetextsend.comhttp://www.freetextsend.com/wangluozixun/33606.html