representation(表示 (Representation)：良好特征的特點)

時間：2023-08-13 22:17:08 閱讀：7

表現 (Representation)：精良特性的特點

我們探究了將原始數據映射到切合特性矢量的辦法，但這只是事情的一局部。如今，我們必需探究什么樣的值才算這些特性矢量中精良的特性。

精良的特性值應該在數據會合顯現約莫 5 次以上。如此一來，模子就可以學習該特性值與標簽是怎樣關聯的。也就是說，多量散伙值相反的樣本可讓模子天然會了解不同設置中的特性，從而推斷何時可以對標簽很好地做出猜測。比如，house_type 特性約莫包含多量樣本，此中它的值為 victorian：

?house_type: victorian

相反，假如某個特性的值僅顯現一次大概很少顯現，則模子就無法依據該特性舉行猜測。比如，unique_house_id 就不適互助為特性，由于每個值只使用一次，模子無法從中學習任何紀律：

?unique_house_id: 8SK982ZZ1242Z

每個特性關于項目中的任何人來說都應該具有明晰明白的涵義。比如，底下的房齡適互助為特性，可立刻識別是以年為單位的房齡：

?house_age: 27

相反，關于下方特性值的涵義，除了創建它的工程師，其他人恐怕辨識不出：

?house_age: 851472000

在某些情況下，雜亂的數據（而不是糟糕的工程選擇）會招致涵義不明晰的值。比如，以下 user_age 的泉源沒有反省值得當與否：

?user_age: 277

精良的浮點特性不包含超出范圍的特別斷點或特別的值。比如，假定一個特性具有 0 到 1 之間的浮點值。那么，如下值是可以承受的：

?quality_rating: 0.82 quality_rating: 0.37

不外，假如用戶沒有輸入 quality_rating，則數據集約莫使用如下特別值來表現不存在該值：

?quality_rating: -1

為處理特別值的成績，需將該特性轉換為兩個特性：

特性的界說不應隨時間產生厘革。比如，下列值是有效的，由于都市稱呼尋常不會改動。（注意，我們仍舊必要將“br/sao_paulo”如此的字符串轉換為獨熱矢量。）

?city_id: "br/sao_paulo"

但搜集由其他模子推理的值會產生分外本錢。約莫值“219”現在代表圣保羅，但這種表現在將來運轉其他模子時約莫容易產生厘革：

?inferred_city_cluster: "219"