好的特徵數據 (Good Features)

避免無意義的信息

假設全世界的黃金獵犬和吉娃娃只有白或黃兩種顏色,
而白色的黃金獵犬和吉娃娃數量各佔一半,黃色的數量也各佔一半,
當我們使用顏色這個信息就無法有效判別這隻狗是什麼種類?
因此,在這裡的顏色屬於無意義的信息。

同樣在這個例子中,我們使用身高來判別狗的種類,
黃金獵犬的平均身高遠遠大於吉娃娃,
因此,在這裡身高就是屬於有意義的信息。

避免重複性的信息

比如說,數據中在描述距離時,同時使用里和公里兩個信息,
雖然他們沒有重複,可是實際上是同一個意思。
拿資料庫來說,衍伸屬性對機械學習來說屬於重複性的信息,
比如說,使用生日可以推斷出年齡,年齡是生日的衍生屬性。
重複性的信息對機械學習來說,不僅增加運算量外,並沒有任何幫助。

避免複雜的信息

同樣拿上面衍伸屬性的例子來說,
我們會使用年齡來當作機械學習的信息,而不會使用生日。

同樣兩個點的經緯度可以表示為距離信息,
在實際應用時,會先使用預處理求出兩個點的距離,
再作為機械學習的輸入信息。

results matching ""

    No results matching ""