橋接器です。
將原始數據中的資訊提取出來,並轉換成模型能夠理解的數值形式。
特徵選擇 (Feature Selection)
- 過濾法:基於統計學方法 (如方差、相關性) 篩選出與目標變數相關性高的特徵。
- 包裹法: 通過不斷的訓練模型來選擇最優的特徵子集。
- 嵌入法:模型訓練過程中學習到特徵的重要性,例如L1正則化、決策樹。
特徵轉換 (Feature Transformation)
- 數值化:將類別型數據轉換為數值型數據,例如One-Hot Encoding。
- 歸一化/標準化:將數據縮放到特定範圍,
- 離散化: 將連續型數據轉換為離散型數據,例如分箱法。
- 多項式特徵: 創造新的特徵,例如將兩個特徵相乘。
- 交互特徵: 將兩個或多個特徵組合成新的特徵。
特徵降維 (Dimensionality Reduction)
- PCA (Principal Component Analysis): 將高維數據映射到低維空間,保留主要變異信息。
- t-SNE (t-Distributed Stochastic Neighbor Embedding): 將高維數據映射到低維空間,用於可視化。
如果你覺得這篇文章很棒,請你不吝點讚 (゚∀゚)