特徵工程 | Lunski's Clutter

橋接器です。

將原始數據中的資訊提取出來，並轉換成模型能夠理解的數值形式。

特徵選擇 (Feature Selection)
- 過濾法：基於統計學方法 (如方差、相關性) 篩選出與目標變數相關性高的特徵。
- 包裹法：通過不斷的訓練模型來選擇最優的特徵子集。
- 嵌入法：模型訓練過程中學習到特徵的重要性，例如L1正則化、決策樹。
特徵轉換 (Feature Transformation)
- 數值化：將類別型數據轉換為數值型數據，例如One-Hot Encoding。
- 歸一化/標準化：將數據縮放到特定範圍，
- 離散化：將連續型數據轉換為離散型數據，例如分箱法。
- 多項式特徵：創造新的特徵，例如將兩個特徵相乘。
- 交互特徵：將兩個或多個特徵組合成新的特徵。
特徵降維 (Dimensionality Reduction)
- PCA (Principal Component Analysis)：將高維數據映射到低維空間，保留主要變異信息。
- t-SNE (t-Distributed Stochastic Neighbor Embedding)：將高維數據映射到低維空間，用於可視化。
實作

如果你覺得這篇文章很棒，請你不吝點讚 (ﾟ∀ﾟ)