机器学习算法系列(15)特征工程

credit by coursera

1. 数据预处理

特征缩放(Feature scaling)的定义参见Feature scaling - Wikipedia

  • 无量纲化:不相同规格的特征无法放在一起比较,通常线性转换的手段有:
    • 标准化(Standardization):转换成标准正态分布
    • 归一化(Normalization):将特征缩放到相同的区间
      • 最小最大归一化(Rescaling(min-max normalization)):将数据压缩到[0, 1]区间)
      • 均值归一化
      • 优势:归一化有助于提高迭代速度
    • 向量单位化:针对特征向量单位化(Scaling to unit length),使其长度为1
  • 定量特征:二值化
  • 定性特征:one-hot编码
  • 分类特征编码
  • 特征组合:基于多项式的、基于指数函数的、基于对数函数

归一化与标准化的比较,参见特征工程中的「归一化」有什么作用? - 微调的回答 - 知乎

2. 特征选择

为什么要做特征选择?

  1. 简化模型便于解释
  2. 缩短训练时间
  3. 避免维度灾难
  4. 提高模型的泛化性能,比如通过减少过拟合

一般,特征选择有三个思路

觉得还不错?赞助一下~
0%