备忘录(二)

模型的评价指标

分类任务

  1. 查准率
  2. 查全率
  3. ROC 曲线:比较 AUC 的大小,AUC 是研究机器学习模型泛化性能的工具,横轴{假正例率,FP/(FP+TN)},纵轴{真正例率,TP/(TP+FN)}
  4. 混淆矩阵

回归任务

  1. 均方差
  2. 灵敏度和特异度
  3. R 方:评估模型拟合度的好坏

推荐算法

  1. 基于内容
  2. 协同过滤:基于用户和物品
  3. 基于知识

Bagging 和 Boosting 的区别

  1. Bagging:处理过拟合(方差);分类器之间相互独立;关注方差(注意数据扰动带来的影响)
  2. Boosting:分类器序列相关;降低方差和偏差,关注降低偏差

比较 LR 与 SVM 的区别

  1. LR 是一种概率模型的手段,SVM 试图找到一个超平面
  2. 参数估计的方法:LR(最大似然估计法);SVM(拉格朗日乘子法)
  3. SVM 的泛化性能更好,受异常点的影响比较小
  4. LR 在不平衡数据集上的表现优于 SVM

统计学习方法的三要素

模型、策略和算法

统计学习方法的步骤

数据→模型集合→选择模型→实现算法→选择最优→预测/分析

决策树生成计算方法

  1. ID3:信息增益算法
  2. C4.5:信息增益比
  3. CART:基尼指数

防止过拟合的手段

  1. 早停止,如果模型的性能没有提高则停止训练
  2. 增大数据量
  3. 正则化
  4. 交叉验证:留一、K 折
  5. 特征选择、降维
  6. dropout

比较 L1 和 L2 正则化

  1. L1 减少特征的数量
  2. L2 降低特征的权重
  3. L1 最优解出现的地方往往在坐标轴,L2 的最优解则比较随机

继续阅读本站其他精彩文章

  1. 机器学习
  2. 编程语言
  3. 技术碎碎念
  4. 读书笔记
觉得还不错?帮我赞助点域名费吧:)
分享到: