机器学习第二章 - Blog of Code

错误率： 把分类错误的样本数占样本总数的比例称为错误率

精确率：1-错误率

过拟合：把样本自身的一些特点当成所有样品都有的一般性质

欠拟合：样本的一些性质尚未学好

训练集与测试集划分：

留出法：随机样本，取其中的2/3~4/5为训练集。分层采样： 则保留类别比例的采样方式。如通过对进行分层采样而获得含 70% 样本的训练集和含 30% 样本的测试集包含 500 个正例、 500 个反例，则分层采样得到的应包含 350 个正例、 350 个反例。

交叉验证法：将样本分为k个子集，其中k-1用于训练集，共进行k次训练。

留一法：k个样本分为k个子集，每次只用一个验证，是交叉验证法的特例，留一法结果往往认为比较准确，受到样本规模影响产生误差比较小。

自助法：自助法为了解决样本规模不一致造成的误差，每次从样本集D中取出一个样本放入D`作为样本，再将该样本放回D，这样m次采样中仍有近1/3的数据作为测试集。自助法在样本集较小时使用，自助法产生的数据集改变了初始数据集的分布，这会引入估计偏差。

最终模型： 模型选择完成后，学习算法和参数配置己选定，此时应该用数据集重新训练模型.这个模型在训练过程中使用了所有样本，这才是我们最终提交给用户的模型。

分类混淆矩阵：

查准率和查全率是一对矛盾的度量。一般来说，查准率高时，查全率往往偏低。而查全率高时，查准率往往偏低。通常只有在一些简单任务中才可能使查全率和查准率都很高.

比较两个模型的性能

P-R曲线

P：Precision 查准率

R: Recall 查全率（也叫召回率）

若一个学习器的 P-R 曲线被另一个学习器的曲线完全”包住则可断言后者的性能优于前者。

平衡点（BEP）：查准率=查全率时的取值。

F1度量：

F1是PR的调和平均数，整理后得到下面这个式子

在n个样本上获得多个二分类混淆矩阵，最后计算的时候取平均，取平均的时候可以直接F1取平均值，也可以计算一个平均的二分类混淆矩阵再取平均，得到微F1。

ROC受试者工作特征：很多机器学习产生的是一个值，这个值与分类阈值比较，大于归为正类，反之归为反类。若重视查准率，则阈值比较高。若重视查全率，则阈值比较低。ROC以真正率TPR为纵坐标，假正例率FPR为横坐标作图。

机器学习器的比较时， P-R 图相似，一个学习器的 ROC 曲线被另习器的曲线完全”包住”，则可断言后者的性能优于前者;若两个学习 ROC 曲线发生交叉，则难以-般性地断言两者孰优孰此时如果一定要进行比较则较为合理的判据是比较 ROC 线下的面积。

PR和ROC曲线应用范围：

1.当正负样本比例差不多的时候，两者区别不大。

2.PR曲线比ROC曲线更加关注正样本，而ROC则兼顾了两者。

3.AUC越大，反映出正样本的预测结果更加靠前。（推荐的样本更能符合用户的喜好）

4.当正负样本比例失调时，比如正样本1个，负样本100个，则ROC曲线变化不大，此时用PR曲线更加能反映出分类器性能的好坏。

5.PR曲线和ROC绘制的方法不一样。

代价曲线 ：FP和FN的错误代价是不同的，代价曲线估计不同算法的代价。

代价曲线的变量是Pcost（归一化的p，代表阈值），我们想知道取不同阈值对于两类错误的代价是多少，所以每取一个p，对应纵轴一个代价，围成的面积构成代价的期望。