机器学习第二章

错误率: 把分类错误的样本数占样本总数的比例称为错误率

精确率:1-错误率

过拟合:把样本自身的一些特点当成所有样品都有的一般性质

欠拟合:样本的一些性质尚未学好

训练集与测试集划分:

留出法:随机样本,取其中的2/3~4/5为训练集。分层采样: 则保留类别比例的采样方式。 如通过对 进行分层采样而获得含 70% 样本的训练集 和含 30% 样本的测试集 包含 500 个正例、 500 个反例,则分层采样得到的 应包含 350 个正例、 350 个反例。

交叉验证法:将样本分为k个子集,其中k-1用于训练集,共进行k次训练。

留一法:k个样本分为k个子集,每次只用一个验证,是交叉验证法的特例,留一法结果往往认为比较准确,受到样本规模影响产生误差比较小。

自助法:自助法为了解决样本规模不一致造成的误差,每次从样本集D中取出一个样本放入D`作为样本,再将该样本放回D,这样m次采样中仍有近1/3的数据作为测试集。自助法在样本集较小时使用, 自助法产生的数据集改变了初始数据集的分布,这会引入估计偏差。

最终模型: 模型选择完成后,学习算法和参数配置己选定,此时应该用数据集重新训练模型.这个模型在训练过程中使用了所有样本,这才是我们最终提交给用 户的模型 。

分类混淆矩阵:

ffbe1563-4943-4702-976f-4f10e9076e2a

查准率和查全率是一对矛盾的度量。一般来说,查准率高时,查全率往往偏低。而查全率高时,查准率往往偏低。通常只有在一些简单任务中 才可能使查全率和查准率都很高.

比较两个模型的性能

P-R曲线

P:Precision 查准率

R: Recall 查全率(也叫召回率)

c3d25e48-1af9-4002-bcc2-c550441edaa6

若一个学习器的 P-R 曲线被另一个学习器的曲线完全”包住 则可断言后者的性能优于前者。

平衡点(BEP):查准率=查全率时的取值。

F1度量:

F1是PR的调和平均数,整理后得到下面这个式子

523d1bd2-a3e0-4bfc-b394-6849b7520443
46ceac6a-07d7-4d1b-ac52-2c7b06bcaef4

在n个样本上获得多个二分类混淆矩阵,最后计算的时候取平均,取平均的时候可以直接F1取平均值,也可以计算一个平均的二分类混淆矩阵再取平均,得到微F1。

ROC受试者工作特征:很多机器学习产生的是一个值,这个值与分类阈值比较,大于归为正类,反之归为反类。若重视查准率,则阈值比较高。若重视查全率,则阈值比较低。ROC以真正率TPR为纵坐标,假正例率FPR为横坐标作图。

ac70b179-cc6a-4797-b10a-1f4e59f3013f
43e8e6f8-d093-4507-9063-d8e70f45f4c3

机器学习器的比较时, P-R 图相似, 一个学习器的 ROC 曲线被另 习器的曲线完全”包住”, 则可断言后者的性能优于前者;若两个学习 ROC 曲线发生交叉,则难以-般性地断言两者孰优孰 此时如果一定要进 行比较 则较为合理的判据是 比较 ROC 线下 的面积。

PR和ROC曲线应用范围:

1.当正负样本比例差不多的时候,两者区别不大。

2.PR曲线比ROC曲线更加关注正样本,而ROC则兼顾了两者。

3.AUC越大,反映出正样本的预测结果更加靠前。(推荐的样本更能符合用户的喜好)

4.当正负样本比例失调时,比如正样本1个,负样本100个,则ROC曲线变化不大,此时用PR曲线更加能反映出分类器性能的好坏。

5.PR曲线和ROC绘制的方法不一样。

代价曲线 :FP和FN的错误代价是不同的,代价曲线估计不同算法的代价。

image-20220205193017862
image-20220205183609488

代价曲线的变量是Pcost(归一化的p,代表阈值),我们想知道取不同阈值对于两类错误的代价是多少,所以每取一个p,对应纵轴一个代价,围成的面积构成代价的期望。

习题

https://zhuanlan.zhihu.com/p/35016406

发表评论