Mac软件分享
最近换了MacBookPro 14,感受到了性能和续航的双重幸福。Mac中有很多免费好用的软件,作为一名程序开发者我最近找到了很多好用的软件和大家分享,也欢迎大家补充????
这篇文章将多项朴素贝叶斯,伯努利朴素贝叶斯,补充朴素贝叶斯,逻辑回归,支持向量机,KNN,决策树,随机森林,梯度提升,神经网络(多层感知机)算法用于垃圾邮件分类,测试比较不同算法的性能,选出适合作为垃圾邮件分类的算法。
2006 TREC Public Spam Corpora (trec06p) https://plg.uwaterloo.ca/~gvcormac/treccorpus06/ TREC的数据集是按照文件提供的,每个邮件在一个文件中,通过一个index索引标记spam和ham。下面这段代码提取出邮件正文,并将所有邮件的正文和标记输出到一个文件中,便于下一步处理转化词袋模型。