2022中科大先研院计专11408经验分享
很开心最后被中国科技大学先进技术研究院录取了,选择了心仪的导师,做了想做的方向!收到导师的录取邮件后感觉像做梦一样,自己实在是太幸运了。
这篇文章将多项朴素贝叶斯,伯努利朴素贝叶斯,补充朴素贝叶斯,逻辑回归,支持向量机,KNN,决策树,随机森林,梯度提升,神经网络(多层感知机)算法用于垃圾邮件分类,测试比较不同算法的性能,选出适合作为垃圾邮件分类的算法。
2006 TREC Public Spam Corpora (trec06p) https://plg.uwaterloo.ca/~gvcormac/treccorpus06/ TREC的数据集是按照文件提供的,每个邮件在一个文件中,通过一个index索引标记spam和ham。下面这段代码提取出邮件正文,并将所有邮件的正文和标记输出到一个文件中,便于下一步处理转化词袋模型。