垃圾邮件分类算法简介与测试

这篇文章将多项朴素贝叶斯,伯努利朴素贝叶斯,补充朴素贝叶斯,逻辑回归,支持向量机,KNN,决策树,随机森林,梯度提升,神经网络(多层感知机)算法用于垃圾邮件分类,测试比较不同算法的性能,选出适合作为垃圾邮件分类的算法。

TREC(trec06p)数据集处理

2006 TREC Public Spam Corpora (trec06p) https://plg.uwaterloo.ca/~gvcormac/treccorpus06/ TREC的数据集是按照文件提供的,每个邮件在一个文件中,通过一个index索引标记spam和ham。下面这段代码提取出邮件正文,并将所有邮件的正文和标记输出到一个文件中,便于下一步处理转化词袋模型。

机器学习第五章

神经元接收到来自其他神经元传递过来的输入信号,这些输入信号通过带权重的连接(connection) 进行传递 ,神经 接收到的总输入值将与神经元的阀值进行比较,,然后通过”激活函数” (activation function 处理以产生神经元的输出。