什么是贝叶斯垃圾邮件过滤?

这是一个基于概率的系统,随着时间的推移会变得更好

垃圾邮件过滤器

baurka / Getty Images

贝叶斯垃圾邮件过滤器根据邮件内容计算邮件成为垃圾邮件的概率。与简单的基于单词的过滤器不同,贝叶斯垃圾邮件过滤器从收到的垃圾邮件和好的电子邮件中学习,从而形成一种非常健壮、自适应、高效的反垃圾邮件方法,很少返回误报。

不被认为是垃圾邮件的电子邮件有时被称为“火腿”。

贝叶斯过滤器不断改进

简单的基于单词的垃圾邮件过滤器不会考虑对于每个电子邮件用户来说可能被认为是不寻常的单词(给定消息可能是垃圾邮件的线索)。此外,随着时间的推移,他们没有能力改变用来识别垃圾邮件的规则。贝叶斯垃圾邮件过滤器的不同之处在于它们同时做到了这两点。

随着时间的推移,贝叶斯垃圾邮件过滤器会建立一个不需要的单词列表。他们分析垃圾邮件和好邮件,以计算垃圾邮件和好邮件中出现各种特征的概率。然后,新的、不需要的单词被添加到列表中。

如果某个单词从未出现在垃圾邮件中,但经常出现在您收到的合法电子邮件中,那么该单词表示垃圾邮件的概率接近于零。例如,假设您收到许多包含该单词的合法消息笛卡尔的。这一事实降低了您收到包含该词的电子邮件的可能性笛卡儿是垃圾邮件。另一方面,假设你很少或曾经收到包含该词的合法消息爽肤水。如果您收到一条包含该单词的消息爽肤水,更可能是垃圾邮件。

贝叶斯过滤器如何检查电子邮件

贝叶斯垃圾邮件过滤器查看的信息特征包括:

  • 字里行间身体消息的
  • 信息中的文字(如发送方和消息路径)
  • 其他元素,如HTML/CSS代码(如颜色和其他格式)
  • 词对和短语
  • 元信息(例如特定短语出现的位置)

当新邮件到达时,贝叶斯垃圾邮件过滤器将对其进行分析,并根据这些属性计算其成为垃圾邮件的概率。

继续上面的例子,假设一条消息包含两个单词,笛卡儿爽肤水。仅从这些文字就不清楚这封邮件是垃圾邮件还是合法邮件。但是如果信息也包含标题“大量使用碳粉!!!”这样一来,它成为垃圾邮件的可能性就增加了。

贝叶斯滤波器自动学习

在分类为“垃圾邮件”或“合法电子邮件”之后,过滤器可以利用这一确定来进一步培训自己。在我们的示例中,过滤器必须降低笛卡儿表示好邮件或提高概率碳粉表示垃圾邮件。给定此消息上垃圾邮件标头的附加数据(可能还有其他因素),它将执行后者并基于新概率评估下一个传入消息。

使用这种自适应技术,贝叶斯过滤器可以从自己和用户(如果他们手动更正错误评估的消息)的决策中学习。该系统的适应性确保了这些过滤器对单个电子邮件用户最为有效,因为尽管大多数人的垃圾邮件可能具有相似的特征,但每个人的合法邮件特征不同。

垃圾邮件发送者能通过贝叶斯过滤器吗?

合法电子邮件的特征对于贝叶斯垃圾邮件过滤过程来说与垃圾邮件的特征一样重要。因为过滤器是专门为每个用户培训的,所以垃圾邮件发送者在使用过滤器时会遇到困难,而且过滤器可以适应垃圾邮件发送者尝试的几乎所有内容。

如果骗子让垃圾邮件看起来像一封非常普通的电子邮件,垃圾邮件发送者的邮件只能通过训练有素的贝叶斯过滤器。但是垃圾邮件发送者不要经常发送这些普通的信息,因为它们并不能很好地达到它们的目的(比如说服你买东西或点击链接)。

尽管贝叶斯过滤器可能很好,但在良好的邮件中频繁出现的一个词或特征可能非常重要,以至于可以防止包含该词的邮件被评为垃圾邮件。因此,如果垃圾邮件发送者能够找到一种方法来确定你的可靠的好邮件词,他们就可以在垃圾邮件中包含其中的一个词,甚至通过训练有素的贝叶斯过滤器来联系你。但是,据尝试过这种方法的研究人员表示,这种方法既耗时又复杂,不太可能被频繁使用。

这个页面有用吗?