视频: 15贝叶斯算法 课时83垃圾邮件过滤实例 2024
反垃圾邮件程序使用各种不同的技术来确定给定的电子邮件是垃圾邮件的概率。这些技术被 过滤器使用, 用于检查每封电子邮件;每个过滤器都使用特定的技术。
以下是一些最常用的过滤器类型:
-
关键字检查: 识别垃圾邮件最明显的方法是查找出现在电子邮件主题行或电子邮件正文中的某些字词。例如,一个关键字检查过滤器可能会寻找亵渎,性术语和其他单词或短语,如“快速致富! “
<! --1 - >尽管这是识别垃圾邮件最明显的方法,但它也是最不可靠的。垃圾邮件发送者很久以前就知道,为了避免使用这些类型的过滤器,他们会在垃圾邮件中留下常见的词语通常他们故意拼错文字或用字母替代数字或符号,如字母 o, 或符号的数字0!字母 l。
关键字检查最大的问题是经常会导致误报。亲友可能会故意或不经意地在电子邮件中使用任何禁用的字词。有时候,被禁止的词出现在完全无辜的词的中间。例如,如果列出 Cialis 作为要阻止的关键字,则还会阻止单词 spe cialis t 或 ,因此 >西力士 吨。 <! - 2 - >
由于这些原因,关键字过滤器通常只用于最显而易见和令人反感的单词和短语,如果它们被使用的话。贝叶斯分析:一种最可信的垃圾邮件过滤形式是贝叶斯分析,其工作原理是假设某些词在垃圾邮件中比其他电子邮件中出现得更频繁。这听起来很像关键字检查,但贝叶斯分析比简单的关键字检查要复杂得多。贝叶斯过滤器维护垃圾邮件中可能遇到的单词的索引。该索引中的每个单词都有与之相关的概率,并且在该索引中查找被分析的电子邮件中的每个单词以确定电子邮件是垃圾邮件的总体概率。如果从这个指数计算的概率超过一定的阈值,电子邮件被标记为垃圾邮件。
-
<!这里是贝叶斯分析的神奇之处:索引是自学习的,基于用户的实际电子邮件。每当过滤器错误标识电子邮件时,用户通过告诉过滤器不正确来训练过滤器。用户通常通过点击标有“这是垃圾邮件”或“这不是垃圾邮件”的按钮来做到这一点。 “当用户点击这些按钮中的任何一个时,过滤器会调整与导致错误结论的词相关的概率。所以,当过滤器在将来遇到类似的电子邮件时,更可能做出正确的决定。 发件人策略框架(SPF): 令人惊讶的是,SMTP(Internet电子邮件协议)的内置安全性非常差。特别是,任何电子邮件服务器都可以轻松发送声称来自任何域名的电子邮件。这可以很容易地伪造电子邮件中的发件人地址。 SPF允许您通过DNS指定哪些特定的电子邮件服务器可以从您的域名发送电子邮件。反垃圾邮件SPF过滤器通过查找发送电子邮件服务器,对照电子邮件“发件人”地址指定的域中DNS的SPF记录工作。 黑名单:
另一种可信的垃圾邮件过滤形式是黑名单
-
(也称为 黑名单
-
),该黑名单使用已知垃圾邮件发送者列表来阻止来自不属于不值得信赖。有两种类型的黑名单:私人和公共。私人黑名单是您自己设置的列表,用于指定您不想接收电子邮件的来源。公共黑名单是由公司或组织维护的列表,可供其他人使用。 请注意,简单地将发件人电子邮件地址列入黑名单并不是很有帮助。这是因为发件人的电子邮件地址很容易伪造。相反,黑名单追踪已知为垃圾邮件来源的单个电子邮件服务器。不幸的是,垃圾邮件发送者通常不会设置自己的服务器来发送垃圾邮件。相反,他们劫持其他服务器来做他们肮脏的工作。合法的电子邮件服务器可能会被垃圾邮件发送者劫持,从而成为垃圾邮件来源,往往没有其所有者的知识。这就提出了一个不幸的可能性,即你自己的电子邮件服务器可能被垃圾邮件发送者接管,你可能会发现你的电子邮件服务器列在公共黑名单上。如果发生这种情况,您将无法发送电子邮件给任何使用该黑名单的人,直到您纠正了允许您的服务器被劫持的问题,并请求黑名单所有者删除您的服务器。 白名单: 任何反垃圾邮件解决方案最重要的元素之一是 白名单, 确保来自已知发件人的电子邮件永远不会被阻止。通常,白名单由您信任的电子邮件地址列表组成。当反垃圾邮件工具确认邮件中的发件人地址未被伪造(可能是使用SPF过滤器)时,白名单过滤器将在白名单数据库中查找地址。如果找到地址,则立即将电子邮件标记为合法电子邮件,并且不应用其他过滤器。因此,如果电子邮件被白名单过滤器标记为合法,则不使用其他过滤器。大多数白名单过滤器可让您将整个域名以及个人电子邮件地址列入白名单。您绝对不要
将白名单列入大型电子邮件提供商(例如Gmail)的域名。 com或comcast。净。但是,您应该将所有业务合作伙伴和客户的域名列入白名单,以确保这些关键公司的新员工的电子邮件永远不会被标记为垃圾邮件。
一些反垃圾邮件程序会自动将所有外发电子邮件的收件人地址添加到白名单。换句话说,您发送电子邮件的任何人都会自动添加到白名单中。随着时间的推移,这个功能可以大大减少误报的发生。
-
使用白名单预先允许您从新客户,供应商或服务提供商处获得的重要电子邮件。例如,如果您切换工资单提供商,请提前了解新提供商将使用哪些电子邮件地址,以便您的工资单人员不会错过重要的电子邮件。 Graylisting: Graylisting是一种有效的反垃圾邮件技术,利用了这样一个事实:如果合法的电子邮件服务器在第一次尝试时无法成功发送电子邮件,服务器将在稍后再尝试,通常在30分钟内。一个Graylist过滤器会自动拒绝第一次传递消息,但会跟踪被拒绝的消息的细节。然后,当第二次接收到相同的消息时,该列表过滤器接受该消息并记录发送者,以便在第一次尝试时接收来自发送者的未来消息。由于垃圾邮件发送者通常将服务器配置为不打扰第二次尝试,所以重名列表工作正常。因此,该列表过滤器知道,如果在第一次拒绝之后第二个电子邮件副本到达,则邮件可能是合法的。 重名列表的缺点是,您第一次收到来自新发件人的电子邮件时,电子邮件将被延迟。许多用户发现,灰名单的好处是不值得的延迟电子邮件的成本,所以他们只是禁用灰名单过滤器。