第三代防垃圾邮件技术“行为识别”诞生

时间: 2005-08-18 09:29:34    来自:中国计算机报
 

   美国SBL著名垃圾邮件对比资料库提供的资料表明,中国是全球第二大垃圾邮件受害国,仅次于美国。中国互联网中心统计,我国用户平均每周收到的垃圾邮件数超过邮件总数的60%,部分企业每年为此投入上百万元的设备和人力。

  巨大的市场需求驱动了各安全厂家在防垃圾邮件产品方面的研发投入加大。据不完全统计,从2004年初至今,国内市场上出现了超过80个防垃圾邮件产品,如此繁多的品牌如何寻找真正能够帮助用户解决垃圾邮件问题的产品呢?让我们来分析一下目前防垃圾邮件产品采用的核心技术。

  市场上防垃圾邮件产品所采用的技术按照技术发展的阶段主要分为以下三类:

  第一代技术:通过IP过滤,关键字过滤,邮件(附件)大小控制,SMTP连接时间频率控制来进行垃圾邮件的区分;

  第二代技术:通过基于统计算法(如贝叶斯)的智能内容过滤,RBL过滤进行垃圾邮件的区分;

  第三代技术:通过基于对垃圾邮件发送行为的研究和统计而发展出来的行为识别技术对垃圾邮件区分。

  由于第一代和第二代的过滤技术始终没有跳出内容匹配过滤的技术局限,仅仅是对孤立的词语进行匹配,抛弃了人类语言最重要的特性:连贯性,从而无法正确对邮件进行判别(比如法轮功反对法轮功就表达了完全不同的含义),造成邮件的大量误判。同时,这两种技术需要进行大量的匹配运算,对CPU和内存的占用极高,这样就很容易成为处理瓶颈。

  经过长期研究,现在的垃圾邮件发送行为主要分为以下四种:

  邮件滥发行为:垃圾邮件发送者登陆邮件服务器进行联机查询或投递邮件,尝试各种方式投递邮件,发件主机异常变动等行为。

  邮件非法行为:垃圾邮件发送者借用各地的多个开启了 Open Relay 邮件转发功能的邮件服务器来发送邮件的行为。

  邮件匿名行为:发件人、收件人、发件主机或邮件传输信息刻意隐匿,使得无法追溯其来源的行为。

  邮件伪造行为:发件人、收件人、发件主机或邮件传输信息经过刻意伪造,经查证不属实的行为。

  由垃圾邮件和正常邮件的通讯行为对比得知,能否正确地识别垃圾邮件的关键就在于能否正确地识别邮件的关键传输值。

  那么行为识别技术如何对以上四种垃圾邮件发送行为进行处理呢?

  首先,对于邮件的滥发行为,通过深入追踪邮件原始发送数据,判断其是否是通过登陆邮件服务器直接投递邮件,或者通过垃圾邮件发送工具进行邮件的发送等方面对是否是垃圾邮件做出判断。

  其次,对于邮件的非法行为,通过深入追踪邮件原始发送数据,检查其原始发送地址,如果发现其发送地址不固定,改变频率高,则说明它在利用多个开启OPEN RELAY功能的邮件服务器进行转发,符合常见垃圾邮件发送行为,从而对是否是垃圾邮件做出判断。

  再次,对于邮件匿名行为,通过深入追踪邮件原始发送数据,一旦发现邮件发件人不声明真实邮件传输记录信息,而是以匿名方式投递或是发件人的邮件传输值具有异常变化,就会将其判断为具有匿名行为的垃圾邮件。

  最后,对于邮件的伪造行为,通过深入追踪邮件原始发送数据,如果发现发件人声明域名与实际来源 IP不符合或是发件人伪造成无反向域名记录的主机,发件人以答复邮件格式伪造电子邮件,发件人的邮件传输值多处变化、信息不一等,就会将其判断为具有伪造行为的垃圾邮件。

  通过以上的垃圾邮件防范技术和策略,行为识别技术就能够高效、准确地区分垃圾邮件与正常邮件,使得采用任何垃圾邮件发送技术发出的垃圾邮件都无法躲过它的检测。

  很多安全厂商如国内的天融信公司经过多年防垃圾邮件技术研究后,相继在2005年前后推出了基于第三代行为识别技术的防垃圾邮件网关。

  该技术对大量的垃圾邮件样本进行了统计、分析和计算,并且根据RFC.822标准,建立了垃圾邮件发送的行为识别模型。这一模型有着极高的垃圾邮件区分度,能够在MTA通信阶段就判断出所接收邮件是否为垃圾邮件,不需要接受全部的邮件内容进行相应的内容匹配,从而大大提高了邮件过滤速度,减少了网络延迟,同时还避免了内容过滤技术不可避免的高误报率问题,大大提高了对垃圾邮件的识别精度。

 
期期必出30码网站