老哥学习网 - www.lg9.cn 2024年05月19日 03:58 星期日
当前位置 首页 >情感故事 >

[应用行为模式识别的垃圾邮件过滤技术]模式识别与智能系统

发布时间:2019-01-25 07:42:54 浏览数:

  摘要:近年来,垃圾邮件在互联网的肆虐程度逐渐加强,据分析,垃圾邮件竟占到互联网总流量的五分之一左右,垃圾邮件产生的巨大的存储需求,极大地威胁了信息安全系统的有效性。垃圾邮件具有多种多样的内容形式,根据互联网安全体系的要求,基于垃圾邮件模式识别技术正日益凸显其功效,有望成为一种简洁可行的反垃圾邮件解决方式。
  关键词:垃圾邮件;特点;模式识别;反垃圾邮件
  中图分类号:TP393.098 文献标识码:A文章编号:1007-9599(2012)03-0000-02
  Spam Filtering Technology of Application Behavior Pattern Recognition
  Wang Zhaohua
  (61363 Troops,Xi"an610054,China)
  Abstract:In recent years,the ravages of spam on the Internet,gradually strengthen,according to analysts,spam is actually accounted for about one fifth of the total Internet traffic,spam huge storage requirements,the greatest threats to information security systems effectiveness.Spam with a variety of content and form,according to the requirements of the Internet security system,based on the spam pattern recognition technology is becoming increasingly prominent their effectiveness,is expected to become a simple and viable anti-spam solutions.
  Keywords:Spam;Characteristics;Pattern recognition;Anti-spam
  一、垃圾邮件的变化趋势及危害
  有调查显示,在所有邮件中,垃圾邮件的比例将近74%,其中,钓鱼欺诈性邮件占有24%,此外,其它数量较大的垃圾邮件类型包括广告、医疗以及色情。钓鱼欺诈性邮件成为增长速度最快的垃圾邮件类型。
  在垃圾邮件的发展过程中,图像垃圾邮件卷土重来,造成的后果就是垃圾邮件的平均大小有所增加。邮件大小的增加会对邮件基础设施造成压力,并有可能使终端客户无法收到正常的邮件。
  在图像垃圾邮件增加的同时,在邮件的正文部分中包含URL形式的垃圾信息依旧是垃圾邮件的发展趋势。从常有的事例中可以看出,在所有垃圾邮件中将近92%的邮件都含有 URL。这些 URL常常关联到允许用户去建立免费账户的网址。而这些免费账户中就含有传播垃圾邮件者操控的URL以及免费的网页寄存账户。通常情况下,邮件中的URL是来推销产品和服务的,传播垃圾邮件的人常常采取一定的措施,避开反垃圾邮件软件的检测。
  综合说来,垃圾邮件总是试图推销一些产品和服务。收件人常常会比较好奇。见到邮件中的链接,会点击浏览,有时也会按照网页的内容指示购买垃圾邮件传播者力图推销的产品和服务。而另外一头,垃圾邮件传播者根据用户的操作,会选择继续发送虚假信息或者终止。
  破坏性更强的垃圾邮件是“病毒垃圾邮件”。据统计,在所有垃圾邮件中,病毒邮件和钓鱼欺诈性邮件所占的比例在50%以上,而用户反馈到,“病毒垃圾邮件”已经成为他们最讨厌的垃圾邮件类型。
  其实,依照目前的发展趋势,病毒和垃圾邮件之间,已经没有一个明显的界限,病毒的传播者将病毒植入到计算机中,而被感染之后的计算机就会开始发送大量的垃圾邮件,这些垃圾邮件对用户来说就如同病毒一样,如此循环。给用户带去许多烦恼和不便。
  严重的是,有的垃圾邮件会携带木马病毒,当这种病毒进入用户电脑时,可以轻松地盗取用户的各种数据,比如用户在网站注册的信息,甚至是网上银行的交易密码等等,木马病毒有时也会删除用户的文件,会给用户的文件数据安全造成极大的威胁。据调查称,2005年的垃圾邮件带给全球生产力的损失以及反垃圾邮件的损失达到500亿美元。
  其实,自1990年以来,垃圾邮件就一直困扰互联网。那个时候,互联网的商业化程度越来越深,也逐步与消费者的消费需求相呼应,商家发现互联网的利用价值,最初,垃圾邮件并不普遍,只是少许的电子广告,但随着商业化的发展,现在的垃圾邮件已经占用了用户大部分的空间,占用网络资源,甚至造成恶性的商业形象,损害了邮件使用者的利益。垃圾邮件给网络用户带来的损失不仅是金钱上的,很多时候,还给用户的工作带来许多困扰和阻碍。
  二、模式识别在反垃圾邮件中的应用
  (一)什么是模式识别技术
  模式识别技术指的是通过处理和分析描述事物和现象的文字的、数值的以及逻辑关系的信息,让人们了解事物和现象的本质。模式识别技术的研究内容主要有两个方面,一方面研究生物体如何去感知对象,这属于认识科学的领域;另一方面,接受既定的任务后,利用计算机来实现模式识别的方法和技术。针对反垃圾邮件中的模式识别技术,主要是通过后者进行研究。运用计算机辨识和分类一组事件或过程时,对象可以是具体的对象,比如文字、声音、图像等,也可以是抽象对象,比如状态、程度等。
  模式识别可以应用的方面有很多,比如文字识别,语音识别,指纹识别、遥感等方面,都是模式识别在技术发展过程中的应用。
  而将模式识别技术应用于反垃圾邮件中,还需要结合垃圾邮件的特点出发。
  (二)传统的反垃圾邮件技术
  传统的反垃圾邮件技术以“内容过滤”为主。一般说来,可以将常用于过滤垃圾邮件的文本分为两类。一个是基于规则。这种模式大多从大量的训练文本集合中概括总结出规则,得到的结果准确率较高,缺点是进行维护的工作量比较大。另一个是基于概率统计。这种方式是在已知类别的训练集上通过统计的方法建立相应的分类器,运用到垃圾邮件中时,可以灵活、准确地适应垃圾邮件的多变性。在目前所有的各种反垃圾邮件产品中,朴素贝叶斯模型是比较常用的一种,这种方法进行特征独立性假设,在简化计算复杂度的同时,能够得到比较高的准确度。
  以目前形势来看,大多数反垃圾邮件技术在过滤垃圾邮件时,基本采用“过滤IP地址、实时黑白名单、过滤关键字、控制邮件大小和连接时间等技术,核心本质还是通过内容过滤进行垃圾邮件的拦截。基于“内容过滤”技术进行垃圾邮件的拦截,确实能起到很大的作用,有的用户使用了相应的技术后,收到的垃圾邮件确实少了许多。但有一个事实是,随着反垃圾邮件技术的提高,垃圾邮件的传播者和发送者的技术也会逐步升高。同时,“内容识别”在防御垃圾邮件的攻击时处于被动状态,它的核心是内容匹配过滤,通常是完整接收邮件后,按照指定语言对邮件分词处理,并与一个海量的词库逐一匹配,来判断一封邮件是不是垃圾邮件。由于人类自身的语言变通性很强,有时会按照自己的意愿随意修改一些关键内容,会造成在原先的词库中找不到匹配的关键词,有时根本无法判断一封邮件是不是垃圾邮件。重要的是,“内容识别”会占用大量的网络资源和计算机硬件资源,降低工作效率,有时甚至造成死机。
  因此,随着时代的发展,传统发垃圾邮件技术已经有些不适用,基于模式识别的反垃圾邮件技术就应运而生。
  (三)模式识别技术在反垃圾邮件中的应用
  要想根治反垃圾邮件技术的难题,就应该从原理出发,在了解邮件内容特性的基础上,主动进行垃圾邮件的模式识别。只有这样才能主动抵御垃圾邮件的侵害,主动阻断垃圾邮件的肆虐传播,从而能从根源上对垃圾邮件进行消除,降低资源能耗。
  将模式识别技术应用与反垃圾邮件中,最重要的是建立起合适的垃圾邮件行为模式识别模型。因此,首先需要先对大量的垃圾邮件进行实时观察,利用概率统计的数学模型对大量的垃圾邮件进行分类再分析统计,与传统方法不同的是,在分析垃圾邮件的过程中除了导入邮件内容的特点上,还同时加入了各种行为相关的因素。由于垃圾邮件数量巨大,对其进行分析统计时需要花费大量的时间,但通过细致的分析,可以归纳概括出垃圾邮件进行发送时的模式识别模型。模式识别的模型包含邮件在发送过程中很多方面的行为要素,比如,发送时间、发送IP、发送频度、发送指纹等。通过对大量邮件的统计分析,可以发现,垃圾邮件与正常邮件在行为特征上具有很高的区分度,不论垃圾邮件的内容如何改变,终究都还是有固定的特征,尤其是大多数采用动态IP发送的邮件,固定特征更是明显。
  通过对垃圾邮件行为进行分析得到的模式识别模型,在实际应用过程中,不需要对信件的所有内容进行扫描,减少了计算机的工作量,可以提高计算机处理能力。同时可以用于提高辨别垃圾邮件的准确率,
  另一方面,运用垃圾邮件行为模式识别模型进行垃圾邮件辨别时,也给垃圾邮件的发送者和传播者一定压力。邮件发送者和传播者只能依赖正常渠道,利用正常方式进行发送邮件。
  相比传统反垃圾邮件技术,模式识别技术更能显著地对互联网垃圾邮件很病毒邮件进行主动的识别查杀。还有一个优势是,对于电子邮件内容比较广泛的用户来说,采用模式识别技术进行垃圾邮件的拦截,可以在最大程度上保证正常通信,对互联网用户的工作来说,具有重要的意义。
  参考文献:
  [1]李淑静.基于内容的垃圾邮件过滤研究与实现[D].南京信息工程大学,2006
  [2]温星.浅谈人类模式识别的特点[J].山西经济管理干部学院学报,2008.01
  [3]郑海明.反垃圾邮件技术不卖“过期药”行为模式识别成技术主流[J].中国教育网络,2005.10
  [4]李瑞江.浅谈反垃圾邮件技术的应用[J].新疆师范大学学报,2003

推荐访问:垃圾邮件 过滤 模式识别 技术

相关文章:

Top