设为首页
加入收藏
联系我们
公告:欢迎光临范文论文吧、如果您喜欢本站,请您多多向您的朋友推荐,相信有您的支持我们会做得更好! 今天是
您当前位置: 范文论文吧 >> 免费论文 >> 计算机论文 >> 当前信息
站内搜索

栏目导航
计算机论文 电子商务论文
法律论文 经济论文
会计论文 金融论文
教育论文 工商管理论文
行政管理论文 企业管理论文
酒店管理论文 工程造价论文
桥梁建筑论文 国际贸易论文
商场营销论文 医学论文
药学论文 经济学论文
质量管理论文 物流管理论文
成本管理论文 工资管理论文
薪酬管理论文 德育论文
师德论文 英语论文
物理论文 化学论文
语文论文 数学论文
政治论文 地理论文
历史论文 科技论文
毕业论文写作 毕业论文范文
毕业论文格式 教学论文
相关文章
热门文章

反垃圾邮件系统的内容过滤模块设计与实现

作者:计算机应用论文_计算机论文_工学论文  来源:范文论文吧  发布时间:2008-5-6 13:02:31  发布人:admin

减小字体增大字体

摘  要 介绍了一种反垃圾邮件系统的内容过滤模块的总体设计,以及内容过滤模块中采用的关键技术——多文档文本提取技术,涉及HTML文档、PDF文档、MS-WORD文档、CHM文档的文本提取技术,及压缩文件中的文档处理技术,从而更好地完善反垃圾邮件系统,以提高垃圾邮件识别率、拦截率,降低资源的消耗。
    关键词  垃圾邮件;反垃圾邮件系统;过滤;模块
 

1  引言

    国际互联网技术为人们进行交流、协同工作、资源及内容共享等提供了一条崭新途径。随着通信技术及计算机技术的飞速发展,互联网络的使用日益普及,已成为当前信息时代的一种极为重要的信息传播载体,对社会的发展起到了巨大的推进作用,且信息传播及时、便捷。据美国电脑工业年鉴公司估计, 2010年全球互联网用户将超过7.65亿人。互联网络安全涉及到加密、计算机病毒防范、入侵检测、接入控制、网上媒体信息内容监管、安全管理、垃圾邮件处理等众多关键技术目前反垃圾邮件工作取得一定成效。从2006年3月到2006年6月,中国互联网用户收到的垃圾邮件比例由63.97%下降到61.99%。用户平均每周收到垃圾邮件数量为17.93封,与2006年3月的每周19.33封相比减少1.4封。这即说明,反垃圾邮件仍是一个持续又长久的过程。尽管《互联网电子邮件服务管理办法》规定业已出台(2006年3月30日起正式施行),但仍要采取各种必要的措施进行预防及使用,这如同法律一样不可缺,既要打击犯罪,又要教育以预防犯罪。对邮件进行适时处理,阻止垃圾邮件的泛滥成灾,通过总结策略,一般采用的是关键字内容过滤技术,采取“截获样本、解析特征、生成规则、规则下发、内容过滤” 这种类似传统杀病毒系统的原理。下面,就对邮件的内容过滤模块作一简单研究分析。

2  内容过滤模块的总体设计

     邮件过滤系统设计思想主要是用来监控和拦截网络上传输的含有有害信息的邮件数据报。针对这一设计思想,可以把网络邮件过滤系统的主要功能概括为以下几个模块[4]
    (1)抓取数据报文,即数据的分离过程;
    (2)对数据报文进行过滤分析,对邮件(SMTP,POP3)数据包进行组合;
    (3)查找设定的邮件地址、IP地址等过滤条件,对邮件内容中的MIME编码进行解码,还原出原始邮件内容,对内容进行分析,检索关键字,对可疑邮件进行记录;
    (4)有关人员通过专用的客户端软件查看可疑邮件,并远程对软件的运行进行配置和管理。
图1  普通电子邮件系统的SMTP服务过程
    垃圾邮件有很强的繁殖力,如果不加以整治,就会对合法邮件造成危害,干扰互联网络的正常工作。电子邮件过滤技术是目前反垃圾邮件用到的主要技术。电子邮件过滤通常可以从两方面实现:一种是基于客户端的垃圾邮件过滤,一种是基于服务器端的垃圾邮件过滤。而在网络中对可疑邮件
进行过滤、堵截的最佳参考 VBA 的目前为止只有两种,Uncompressed和MSCompressed,分别表示自解释文件和 Microsoft LZX压缩算法压缩的文件。
section data:
    对于段号不为0的段,还有一个文件为::DataSpace/ Storage/<Section Name>/Content,里面存放着该段的压缩信息,所以,当解析非0段时,需要两步工作,第一步,取得第0段并将其解圧,取得段名,第二步才能利用段名找到相应的段。
其余与格式相关的文件:
::DataSpace/Storage/<SectionName>/ControlData
共0x20个字节,存储关于压缩的信息;
压缩段:这一段用LZX压缩,要进行解压缩,先要读取:
::DataSpace/Storage/<SectionName>/Transform/{7FC28940-9D31-11D0-9B27-00A0C91E9C7C}/InstanceData/ResetTable。

3.5 压缩文件中的文档处理技术

3.5.1  RAR文档的处理方法
    (1) RAR文档的格式简介
    Rar文件由许多不定长度的数据区组成,这些数据区的顺序是可变的,但是第一个数据区一定是由一个标志块和文档头组成的。
如下图为一个rar文件的基本格式,该rar文件中压缩了多个文档:

标志块
文档头
文件头一
数据区一
文件头二
数据区二
文件头三
数据区三
……
其中标志块的内容是固定的: 0x52 0x61 0x72 0x21 0x1a 0x07 0x00;
文档头格式如下:
内容
HEAD_CRC
HEAD_TYPE
HEAD_FLAGS
HEAD_SIZE
RESERVED1
RESERVED2
长度(字节)
2
1
2
2
2
4
意义
数据CRC
类型: 0x73
标志
数据区大小
保留
保留
数据CRC是对文档头的CRC校验和,可以用其判断文档头是否错误;
数据区类型: 0x73表示该数据结构是文档头;
数据区大小是指文档头的长度。
文件头格式如下: 
HEAD_CRC
HEAD_TYPE
HEAD_FLAGS
HEAD_SIZE
PACK_SIZE
UNP_SIZE
HOST_OS
2
1
2
2
4
4
1
数据CRC
类型: 0x74
标志
数据区大小
压缩后大小
压缩前大小
操作系统
FILE_CRC
FTIME
UNP_VER
METHOD
NAME_SIZE
ATTR
FILE_NAME
4
4
1
1
2
4
不定长
文件CRC
压缩时间
解压需版本
压缩方法
文件名长度
文件属性
文件名

数据CRC是对文档头的CRC校验和,可以用其判断文件头是否错误;
数据区类型: 0x74表示该数据结构是文件头;
数据区大小是指文件头的长度。
文件压缩前后大小对解压数据区十分重要,如果错误就无法对数据区进行定位。
操作系统:  0 - MS DOS;1 - OS/2;2 - Win32;3 - Unix
文件CRC是对文件数据区的CRC校验和,可以用其判断文件数据区是否错误。
    (2)RAR文档的解压
RAR文件的解压主要是调用unRAR.dll中的函数。
3.5.2  ZIP文件格式的处理方法
    (1)ZIP文件格式分析
如下图为一个zip文件的基本格式,该zip文件中压缩了多个文档.

图4  zip文件格式

    在压缩了多个文档的zip文件中,每个被压缩的文档都带有一个本地文件头,中央目录和数据区,这三个结构是一一对应的。其中本地文件头和中央目录区包含了对应压缩文档的基本信息,数据区则存储该文档压缩后的数据。zip文件尾部包含了整个zip文件的基本信息。
    (2)ZIP文件格式的解压
ZIP文件的解压主要是调用unZIP.dll中的函数。

4  总结

    以上主要介绍了一种反垃圾邮件系统的内容过滤模块的多文档文本提取技术,涉及HTML文档、PDF文档、MS-WORD文档、CHM文档的文本提取技术,及压缩文件中的文档处理技术,更好地运用于反垃圾邮件过滤系统中,不断完善反垃圾邮件系统,以提高垃圾邮件识别率、拦截率,降低资源的消耗。

参考文献

1 孟莉,全红艳.电子邮件过滤系统的设计与实现.管理信息系统.1999.9
2  周勇生.  电子邮件是如何工作的.  新潮电子,2000.6 (总第54期):99
3 冯晓芳. 反垃圾邮件仍需继续 12321举报电话启用http://www.xinhuanet.com/ 2006-06-22 13:41
4 落红卫,刘建毅,王枞,钟义信.智能邮件过滤系统的研究与实现.机电产品开发与创新.2003.1
5 胡金初.  计算机网络. 北京:清华大学出版社,2004
6 杨锦川,张熙等. 电脑安全X档案. 昆明:云南人民出版社,2003.8
转贴于 范文论文吧 http://www.fwlw8.com
         
∷相关范文评论∷    (评论内容只代表网友观点,与本站立场无关!) [更多评论...]
搜索关键词:范文、论文、小说、手机、总结、报告、演讲稿、发言稿、试题、试卷、高考、英语、大学英语三级成绩查询、大学英语四级成绩查询、大学英语六级成绩查询、计算机等级考试、计算机3级成绩查询、计算机4级成绩查询、大学招生、研究生招生、招生信息、招生政策、创业贷款、情书范文、祝福短信、搞笑短信、自我介绍、自我评价等!
免责声明
1、本站部分内容是转载自其它站点或其它媒体,其版权归原文作者、版权声明者、或原文存放站点所有,如果需要转载或引用,请注明原文出处及连接。
2、本站的所有内容不得用于商业目的,使用者应对其行为承担一切后果,本站不负任何责任。
3、如果本站有涉及您版权的内容请点此[告知我们], 我们会尽快作出相处理。

Copyright © 2006- 范文论文吧 All Rights Reserved
本站部分资源出自其他站点或媒体、版权归原创作者所有、本站仅作学习参考、如有涉及您版权的内容请[来信告知]
营业证号: 黔ICP备06004583号