1 引言
国际互联网技术为人们进行交流、协同工作、资源及内容共享等提供了一条崭新途径。随着通信技术及计算机技术的飞速发展,互联网络的使用日益普及,已成为当前信息时代的一种极为重要的信息传播载体,对社会的发展起到了巨大的推进作用,且信息传播及时、便捷。据美国电脑工业年鉴公司估计, 2010年全球互联网用户将超过7.65亿人。互联网络安全涉及到加密、计算机病毒防范、入侵检测、接入控制、网上媒体信息内容监管、安全管理、垃圾邮件处理等众多关键技术目前反垃圾邮件工作取得一定成效。从2006年3月到2006年6月,中国互联网用户收到的垃圾邮件比例由63.97%下降到61.99%。用户平均每周收到垃圾邮件数量为17.93封,与2006年3月的每周19.33封相比减少1.4封。这即说明,反垃圾邮件仍是一个持续又长久的过程。尽管《互联网电子邮件服务管理办法》规定业已出台(2006年3月30日起正式施行),但仍要采取各种必要的措施进行预防及使用,这如同法律一样不可缺,既要打击犯罪,又要教育以预防犯罪。对邮件进行适时处理,阻止垃圾邮件的泛滥成灾,通过总结策略,一般采用的是关键字内容过滤技术,采取“截获样本、解析特征、生成规则、规则下发、内容过滤” 这种类似传统杀病毒系统的原理。下面,就对邮件的内容过滤模块作一简单研究分析。
2 内容过滤模块的总体设计
邮件过滤系统设计思想主要是用来监控和拦截网络上传输的含有有害信息的邮件数据报。针对这一设计思想,可以把网络邮件过滤系统的主要功能概括为以下几个模块[4]。
(1)抓取数据报文,即数据的分离过程;
(2)对数据报文进行过滤分析,对邮件(SMTP,POP3)数据包进行组合;
(3)查找设定的邮件地址、IP地址等过滤条件,对邮件内容中的MIME编码进行解码,还原出原始邮件内容,对内容进行分析,检索关键字,对可疑邮件进行记录;
(4)有关人员通过专用的客户端软件查看可疑邮件,并远程对软件的运行进行配置和管理。

图1 普通电子邮件系统的SMTP服务过程
垃圾邮件有很强的繁殖力,如果不加以整治,就会对合法邮件造成危害,干扰互联网络的正常工作。电子邮件过滤技术是目前反垃圾邮件用到的主要技术。电子邮件过滤通常可以从两方面实现:一种是基于客户端的垃圾邮件过滤,一种是基于服务器端的垃圾邮件过滤。而在网络中对可疑邮件
进行过滤、堵截的最佳参考 VBA 的目前为止只有两种,Uncompressed和MSCompressed,分别表示自解释文件和 Microsoft LZX压缩算法压缩的文件。
section data:
对于段号不为0的段,还有一个文件为::DataSpace/ Storage/<Section Name>/Content,里面存放着该段的压缩信息,所以,当解析非0段时,需要两步工作,第一步,取得第0段并将其解圧,取得段名,第二步才能利用段名找到相应的段。
其余与格式相关的文件:
::DataSpace/Storage/<SectionName>/ControlData
共0x20个字节,存储关于压缩的信息;
压缩段:这一段用LZX压缩,要进行解压缩,先要读取:
::DataSpace/Storage/<SectionName>/Transform/{7FC28940-9D31-11D0-9B27-00A0C91E9C7C}/InstanceData/ResetTable。
3.5 压缩文件中的文档处理技术
3.5.1 RAR文档的处理方法
(1) RAR文档的格式简介
Rar文件由许多不定长度的数据区组成,这些数据区的顺序是可变的,但是第一个数据区一定是由一个标志块和文档头组成的。
如下图为一个rar文件的基本格式,该rar文件中压缩了多个文档:
标志块 | 文档头 | 文件头一 | 数据区一 | 文件头二 | 数据区二 | 文件头三 | 数据区三 | …… |
其中标志块的内容是固定的: 0x52 0x61 0x72 0x21 0x1a 0x07 0x00;
文档头格式如下:
内容 | HEAD_CRC | HEAD_TYPE | HEAD_FLAGS | HEAD_SIZE | RESERVED1 | RESERVED2 |
长度(字节) | 2 | 1 | 2 | 2 | 2 | 4 |
意义 | 数据CRC | 类型: 0x73 | 标志 | 数据区大小 | 保留 | 保留 |
数据CRC是对文档头的CRC校验和,可以用其判断文档头是否错误;
数据区类型: 0x73表示该数据结构是文档头;
数据区大小是指文档头的长度。
文件头格式如下:
HEAD_CRC | HEAD_TYPE | HEAD_FLAGS | HEAD_SIZE | PACK_SIZE | UNP_SIZE | HOST_OS |
2 | 1 | 2 | 2 | 4 | 4 | 1 |
数据CRC | 类型: 0x74 | 标志 | 数据区大小 | 压缩后大小 | 压缩前大小 | 操作系统 |
FILE_CRC | FTIME | UNP_VER | METHOD | NAME_SIZE | ATTR | FILE_NAME |
4 | 4 | 1 | 1 | 2 | 4 | 不定长 |
文件CRC | 压缩时间 | 解压需版本 | 压缩方法 | 文件名长度 | 文件属性 | 文件名 |
数据CRC是对文档头的CRC校验和,可以用其判断文件头是否错误;
数据区类型: 0x74表示该数据结构是文件头;
数据区大小是指文件头的长度。
文件压缩前后大小对解压数据区十分重要,如果错误就无法对数据区进行定位。
操作系统: 0 - MS DOS;1 - OS/2;2 - Win32;3 - Unix
文件CRC是对文件数据区的CRC校验和,可以用其判断文件数据区是否错误。
(2)RAR文档的解压
RAR文件的解压主要是调用unRAR.dll中的函数。
3.5.2 ZIP文件格式的处理方法
(1)ZIP文件格式分析
如下图为一个zip文件的基本格式,该zip文件中压缩了多个文档.
图4 zip文件格式
在压缩了多个文档的zip文件中,每个被压缩的文档都带有一个本地文件头,中央目录和数据区,这三个结构是一一对应的。其中本地文件头和中央目录区包含了对应压缩文档的基本信息,数据区则存储该文档压缩后的数据。zip文件尾部包含了整个zip文件的基本信息。
(2)ZIP文件格式的解压
ZIP文件的解压主要是调用unZIP.dll中的函数。
4 总结
以上主要介绍了一种反垃圾邮件系统的内容过滤模块的多文档文本提取技术,涉及HTML文档、PDF文档、MS-WORD文档、CHM文档的文本提取技术,及压缩文件中的文档处理技术,更好地运用于反垃圾邮件过滤系统中,不断完善反垃圾邮件系统,以提高垃圾邮件识别率、拦截率,降低资源的消耗。
参考文献
1 孟莉,全红艳.电子邮件过滤系统的设计与实现.管理信息系统.1999.9
2 周勇生. 电子邮件是如何工作的. 新潮电子,2000.6 (总第54期):99
4 落红卫,刘建毅,王枞,钟义信.智能邮件过滤系统的研究与实现.机电产品开发与创新.2003.1
5 胡金初. 计算机网络. 北京:清华大学出版社,2004
6 杨锦川,张熙等. 电脑安全X档案. 昆明:云南人民出版社,2003.8
转贴于 范文论文吧 http://www.fwlw8.com