一种数据类型自动化识别方法技术

技术编号:13768255 阅读:139 留言:0更新日期:2016-09-29 02:48
本发明专利技术公开一种数据类型自动化识别方法,本发明专利技术属于智能信息处理领域,尤其涉及一种文本分类方法和系统,使用自定义算法对图片、行文本、记录文本进行识别分类,进而满足海量大数据文件的处理需求。

【技术实现步骤摘要】

本专利技术属于智能信息处理领域,尤其涉及一种文本分类方法和系统,使用自定义算法对图片、行文本、记录文本进行识别分类,进而满足海量大数据文件的处理需求。
技术介绍
计算机和互联网在政治、经济、文化以及社会生活中发挥着越来越重要的作用,信息的共享与交流已成为不可阻挡的发展趋势。文件作为信息的载体,被广大企业和个人用户广泛使用。文件是计算机组织和存储信息的重要结构,文件的类型多种多样,如文本文件、图像文件、声音文件、可执行文件等等,目前已知的文件类型已有几千种,仅图像文件类型就已经超过了100种。多样化的文件类型能够满足人们对信息处理的各种需求,给人们的工作、生活等各方面带来了极大的便利。从个人使用的角度来说,伴随着数据处理技术的不断发展,用户对文件归档、分析等需求也日趋多样化,特别是大数据时代,文件类型识别作为大数据研究分析的第一步,传统的依靠人工识别方式开始显得力不从心,一种海量文件的类型快速判断应运而生;从网络安全角度来说,文件存储在计算机上时,其各种属性,如类型信息(包括文件后缀名、魔数信息等)、文件大小、读写权限等,都存储在文件系统的目录结构中,而文件实体本身则存储在磁盘上相应的簇中。两者分别由不同的结构描述和存储,文件属性的改变,并不影响文件实体本身的内容。两者的独立性使恶意用户有机可乘,通过改变目录中文件的有关属性,破坏其与文件实体之间的对应关系,从而掩盖文件实体的真实类型,以达到传播木马和病毒、隐藏敏感信息和犯罪证据等不可告人的目的,给用户的信息安全和国家的安定团结构成严重威胁。一方面,一些黑客和网络犯罪分子将木马、病毒伪装成正常的资源文件,或将恶意代码嵌入资源文件中,诱骗用户访问和下载,窃取破坏用户的信息资源。据中国互联网络信息中心(CNNIC)和中国互联网络应急响应中心(CNCERT)在京联合发布的《2009年中国网民网络信息安全状况调查系列报告》指出,2009年,52%的网民遭遇过网络安全事件,其中71.5%是因为在网络下载或浏览时遭遇病毒或木马攻击。中国反网络病毒联盟(ANVA)整理发布的活跃恶意代码中,利用网页挂马、捆绑下载进行传播的恶意代码所占比例较高。另一方面,以计算机作为犯罪对象、犯罪工具以及犯罪信息载体的计算机犯罪愈演愈烈。据美国FBI下属机构IC3(Internet Crime Complaint Center)发布的2007计算机犯罪调查报告显示,信息盗窃、金融诈骗、内部人士网络滥用、病毒等计算机犯罪案件造成了巨大的经济损失。而计算机犯罪的专业化、智能化、复杂化、多样化、隐蔽化的特点,使计算机犯罪的破案率较低,
助长了犯罪分子的嚣张气焰。文件类型识别技术就是在这种背景下应运而生的,它旨在依据文件实体本身所表现出的特征判断文件的类型,为计算机取证、防火墙、病毒防护、入侵检测系统、邮件过滤及隐写分析等应用研究领域提供支持。快速、准确识别文件的真实类型,对保护网络和计算机信息安全具有重要的现实意义。目前,要实现高效而准确地识别文件真实类型,还面临以下难点问题:(1)一些恶意用户不断改进文件类型信息的篡改和伪造技术,使篡改和伪造后的文件辨认度更低、仿真度更高,对文件真实类型的准确识别变得更加困难。如何深入分析文件实体的内部特性,多方面多角度对文件进行综合判断,是准确识别文件类型的关键所在。(2)由于文件的完整程度事先不可预知,因此在设计文件类型识别算法时,既要保证识别结果有较高的准确率,又要对篡改和损坏的文件具有良好的包容性。采用何种策略使算法在保持较高准确率的同时,也适应于不完整的文件类型识别,是提高算法适应性必须解决的重要问题。(3)文件类型的种类众多,其中相当一部分类型没有统一的规范和标准,或者其规范和标准是商业秘密,不能公开发布。这种情况下,收集文件类型信息的难度加大,判断文件类型无据可依,给文件类型的识别带来了很大的困难。如何不依赖特定文件的规范,设计出具有较高正确率和较强普适性的文件类型识别算法,是急需解决的问题。
技术实现思路
针对上述问题,本专利技术的目的在于提供一种识别文件类型的方法并能够按照文件内容特征进行分类,它支持多种类型的文件,包括图片,行文本(自由文本),记录文本(结构化文本)等。为实现上述目的,本专利技术采用以下技术方案:一种数据类型自动化识别方法,包括以下步骤:步骤1:对输入的原始文件进行初步分类,使用基于字符统计的文件类型识别方法判定文件是结构化文件(多媒体文件)还是非结构化文件(文本文件);步骤2:若得到是结构化文件,使用特征码识别的文件类型识别方法判定该文件是图片JPG,PDF,doc中的哪一种,若结果是非结构化文件(文本文件),使用正则表达式的文本类型识别方法判定文件是结构化文本还是自由文本。基于字符统计的文件类型识别算法:可统计二进制文件中是否存在大量字符'/0'进行判断。非结构文件的形成主要有外接设备的输入和编程语言的输出,外接设备主要是指键盘和鼠标,因此文本中除了回车和换
行都是可显示字符,对于‘\\0’等转义字符,属于键盘和鼠标的输入范围之外,而‘\\0’在编程语言中一般表示文件的结尾,在文件的读写过程中,编译器都会进行截断处理,所以文本文件中必然不会包含‘\\0’,而在多媒体文件(结构化文件),大多使用0x00(‘\\0’的十六进制形式)进行字符的填充,因此完全可以统计‘\\0’字符的个数进行结构化文件与非结构化文件的分类识别。结构化文件:结构化文件是指文件中数据的组织和存放满足严格约束条件的文件,需要把特定数据按照一定的顺序和结构存储在文件中。通常每种文件类型都有相应的格式规范说明,规定了如何将信息编码存储到该类型的文件中去。使用越广泛的文件类型,其格式规范越标准、越详细。结构化文件使用预先严格定义的结构来管理和组织各类数据,一个结构化文件必须要满足其所属类型格式规范的约束条件。相反,非结构化文件是指没有任何约束条件的文件,将字节流按顺序存储在文件中即可。基于特征码识别的文件类型识别算法:通过特征码匹配识别文件类型,首先要深入分析各种类型文件的格式规范,挖掘出能够代表各类型的特征码组合,并将特征码组合进行统一描述;然后匹配各特征码组合,以确定文件类型。在匹配特征码时,为增强匹配目标的明确性,提高匹配结果的准确性,本专利技术提出基于限定区域的特征码匹配算法,即将待测文件进行区域划分,在限定的区域范围内分别匹配相应的特征码。最后根据匹配程度识别文件类型。基于正则表达式的文本类型识别算法:非结构文件的进一步分类:对于非结构化文件,又可根据文本内部的组织有无约束条件分为自由文本和结构化文本,自由文本即无结构文本,是指无法根据文本格式将文本进行有效分解,形成语义较为清晰的文本模块的自然语言文本。常见的自由文本有散文、日记、毕业论文、新闻报道等。日常生活中常见的文本绝大多数为自由文本。结构化文本,是指内容为结构化或半结构化数据的文本。每个独立语义模块之间有明显的非标点分割符号,如空格、回车、表格、编号、特殊格式字符等等,同一类型数据一般具有相同的类型或值域,表中语句简短,语句表达方式较为固定。常见的这类文本有编程日志、工资表、各类清单、结算单等。结构化文本的每个独立语义模块之间一般都有很明显的分割标志,如“上线时间:20本文档来自技高网
...

【技术保护点】
一种数据类型自动化识别方法,其特征在于:步骤1:对输入的原始文件进行初步分类,使用基于字符统计的文件类型识别方法判定文件是结构化文件(多媒体文件)还是非结构化文件(文本文件);步骤2:若得到是结构化文件,使用基于特征码识别的文件类型识别方法判定该文件是图片JPG,PDF,doc中的哪一种,若结果是非结构化文件(文本文件),使用正则表达式的文本类型识别方法判定文件是结构化文本还是自由文本。

【技术特征摘要】
1.一种数据类型自动化识别方法,其特征在于:步骤1:对输入的原始文件进行初步分类,使用基于字符统计的文件类型识别方法判定文件是结构化文件(多媒体文件)还是非结构化文件(文本文件);步骤2:若得到是结构化文件,使用基于特征码识别的文件类型识别方法判定该文件是图片JPG,PDF,doc中的哪一种,若结果是非结构化文件(文本文件),使用正则表达式的文本类型识别方法判定文件是结构化文本还是自由文本。2.根据权利要求1所述的一种数据类型自动化识别方法,其特征在于,基于字符统计的文件类型识别方...

【专利技术属性】
技术研发人员:张小松牛伟纳唐海洋黄婉玉卢嘉中张林李瑞杏曹思宇宋珺许珑于
申请(专利权)人:电子科技大学
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1