一种数据类型自动化识别方法技术

技术编号：13768255 阅读：139 留言：0更新日期：2016-09-29 02:48

本发明专利技术公开一种数据类型自动化识别方法，本发明专利技术属于智能信息处理领域，尤其涉及一种文本分类方法和系统，使用自定义算法对图片、行文本、记录文本进行识别分类，进而满足海量大数据文件的处理需求。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于智能信息处理领域，尤其涉及一种文本分类方法和系统，使用自定义算法对图片、行文本、记录文本进行识别分类，进而满足海量大数据文件的处理需求。
技术介绍
计算机和互联网在政治、经济、文化以及社会生活中发挥着越来越重要的作用，信息的共享与交流已成为不可阻挡的发展趋势。文件作为信息的载体，被广大企业和个人用户广泛使用。文件是计算机组织和存储信息的重要结构，文件的类型多种多样，如文本文件、图像文件、声音文件、可执行文件等等，目前已知的文件类型已有几千种，仅图像文件类型就已经超过了100种。多样化的文件类型能够满足人们对信息处理的各种需求，给人们的工作、生活等各方面带来了极大的便利。从个人使用的角度来说，伴随着数据处理技术的不断发展，用户对文件归档、分析等需求也日趋多样化，特别是大数据时代，文件类型识别作为大数据研究分析的第一步，传统的依靠人工识别方式开始显得力不从心，一种海量文件的类型快速判断应运而生；从网络安全角度来说，文件存储在计算机上时，其各种属性，如类型信息(包括文件后缀名、魔数信息等)、文件大小、读写权限等，都存储在文件系统的目录结构中，而文件实体本身则存储在磁盘上相应的簇中。两者分别由不同的结构描述和存储，文件属性的改变，并不影响文件实体本身的内容。两者的独立性使恶意用户有机可乘，通过改变目录中文件的有关属性，破坏其与文件实体之间的对应关系，从而掩盖文件实体的真实类型，以达到传播木马和病毒、隐藏敏感信息和犯罪证据等不可告人的目的，给用户的信息安全和国家的安定团结构成严重威胁。一方面，一些黑客和网络犯罪分子将木马、病毒伪装成正常的资源文件，或...

【技术保护点】
一种数据类型自动化识别方法，其特征在于：步骤1：对输入的原始文件进行初步分类，使用基于字符统计的文件类型识别方法判定文件是结构化文件(多媒体文件)还是非结构化文件(文本文件)；步骤2：若得到是结构化文件，使用基于特征码识别的文件类型识别方法判定该文件是图片JPG，PDF，doc中的哪一种，若结果是非结构化文件(文本文件)，使用正则表达式的文本类型识别方法判定文件是结构化文本还是自由文本。

【技术特征摘要】
1.一种数据类型自动化识别方法，其特征在于：步骤1：对输入的原始文件进行初步分类，使用基于字符统计的文件类型识别方法判定文件是结构化文件(多媒体文件)还是非结构化文件(文本文件)；步骤2：若得到是结构化文件，使用基于特征码识别的文件类型识别方法判定该文件是图片JPG，PDF，doc中的哪一种，若结果是非结构化文件(文本文件)，使用正则表达式的文本类型识别方法判定文件是结构化文本还是自由文本。2.根据权利要求1所述的一种数据类型自动化识别方法，其特征在于，基于字符统计的文件类型识别方...

【专利技术属性】
技术研发人员：张小松，牛伟纳，唐海洋，黄婉玉，卢嘉中，张林，李瑞杏，曹思宇，宋珺，许珑于，
申请(专利权)人：电子科技大学，
类型：发明
国别省市：四川;51

全部详细技术资料下载我是这个专利的主人