一种文件类型识别方法及装置制造方法及图纸

技术编号:10862469 阅读:115 留言:0更新日期:2015-01-01 20:46
本发明专利技术提供一种文件类型识别方法及装置,用以提供一种准确性高、快捷方便的文件类型识别方法。该方法包括:提取第一文件的文本特征信息;将所述第一文件的文本特征信息与预设文件类型的文本特征信息进行匹配比较;当所述第一文件的文本特征信息与预设文件类型的文本特征信息匹配时,确定所述第一文件的文件类型为所述预设文件类型。上述技术方案,能够准确地、快捷方便地识别出文件类型。

【技术实现步骤摘要】
【专利摘要】本专利技术提供一种文件类型识别方法及装置,用以提供一种准确性高、快捷方便的文件类型识别方法。该方法包括:提取第一文件的文本特征信息;将所述第一文件的文本特征信息与预设文件类型的文本特征信息进行匹配比较;当所述第一文件的文本特征信息与预设文件类型的文本特征信息匹配时,确定所述第一文件的文件类型为所述预设文件类型。上述技术方案,能够准确地、快捷方便地识别出文件类型。【专利说明】一种文件类型识别方法及装置
本专利技术涉及文件处理
,尤其涉及一种文件类型识别方法及装置。
技术介绍
在信息技术飞速发展的今天,人们在各种社会和经济活动中产生大量的数字信息,企业信息技术基础设施建设规模不断扩大,IT监控、运维系统也得到广泛运用,同时各种传感器、智能家电产生的数据,以及各种交易系统(证券交易系统、电子商务交易系统)产生的日志数量巨大,格式也不尽相同,很难得到利用。 由于日志的格式多种多样,想要利用日志价值首先需要对日志类型进行准确识另IJ,当前技术对日志类型的识别主要依靠用户预先定义日志类型,如在上传日志前配置日志文件路径或日志来源所对应的日志类型。用户在上传日志前往往需要进行相关配置,增添了不必要的负担,不够灵活;另外,人工操作也可能出错。
技术实现思路
为克服相关技术中存在的问题,本专利技术实施例提供一种文件类型识别方法及装置,用以提供一种准确性高、快捷方便的文件类型识别方法。 根据本专利技术实施例的第一方面,提供一种文件类型识别方法,包括: 提取第一文件的文本特征信息,所述文本特征信息包括字符串特征信息或者文本模板特征信息; 将所述第一文件的文本特征信息与预设文件类型的文本特征信息进行匹配比较; 当所述第一文件的文本特征信息与预设文件类型的文本特征信息匹配时,确定所述第一文件的文件类型为所述预设文件类型。 所述将所述第一文件的文本特征信息与预设文件类型的文本特征信息进行匹配比较,包括: 将所述第一文件的文本特征信息与所述第一文件的来源对应的文件类型的文本特征信息进行匹配比较。 在一个实施例中,当所述文本特征信息为文本模板特征信息时,所述提取第一文件的文本特征信息,包括:按照符号在第一文件中的出现顺序提取所述第一文件中的符号,并将提取的符号按照出现顺序排列生成所述第一文件的符号特征信息; 所述将所述第一文件的文本特征信息与预设文件类型的文本特征信息进行匹配比较,包括:将所述第一文件的符号特征信息与预设文件类型的符号特征信息进行匹配比较; 当所述第一文件的文本特征信息与预设文件类型的文本特征信息匹配时,确定所述第一文件的文件类型为所述预设文件类型,包括:当所述第一文件的符号特征信息与预设文件类型的符号特征信息匹配时,确定所述第一文件的文件类型为所述预设文件类型。 在一个实施例中,所述方法还包括: 接收来自所述来源的第二文件; 接收输入的所述第二文件的文件类型; 提取所述第二文件的文本特征信息; 将所述第二文件的文件类型存储为所述预设文件类型,将所述第二文件的文本特征信息存储为所述预设文件类型的文本特征信息。 在一个实施例中,所述确定所述第一文件的文件类型为所述预设文件类型之后,所述方法还包括: 显示验证信息,所述验证信息用于请求用户确认所述第一文件的文件类型是否为所述预设文件类型; 接收输入的验证结果,所述验证结果包括用于表明所述用户已确认所述第一文件的文件类型为所述预设文件类型的第一结果、或者用于表明所述用户已否认所述第一文件的文件类型为所述预设文件类型的第二结果; 当接收到所述第一结果时,将所述第一文件的文件类型设置为所述预设文件类型;当接收到所述第二结果时,继续识别所述第一文件的文件类型。 根据本专利技术实施例的第二方面,提供一种文件类型识别装置,包括: 提取模块,用于提取第一文件的文本特征信息,所述文本特征信息包括字符串特征信息或者文本模板特征信息; 比较模块,用于将所述第一文件的文本特征信息与预设文件类型的文本特征信息进行匹配比较; 确定模块,用于当所述第一文件的文本特征信息与预设文件类型的文本特征信息匹配时,确定所述第一文件的文件类型为所述预设文件类型。 在一个实施例中,所述比较模块包括: 比较子模块,用于将所述第一文件的文本特征信息与所述第一文件的来源对应的文件类型的文本特征信息进行匹配比较。 在一个实施例中,所述提取模块包括: 提取子模块,用于当所述文本特征信息为文本模板特征信息时,按照符号在第一文件中的出现顺序提取所述第一文件中的符号,并将提取的符号按照出现顺序排列生成所述第一文件的符号特征信息; 所述比较模块包括: 比较子模块,用于将所述第一文件的符号特征信息与预设文件类型的符号特征信息进行匹配比较; 所述确定模块,包括: 确定子模块,用于当所述第一文件的符号特征信息与预设文件类型的符号特征信息匹配时,确定所述第一文件的文件类型为所述预设文件类型。 在一个实施例中,所述装置还包括: 第一接收模块,用于接收来自所述来源的第二文件; 第二接收模块,用于接收输入的所述第二文件的文件类型; 提取模块,用于提取所述第二文件的文本特征信息; 存储模块,用于将所述第二文件的文件类型存储为所述预设文件类型,将所述第二文件的文本特征信息存储为所述预设文件类型的文本特征信息。 在一个实施例中,所述装置还包括: 显示模块,用于在所述确定模块确定所述第一文件的文件类型为所述预设文件类型之后,显示验证信息,所述验证信息用于请求用户确认所述第一文件的文件类型是否为所述预设文件类型; 第三接收模块,用于接收输入的验证结果,所述验证结果包括用于表明所述用户已确认所述第一文件的文件类型为所述预设文件类型的第一结果、或者用于表明所述用户已否认所述第一文件的文件类型为所述预设文件类型的第二结果; 处理模块,用于当接收到所述第一结果时,将所述第一文件的文件类型设置为所述预设文件类型;当接收到所述第二结果时,继续识别所述第一文件的文件类型。 本专利技术的实施例提供的技术方案可以包括以下有益效果: 本专利技术实施例提供的上述方法,能够准确地、快捷方便地识别出文件类型;并且对用户来说非常简单易行,并不需要用户自行编写程序,也不需要掌握正则表达式的写法以及其他语句的运用,只需要上传日志给文件识别系统,由文件识别系统采用上述方法进行文件类型的识别,即可节省了用户的时间,也减少人工操作导致出错的可能性。 应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本专利技术。 【专利附图】【附图说明】 此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本专利技术的实施例,并与说明书一起用于解释本专利技术的原理。 图1是本专利技术实施例提供的一种文件类型识别方法的流程图。 图2是本专利技术实施例提供的另一种文件类型识别方法的流程图。 图3A是本专利技术实施例提供的再一种文件类型识别方法的流程图。 图3B是本专利技术实施例提供的生成预设文件类型的文本特征信息的方法的流程图。 图4是本专利技术实施例提供的一种文件类型识别装置的结构图。 图5是本专利技术实施例提供的另一种文件类型识别装置的结构图。 【具体实施方式】 这里将本文档来自技高网...
一种文件类型识别方法及装置

【技术保护点】
一种文件类型识别方法,其特征在于,包括:提取第一文件的文本特征信息,所述文本特征信息包括字符串特征信息或者文本模板特征信息;将所述第一文件的文本特征信息与预设文件类型的文本特征信息进行匹配比较;当所述第一文件的文本特征信息与预设文件类型的文本特征信息匹配时,确定所述第一文件的文件类型为所述预设文件类型。

【技术特征摘要】

【专利技术属性】
技术研发人员:陈军梁玫娟
申请(专利权)人:北京优特捷信息技术有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1