本发明专利技术提供了一种文件内容检索方法及系统,方法包括:(1)设置目录以对数据文件信息进行分类,所述目录的名称包含分类信息;(2)设置文件名,所述文件名的名称包含分类信息;(3)针对关键字构建索引文件,以通过所述关键字查找包含所述关键字的文件内容;(4)设置内容索引以根据所述关键字直接定位到文件内容,并提取出包含所述关键字的文件内容信息。本发明专利技术可以实现对文件内容的快速检索,且不需要大容量数据库支撑、索引构建方式简单、文件内容查询效率高。
【技术实现步骤摘要】
一种文件内容检索方法及系统
本专利技术涉及计算机
,尤其涉及一种构建索引以快速检索文件数据的文件内容检索方法及系统。
技术介绍
大数据背景下,大量的数据和信息需要保存到数据库或磁盘文件中。以通讯网络中的信令信息的采集和分析为例,通讯网络中往往需要采集大量的用户的信令生成呼叫信令记录(CDR),通过对信令过程的识别汇总和总结来对网络状况进行分析和监控,以对特殊用户的行为进行监控。CDR的数据量非常庞大,每天会产生几个TB的数据。大量的CDR形成文件,保存到磁盘中,查询时会消耗很大的时间。现有的文件内容检索存在的不足之处在于:需要大容量数据库支撑,成本高昂、部署复杂;为了快速的检索到所需要的文件内容信息,需要构建大量的索引,索引文件需要通过匹配、遍历等方式获取,构建方式复杂;文件内容查找时,需遍历整个文件以获取有效信息,查询效率低。
技术实现思路
本专利技术的目的在于,针对现有技术中文件内容检索存在的需要大容量数据库支撑、索引构建方式复杂、文件内容查找需遍历整个文件查询效率低的技术问题,提供一种文件内容检索方法及系统,实现对文件内容的快速检索。为了实现上述目的,本专利技术提供了一种文件内容检索方法,所述方法包括:(1)设置目录以对数据文件信息进行分类,所述目录的名称包含分类信息;(2)设置文件名,所述文件名的名称包含分类信息;(3)针对关键字构建索引文件,以通过所述关键字查找包含所述关键字的文件内容;(4)设置内容索引以根据所述关键字直接定位到文件内容,并提取出包含所述关键字的文件内容信息。为了实现上述目的,本专利技术还提供了一种文件内容检索系统,包括:目录设置单元,用于设置目录以对数据文件信息进行分类,所述目录的名称包含分类信息;文件名设置单元,用于设置文件名,所述文件名的名称包含分类信息;索引文件构建单元,用于针对关键字构建索引文件,以通过所述关键字查找包含所述关键字的文件内容;内容索引设置单元,用于设置内容索引以根据所述关键字直接定位到文件内容,并提取出包含所述关键字的文件内容信息。本专利技术的优点在于:数据组织简单,不需要代价高昂的大容量数据库支撑;数据文件和索引文件大小可根据系统性能和数据文件信息特点进行调整,以配合硬件的最佳IO效率为标准,提高整体效率;数据文件保存的路径和索引文件名称设置方便,数据文件保存的中间路径或索引文件名称均可以直接构造获取,不需要通过匹配、遍历等方式获取,提高查询的效率;文件内容查找时,只需要打开含有所需信息的数据文件,无需遍历整个数据文件即可获取有效信息,查询效率高。附图说明图1,本专利技术所述的文件内容检索方法的流程图;图2,本专利技术所述的文件内容检索系统的架构图。具体实施方式大数据背景下,收集到数据信息可以使用文件方式保存到磁盘或其他的永久存储介质中,文件分目录进行存储。本专利技术提出一种文件内容检索方法及系统,充分利用目录、文件名、文件索引和内容索引协同工作实行对文件内容的快速检索。下面结合附图以及具体实施方式做详细说明。参考图1,本专利技术所述的文件内容检索方法的流程图。所述方法包括如下步骤:S11:设置目录以对数据文件信息进行分类,所述目录的名称包含分类信息;S12:设置文件名,所述文件名的名称包含分类信息;S13:针对关键字构建索引文件,以通过所述关键字查找包含所述关键字的文件内容;S14:设置内容索引以根据所述关键字直接定位到文件内容,并提取出包含所述关键字的文件内容信息。接下来对图1所示的步骤做详细说明。S11:设置目录以对数据文件信息进行分类,所述目录的名称包含分类信息。设置目录的目的是对对数据文件信息进行分类,并且目录的名称需要包含有便于检索的分类信息。为了避免一个目录下文件数量过多,可以将目录划分为多级,以对数据文件信息进行多次分类。其中,可以采用树状结构将目录划分为多级。S12:设置文件名,所述文件名的名称包含分类信息。文件名的名称需要包含分类信息的分类特征或关键信息,并且文件名的名称需满足唯一性。以防止单个文件的大小过于庞大,因为文件太大,打开和读写文件消耗的时间也会变大。S13:针对关键字构建索引文件,以通过所述关键字查找包含所述关键字的文件内容。针对常用的关键信息包含的关键字构建索引文件,索引文件需大小适中以实现被快速的定位。通过索引文件中的关键字可以快速查找到包含关键字的文件内容。当将目录划分为多级时,根据数据文件信息数量,索引文件可以对应于任一级的目录,以确保索引文件不会太庞大、读写时候的开销适中。其中,所述索引文件的名称中包含的关键字与所述索引文件对应的目录的名称包含的分类信息中的关键字一致。S14:设置内容索引以根据所述关键字直接定位到文件内容,并提取出包含所述关键字的文件内容信息。内容索引是最后一级的索引,用于根据关键字直接定位到文件内容,并提取出包含关键字的相关文件内容信息。其中,内容索引作为数据文件的头部存在,以保存关键字在数据文件中的位置信息。以下以通讯网络中信令信息的采集和分析为例对本专利技术所述的文件内容检索方法做进一步说明。通讯网络中往往需要采集大量的用户的信令生成呼叫信令记录(CDR),通过对信令过程的识别汇总和总结来对网络状况进行分析和监控,以对特殊用户的行为进行监控。通讯网络中一般情况下有两个关键信息是在整个通信过程中保持不变:用户号码(ISDN)和终端识别码(IMSI),通过这个两个信息以及相关衍生标记可以分析出用户的整个通信的过程。对于CDR的查询通常有几个查询条件:时间段、用户号码(ISDN)、设备号码(IMSI)。本专利技术所述的文件内容检索方法在保存CDR的时候也根据上述查询条件生成相应索引,具体为:1)根据时间段设置目录:为了避免一个目录下文件数量过多,目录可以划分为多级。目录的名称包含分类信息,例如,第一级:天(20171012)、第二级:小时(00~23)、第三级:分钟(5分钟一个目录,00~11)。2)设置文件名:文件名中包含时间信息(年_月_日_时_分_SN.bin,SN为5分钟内容的文件序号,每个5分钟从0开始)。这是为了防止单个文件的大小过于庞大而设计的,因为文件太大,打开和读写文件消耗的时间也会变大。3)构建索引文件:针对常用的关键信息中包含的关键字生成索引文件,索引文件可以对应于任一级的目录,比如可以每天一个索引文件或每小时一个索引文件。这一点需要根据数据文件信息数量来设计,确保索引文件不会太庞大、读写时候的开销适中。索引文件的名称中包含的关键字为时间信息,该时间信息与索引文件对应的目录的名称包含的时间信息一致。4)设置内容索引:内容索引作为数据文件的头部存在,以保存关键字在数据文件中的位置信息。例如,当需要查询2017101208~2017101220,一共12个小时的号码为139*********的用户的CDR时,可以按照这样的过程进行处理:这个时间段在第一级目录20171012中,需要包含12个二级目录(08~19),每个二级目录中有12个三级目录,索引文件对应到二级目录,即每小时一个索引文件(2017101208_ISDN.idx~2017101219_ISDN.idx);顺序打开这12个索引文件,读取其中的索引文件信息,找出包含有所需要检索用户号码的文件列表;按照列表打开数据文件,只读取文件头部的本文档来自技高网...
【技术保护点】
1.一种文件内容检索方法,其特征在于,所述方法包括:(1)设置目录以对数据文件信息进行分类,所述目录的名称包含分类信息;(2)设置文件名,所述文件名的名称包含分类信息;(3)针对关键字构建索引文件,以通过所述关键字查找包含所述关键字的文件内容;(4)设置内容索引以根据所述关键字直接定位到文件内容,并提取出包含所述关键字的文件内容信息。
【技术特征摘要】
1.一种文件内容检索方法,其特征在于,所述方法包括:(1)设置目录以对数据文件信息进行分类,所述目录的名称包含分类信息;(2)设置文件名,所述文件名的名称包含分类信息;(3)针对关键字构建索引文件,以通过所述关键字查找包含所述关键字的文件内容;(4)设置内容索引以根据所述关键字直接定位到文件内容,并提取出包含所述关键字的文件内容信息。2.根据权利要求1所述的方法,其特征在于,步骤(1)进一步包括:采用树状结构将目录划分为多级,以对数据文件信息进行多次分类。3.根据权利要求1所述的方法,其特征在于,步骤(2)进一步包括:所述文件名的名称满足唯一性。4.根据权利要求2所述的方法,其特征在于,步骤(3)进一步包括:所述索引文件可对应...
【专利技术属性】
技术研发人员:顾明毅,
申请(专利权)人:上海顶竹通讯技术有限公司,
类型:发明
国别省市:上海,31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。