一种文件数据的读取、查询方法、装置及可读存储介质制造方法及图纸

技术编号:22075569 阅读:25 留言:0更新日期:2019-09-12 14:05
本发明专利技术公开了一种文件数据的读取、查询方法、装置及可读存储介质,包括:获取文本信息;提取所述文本信息中所需关键词;判断键值对数据库中是否存在对应所提取关键词的值信息;若判定键值对数据库中存在对应所提取关键词的值信息,则将所述关键词和对应值信息保存到索引文件中;将所述索引文件加载到内存中,通过此方案,先将大量数据存储到索引文件中,再通过索引文件一次性加载到内存中,相比较于传统方式中将大量数据逐行读取到内存而言,此方案能加快读取的速度,从而缩短数据读取时间。

A Method, Device and Readable Storage Media for Reading and Querying File Data

【技术实现步骤摘要】
一种文件数据的读取、查询方法、装置及可读存储介质
本专利技术涉及文件存储和读取
,尤其涉及一种文件数据的读取、查询方法、装置及可读存储介质。
技术介绍
随着智能终端设备的普及,常常需要读取设备中的文件,当终端设备的数据存储达到一定数量级的情况下,读取速度将会大大降低。例如当一个文件中有10万行数据时,如果逐行读取每一行数据到内存中,需要进行10万次IO操作,导致文件数据初始化到内存中时耗时比较长,这在现如今的设备中是不可忍受的现象,导致用户体验很差。
技术实现思路
本专利技术提供一种文件数据的读取、查询方法、装置及可读存储介质,具有快速读取文件数据的特点。本专利技术提供一种文件数据的读取方法,包括:获取文本信息;提取所述文本信息中所需关键词;判断键值对数据库中是否存在对应所述提取关键词的值信息;若判定键值对数据库中存在对应所述提取关键词的值信息,则将所述关键词和对应值信息保存到索引文件中,将所述索引文件加载到内存中。在一可实施方式中,将所述关键词和对应值信息保存到索引文件中,包括:将所述关键词和对应值信息添加到数据结构中;计算所述关键词的哈希值;将所述数据结构根据所述哈希值进行排序;将排序后所述数据结构存储到索引文件中。在一可实施方式中,将排序后所述数据结构存储到索引文件中,包括:采用二进制格式将排序后所述数据结构存储到索引文件中。在一可实施方式中,所述索引文件至少包括头文件信息、一级索引和核心数据;其中,所述头文件信息包括一级索引地址;所述一级索引包括所述关键词的哈希值、关键词索引和值索引;所述核心数据包括关键词数据和值信息数据;所述一级索引地址指向所述一级索引,所述关键词索引指向所述关键词数据,所述值索引指向所述值信息数据。在一可实施方式中,所述一级索引还包括所述关键词字节长度和所述值信息字节长度。本专利技术另一方面提供一种文件数据的查询方法,包括:获取待查关键词;计算所述待查关键词的哈希值;判断索引文件中是否存在所述待查关键词的哈希值;若判定索引文件中存在所述待查关键词的哈希值,则获取对应所述待查关键词的值信息。在一可实施方式中,在获取对应所述待查关键词的值信息之前,所述方法还包括:若判定索引文件中存在所述待查关键词的哈希值,则进一步判断待查关键词是否与所述索引文件中对应哈希值的关键词一致;若判定待查关键词与所述索引文件中对应哈希值的关键词一致,则获取对应所述待查关键词的值信息。在一可实施方式中,通过二分法判断索引文件中是否存在所述待查关键词的哈希值。本专利技术另一方面提供一种文件数据的读取装置,所述装置包括:获取模块,用于获取文本信息;提取模块,用于提取所述文本信息中所需关键词;判断模块,用于判断键值对数据库中是否存在对应所述提取关键词的值信息;存储模块,用于若经所述判断模块判定键值对数据库中存在对应所述提取关键词的值信息,则将所述关键词和对应值信息保存到索引文件中。本专利技术另一方面提供一种文件数据的查询装置,所述装置包括:获取模块,用于获取待查关键词;计算模块,用于计算所述待查关键词的哈希值;判断模块,用于判断索引文件中是否存在所述待查关键词的哈希值;查询模块,用于若所述判断模块判定索引文件中存在所述待查关键词的哈希值,则获取对应所述待查关键词的值信息。本专利技术另一方面提供一种计算机可读存储介质,所述存储介质中存储有计算机可执行指令,当所述指令被执行时用于执行所述文件数据的读取方法。本专利技术另一方面提供一种计算机可读存储介质,所述存储介质中存储有计算机可执行指令,当所述指令被执行时用于执行所述文件数据的查询方法。本专利技术实施例所述的一种文件数据的读取、查询方法、装置及可读存储介质,先将大量数据存储到索引文件中,再通过索引文件一次性加载到内存中,相比较于传统方式中将大量数据逐行读取到内存而言,此方案能加快读取的速度,从而缩短数据读取时间。需要理解的是,本专利技术的教导并不需要实现上面所述的全部有益效果,而是特定的技术方案可以实现特定的技术效果,并且本专利技术的其他实施方式还能够实现上面未提到的有益效果。附图说明通过参考附图阅读下文的详细描述,本专利技术示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本专利技术的若干实施方式,其中:图1为本专利技术实施例一种文件数据的读取方法的实现流程示意图;图2为本专利技术实施例一种文件数据的读取方法中索引文件的结构图;图3为本专利技术实施例一种文件数据的读取方法中索引文件的详细结构图;图4为本专利技术实施例一种文件数据的读取装置的结构示意图;图5为本专利技术实施例一种文件数据的查询方法的实现流程示意图;图6为本专利技术实施例一种文件数据的查询装置的结构示意图。具体实施方式为使本专利技术的目的、特征、优点能够更加的明显和易懂,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而非全部实施例。基于本专利技术中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。图1为本专利技术实施例一种文件数据的读取方法的实现流程示意图。如图1所示,一种文件数据的读取方法,包括:步骤101:获取文本信息;步骤102:提取文本信息中所需关键词;步骤103:判断键值对数据库中是否存在对应提取关键词的值信息;步骤104:若判定键值对数据库中存在对应提取关键词的值信息,则将关键词和对应值信息保存到索引文件中;步骤105:将索引文件加载到内存中。本专利技术实施例中,首先通过步骤101,获得文本信息,获取方式包括但不限于以下几种:通过网络获取文本信息、通过键盘直接录入文本信息、通过OCR(光学字符识别技术)进行文本信息的录入、通过语音识别技术进行文本信息的录入。再通过步骤102,提取文本中所需关键词,并将提取到的所有所需关键词形成关键词库。其中,所需关键词为同一类别的信息,例如所需关键词可以为文档中的所有地名、人名、数字等等。提取方式包括但不限制于以下几种:穷举文本信息中所有文字排列组合,将所有文字排列组合跟含有所有同一类别的词典进行匹配,若词典包含某一个文字排列组合,则该文字排列组合为所需关键词;或者通过人工智能自然语言算法提取文本中的所需关键词。再通过步骤103,判断键值对数据库中是否存在所提取到的关键词,其中,键值对数据库存有同一类别的关键词信息和对应关键词的值信息,可通过关键词信息获得对应的值信息。判断时,具体判断键值对数据库中的关键词是否包含关键词库中的所需关键词。再通过步骤104,若判定键值对数据库中的关键词包含关键词库中的所需关键词,则根据所需关键词获取对应的值信息,再将所需关键词和对应的值信息保存到一定格式的索引文件中。最后通过步骤105,将存有所需关键词和对应值信息的索引文件一次性加载到内存中。通过此方案,先将大量数据存储到索引文件中,再通过索引文件一次性加载到内存中,相比较于传统方式中将大量数据逐行读取到内存而言,此方案能加快文件读取的速度,从而缩短数据读取时间。此方案可用于判断文档中的人名、号码是否为本业务中的白名单或者黑名单等应用场景。在一可实施方式中,将关键词和对应值信息保存到索引文件中,包括:将关键词和对应值信息添加到数据结构中;计算关键词的哈希值;将数据结构本文档来自技高网...

【技术保护点】
1.一种文件数据的读取方法,其特征在于:包括:获取文本信息;提取所述文本信息中所需关键词;判断键值对数据库中是否存在对应所提取关键词的值信息;若判定键值对数据库中存在对应所提取关键词的值信息,则将所述关键词和对应值信息保存到索引文件中;将所述索引文件加载到内存中。

【技术特征摘要】
1.一种文件数据的读取方法,其特征在于:包括:获取文本信息;提取所述文本信息中所需关键词;判断键值对数据库中是否存在对应所提取关键词的值信息;若判定键值对数据库中存在对应所提取关键词的值信息,则将所述关键词和对应值信息保存到索引文件中;将所述索引文件加载到内存中。2.根据权利要求1所述的方法,其特征在于,将所述关键词和对应值信息保存到索引文件中,包括:将所述关键词和对应值信息添加到数据结构中;计算所述关键词的哈希值;将所述数据结构根据所述哈希值进行排序;将排序后所述数据结构存储到索引文件中。3.根据权利要求2所述的方法,其特征在于,将排序后所述数据结构存储到索引文件中,包括:采用二进制格式将排序后所述数据结构存储到索引文件中。4.根据权利要求1或2所述的方法,其特征在于,所述索引文件至少包括头文件信息、一级索引和核心数据;其中,所述头文件信息包括一级索引地址;所述一级索引包括所述关键词的哈希值、关键词索引和值索引;所述核心数据包括关键词数据和值信息数据;所述一级索引地址指向所述一级索引,所述关键词索引指向所述关键词数据,所述值索引指向所述值信息数据。5.根据权利要求4所述的方法,其特征在于:所述一级索引还包括所述关键词字节长度和所述值信息字节长度。6.一种文件数据的查询方法,其特征在于:包括:获取待查关键词;计算所述待查关键词的哈希值;判断索引文件中是否存在所述待查关键词的哈希值;若判定索引文件中存在所述待查关键词的哈希值,则获取对应所述待查关键词的值信息。7.根据权利...

【专利技术属性】
技术研发人员:刘世民
申请(专利权)人:北京泰迪熊移动科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1