关键信息的展示方法、系统、计算机设备及可读存储介质技术方案

技术编号:31583812 阅读:19 留言:0更新日期:2021-12-25 11:28
本发明专利技术提供了一种关键信息的展示方法,所述展示方法包括:对用户输入的关键词进行搜索,以获取与关键词关联的多个文档;对多个文档进行分词处理,获取到多个目标单词;在哈希加链表中查询各个目标单词的目标数据结果集;根据各个目标单词及各个目标单词的目标数据结果集,构建倒排索引表;根据各个目标单词在哈希加链表中的出现频数及权重值,对倒排索引表中的各个目标单词排序;根据排序结果,对高于预设阈值的目标单词进行索引以获取多个文档中的多个目标文档,将多个目标文档作为关键信息进行展示;本发明专利技术通过权重值和在哈希加链表出现的频数展示排序靠前的若干个与关键词关联的关键信息,提高了获取关键信息的效率,降低了计算机的能耗。降低了计算机的能耗。降低了计算机的能耗。

【技术实现步骤摘要】
关键信息的展示方法、系统、计算机设备及可读存储介质


[0001]本专利技术涉及人工智能
,尤其涉及关键信息的展示方法、系统、计算机设备及可读存储介质。

技术介绍

[0002]现有的搜索引擎在互联网广泛运用,例如金融领域的银行流水查询、银行交易数据查询等,当用户在搜索引擎上输入关键词,系统根据关键词查询到相关的数据,通过现有的数据挖掘手段和自然语言处理方法,无法针对如文本报告之类的非结构化数据进行精确查询,提取到有价值的数据,而针对此类文本报告,如需提取有价值的信息,往往需要花费海量的筛选才能获取到有用的信息。

技术实现思路

[0003]本专利技术的目的是提供一种关键信息的展示方法、系统、计算机设备及可读存储介质,用于解决以下问题:提高了关键信息的获取效率。
[0004]本专利技术实施例的一个方面提供了一种关键信息的展示方法,所述展示方法包括:
[0005]对用户输入的关键词进行搜索,以获取与所述关键词关联的多个文档;
[0006]对所述多个文档进行分词处理,获取到多个目标单词;
[0007]在哈希加链表中查询各个目标单词的目标数据结果集;所述哈希加链表包括多个指针以及多个冲突链表,每个指针对应于一个冲突链表,每个冲突链表包括哈希值相同的多个单词以及所述多个单词中的各个单词对应的数据结果集;
[0008]根据所述各个目标单词及所述各个目标单词的目标数据结果集,构建倒排索引表;
[0009]获取各个目标单词的权重值,根据所述各个目标单词在所述哈希加链表中的出现频数及权重值,对所述倒排索引表中的各个目标单词排序;
[0010]根据排序结果,对高于预设阈值的目标单词进行索引以获取所述多个文档中的多个目标文档,将所述多个目标文档作为关键信息进行展示。
[0011]可选地,所述数据结果集包括所述各个目标单词对应的文档编号、所述各个目标单词在一个文档中出现的频数以及所述各个目标单词在对应文档中的位置。
[0012]可选地,在所述对所述多个文档进行分词处理,获取到多个目标单词的步骤之后,还包括:根据预设正则表达式对各个目标单词的数据格式进行校验;若目标单词满足预设正则表达式的校验规则,则得到校验成功的结果。
[0013]可选地,所述在哈希加链表中查询各个目标单词的目标数据结果集的步骤,包括:通过哈希函数获取所述各个目标单词的哈希值;在所述哈希加链表中读取所述各个目标单词的哈希值的指针,其中一个哈希值对应一个指针;通过所述各个目标单词的哈希值的指针,定位到所述各个目标单词对应的冲突链表;根据所述各个目标单词对应的冲突链表,获取所述各个目标单词的目标数据结果集。
[0014]可选地,根据所述各个目标单词在所述哈希加链表中的出现频数及权重值,对所述倒排索引表中的各个目标单词排序,对所述倒排索引表中的各个单词排序的步骤,包括:将所述关键词作为聚类中心,计算所述各个目标单词与所述聚类中心的距离;所述各个目标单词与所述聚类中心的距离,将所述多个目标单词划分为第一单词集合和第二单词集合,其中,第一单词集合中的各个目标单词与所述聚类中心的距离小于预设距离,第二单词集合中的各个目标单词与所述聚类中心的距离不小于预设距离;将第一单词集合中的各个目标单词的权重值设置为第一数值;将第二单词集合中的各个目标单词的权重值设置为第二数值,所述第一数值大于所述第二数值;根据所述各个目标单词在所述哈希加链表中出现的频数以及各个单词的权重值,计算所述各个目标单词的重要性排序值;对所述各个目标单词的重要性排序值,对所述各个目标单词进行排序。
[0015]可选地,所述计算所述各个目标单词的重要性排序值的步骤,包括:通过以下公式计算所述各个目标单词的重要性排序值:
[0016]R
i
=σ1M
i
+σ2P
i
[0017]其中,所述R
i
表示单词i的重要性排序值,所述σ1表示所述各个目标单词在所述哈希加链表中出现的频数所占的比重;所述σ2表示所述各个目标单词的权重所占的比重,其中σ1+σ2=1;M
i
表示单词i在所述哈希表中出现的频数;P
i
表示单词i的权重值。
[0018]可选地,所述倒排索引表中包括所述多个目标单词对应的单词编号、所述多个目标单词以及所述各个目标单词对应的目标数据结果集。
[0019]本专利技术实施例的一个方面又提供了一种关键信息的展示系统,所述展示系统包括:
[0020]搜索模块,用于对用户输入的关键词进行搜索,以获取与所述关键词关联的多个文档;
[0021]分词模块,用于对所述多个文档进行分词处理,获取到多个目标单词;
[0022]查询模块,用于在哈希加链表中查询各个目标单词的目标数据结果集;所述哈希加链表包括多个指针以及多个冲突链表,每个指针对应于一个冲突链表,每个冲突链表包括哈希值相同的多个单词以及所述多个单词中的各个单词对应的数据结果集;
[0023]构建模块,用于根据所述各个目标单词及所述各个目标单词的目标数据结果集,构建倒排索引表;
[0024]排序模块,用于获取各个目标单词的权重值,根据所述各个目标单词在所述哈希加链表中的出现频数及权重值,对所述倒排索引表中的各个目标单词排序;
[0025]展示模块,用于根据排序结果,对高于预设阈值的目标单词进行索引以获取所述多个文档中的多个目标文档,将所述多个目标文档作为关键信息进行展示。
[0026]本专利技术实施例的一个方面又提供了一种计算机设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述关键信息的展示方法的步骤。
[0027]本专利技术实施例的一个方面又提供了一种计算机可读存储介质,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述关键信息的展示方法的步骤。
[0028]本专利技术实施例提供的关键信息的展示方法、系统、计算机设备及可读存储介质;本
实施例首先通过关键词进行模糊搜索,获取多个文档,然后通过多个文档更新哈希加链表,通过哈希加链表获取数据结果集,通过数据结果集构建倒排索引表,然后对索引表中的单词进行重要性排序,通过权重值和在哈希加链表出现的频数展示排序靠前的若干个与关键词关联的关键信息,提高了获取关键信息的效率,降低了计算机的能耗。
附图说明
[0029]图1示意性示出了根据本专利技术实施例一的关键信息的展示方法的流程图;
[0030]图2示意性示出了图1中的步骤S102的子步骤图;
[0031]图3示意性示出了图1中的步骤S104的子步骤图;
[0032]图4示意性示出了根据本专利技术实施例二的关键信息的展示系统的框图;及
[0033]图5示意性示出了根据本专利技术实施例三的适于实现关键信息的展示方法的计算机设备的硬件架构示意图。
具体实施方式
[00本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种关键信息的展示方法,其特征在于,所述展示方法包括:对用户输入的关键词进行搜索,以获取与所述关键词关联的多个文档;对所述多个文档进行分词处理,获取到多个目标单词;在哈希加链表中查询各个目标单词的目标数据结果集;所述哈希加链表包括多个指针以及多个冲突链表,每个指针对应于一个冲突链表,每个冲突链表包括哈希值相同的多个单词以及所述多个单词中的各个单词对应的数据结果集;根据所述各个目标单词及所述各个目标单词的目标数据结果集,构建倒排索引表;获取各个目标单词的权重值,根据所述各个目标单词在所述哈希加链表中的出现频数及权重值,对所述倒排索引表中的各个目标单词排序;根据排序结果,对高于预设阈值的目标单词进行索引以获取所述多个文档中的多个目标文档,将所述多个目标文档作为关键信息进行展示。2.根据权利要求1所述的关键信息的展示方法,其特征在于,所述数据结果集包括所述各个目标单词对应的文档编号、所述各个目标单词在一个文档中出现的频数以及所述各个目标单词在对应文档中的位置。3.根据权利要求1所述的关键信息的展示方法,其特征在于,在所述对所述多个文档进行分词处理,获取到多个目标单词的步骤之后,还包括:根据预设正则表达式对各个目标单词的数据格式进行校验;若目标单词满足预设正则表达式的校验规则,则得到校验成功的结果。4.根据权利要求1所述的关键信息的展示方法,其特征在于,所述在哈希加链表中查询各个目标单词的目标数据结果集的步骤,包括:通过哈希函数获取所述各个目标单词的哈希值;在所述哈希加链表中读取所述各个目标单词的哈希值对应的指针,其中一个哈希值对应一个指针;通过所述各个目标单词的哈希值的指针,定位到所述各个目标单词对应的冲突链表;根据所述各个目标单词对应的冲突链表,获取所述各个目标单词的目标数据结果集。5.根据权利要求1所述的关键信息的展示方法,其特征在于,根据所述各个目标单词在所述哈希加链表中的出现频数及权重值,对所述倒排索引表中的各个目标单词排序的步骤,包括:将所述关键词作为聚类中心,计算所述各个目标单词与所述聚类中心的距离;所述各个目标单词与所述聚类中心的距离,将所述多个目标单词划分为第一单词集合和第二单词集合,其中,第一单词集合中的各个目标单词与所述聚类中心的距离小于预设距离,第二单词集合中的各个目标单词与所述聚类中心的距离不小于预设距离;将第一单词集合中的各个目标单词的权重值设置为第一数值;将第二单词集合中的各个目标单词的权重值设置为第二数值,所述第一数值大于所述第二数...

【专利技术属性】
技术研发人员:温永杰袁旭嵩肖丽娜郭玉龙戴伊澜
申请(专利权)人:平安资产管理有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1