一种相关检索方法、装置和设备制造方法及图纸

技术编号:28558728 阅读:54 留言:0更新日期:2021-05-25 17:53
本说明书实施例提供了一种相关检索方法、装置和设备,涉及大数据技术领域,其中,该方法包括:确定用户输入的检索内容的目标检索关键词;获取目标关联数据集;其中,所述目标关联数据集是利用关联分析算法构建的,所述关联数据集中包含多组数据,每组数据中包含一个关键词和对应的至少一个相关关键词;基于所述目标关联数据集,确定所述目标检索关键词对应的目标相关关键词;利用所述目标检索关键词和所述目标相关关键词进行检索,得到多个检索结果。在本说明书实施例中,可以利用目标相关关键词检索到未包含目标检索关键词的相关内容,有效提高了检索结果的全面性,可以为用户更准确地查询到相关的检索结果,提高了用户体验感。

【技术实现步骤摘要】
一种相关检索方法、装置和设备
本说明书实施例涉及大数据
,特别涉及一种相关检索方法、装置和设备。
技术介绍
目前在大数据中进行检索时,主要是根据用户输入的内容的对关键词进行模糊匹配,但是采用这种方式进行检索容易遗漏未包含关键词的相关内容。因此,采用现有技术中的检索方案无法全面地检索到与用户输入的内容相关的信息。针对上述问题,目前尚未提出有效的解决方案。
技术实现思路
本说明书实施例提供了一种相关检索方法、装置和设备,以解决现有技术中无法全面地检索到与用户输入的内容相关的信息的问题。本说明书实施例提供了一种相关检索方法,包括:确定用户输入的检索内容的目标检索关键词;获取目标关联数据集;其中,所述目标关联数据集是利用关联分析算法构建的,所述关联数据集中包含多组数据,每组数据中包含一个关键词和对应的至少一个相关关键词;基于所述目标关联数据集,确定所述目标检索关键词对应的目标相关关键词;利用所述目标检索关键词和所述目标相关关键词进行检索,得到多个检索结果。本说明书实施例还提供了一种相关检索装置,包括:第一确定模块,用于确定用户输入的检索内容的目标检索关键词;获取模块,用于获取目标关联数据集;其中,所述目标关联数据集是利用关联分析算法构建的,所述关联数据集中包含多组数据,每组数据中包含一个关键词和对应的至少一个相关关键词;第二确定模块,用于基于所述目标关联数据集,确定所述目标检索关键词对应的目标相关关键词;检索模块,用于利用所述目标检索关键词和所述目标相关关键词进行检索,得到多个检索结果。本说明书实施例还提供了一种相关检索设备,包括处理器以及用于存储处理器可执行指令的存储器,所述处理器执行所述指令时实现所述相关检索方法的步骤。本说明书实施例还提供了一种计算机可读存储介质,其上存储有计算机指令,所述指令被执行时实现所述相关检索方法的步骤。本说明书实施例提供了一种相关检索方法,可以确定用户输入的检索内容的目标检索关键词,并获取目标关联数据集,其中,上述目标关联数据集是利用关联分析算法构建的。由于关联数据集中包含多组数据,每组数据中包含一个关键词和对应的至少一个相关关键词,因此,可以基于目标关联数据集,确定出目标检索关键词对应的目标相关关键词。进一步的,可以利用目标检索关键词和目标相关关键词进行检索,得到多个检索结果。从而可以利用目标相关关键词检索到未包含目标检索关键词的相关内容,在拓宽了对检索内容观察的视角的同时,有效提高了检索结果的全面性,可以为用户更准确地查询到相关的检索结果,提高了用户体验感。附图说明此处所说明的附图用来提供对本说明书实施例的进一步理解,构成本说明书实施例的一部分,并不构成对本说明书实施例的限定。在附图中:图1是根据本说明书实施例提供的相关检索方法的步骤示意图;图2是根据本说明书实施例提供的相关检索装置的结构示意图;图3是根据本说明书实施例提供的相关检索设备的结构示意图。具体实施方式下面将参考若干示例性实施方式来描述本说明书实施例的原理和精神。应当理解,给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本说明书实施例,而并非以任何方式限制本说明书实施例的范围。相反,提供这些实施方式是为了使本说明书实施例公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。本领域的技术人员知道,本说明书实施例的实施方式可以实现为一种系统、装置设备、方法或计算机程序产品。因此,本说明书实施例公开可以具体实现为以下形式,即:完全的硬件、完全的软件(包括固件、驻留软件、微代码等),或者硬件和软件结合的形式。虽然下文描述流程包括以特定顺序出现的多个操作,但是应该清楚了解,这些过程可以包括更多或更少的操作,这些操作可以顺序执行或并行执行(例如使用并行处理器或多线程环境)。请参阅图1,本实施方式可以提供一种相关检索方法。该相关检索方法可以用于全面、准确地检索与用户输入的检索内容相关的信息。上述相关检索方法可以包括以下步骤。S101:确定用户输入的检索内容的目标检索关键词。在本实施方式中,由于用户在进行检索时会在目标搜索引擎相应界面的输入框中输入想要检索的内容,因此,为了确定用户检索的意图,以及提高检索的有效性,可以先确定用户输入的检索内容的目标检索关键词。其中,目标检索关键词可以为一个也可以为多个,具体的可以根据实际情况确定,本说明书实施例对此不作限定。在本实施方式中,用户输入的检索内容可以是一个或多个词,也可以是一句话,也可以是一段话,具体的可以根据实际情况确定,本说明书实施例对此不作限定。由于用户输入的检索内容可能会包含一些冗余信息或者用户输入的检索内容可能无法准确地表达用户的意图,因此,如果直接根据用户输入的检索内进行检索,则无法准确的进行检索。可以先确定检索内容的目标检索关键词,从而确定用户的检索意图。例如,用户输入的检索内容为北京的天气怎么样,目标检索关键词为:北京、天气,可以确定用户是想查询北京的天气情况,有效提高了检索的效率和准确性。S102:获取目标关联数据集;其中,目标关联数据集是利用关联分析算法构建的,关联数据集中包含多组数据,每组数据中包含一个关键词和对应的至少一个相关关键词。在本实施方式中,可以预先获取目标关联数据集,其中,上述目标关联数据集可以用于表征哪些关键词之间具有相关性,上述目标关联数据集可以是利用关联分析算法构建的,关联数据集中可以包含多组数据,每组数据中可以包含一个关键词和对应的至少一个相关关键词。在本实施方式中,上述目标关联数据集可以用于确定一个关键词是否存在相关关键词,以及存在哪些相关关键词。上述目标关联数据可以表格、文本或者图像等形式存储,具体的可以根据实际情况确定,本说明书实施例对此不作限定。在本实施方式中,上述关联分析算法(FP-Growth)的分治策略为:将提供频繁项集的数据库压缩到一棵频繁模式树(FP-tree),但仍保留项集关联信息。频繁模式树是一种特殊的前缀树,由频繁项头表和项前缀树构成,关联分析算法可以基于频繁模式树的结构进行挖掘。在本实施方式中,获取目标关联数据集的方式可以包括:从预设数据库中拉取得到。当然可以理解的是,还可以采用其它可能的方式获取上述样本数据集,例如,可以按照预设路径查询得到,具体的可以根据实际情况确定,本说明书实施例对此不作限定。S103:基于目标关联数据集,确定目标检索关键词对应的目标相关关键词。在本实施方式中,可以基于上述目标关联数据集,确定出目标检索关键词对应的目标相关关键词。其中,目标检索关键词对应的目标相关关键词可以为一个也可以为多个,在一些情况下目标检索关键词也可以不存在相关关键词,具体的可以根据实际情况确定,本说明书实施例对此不作限定。在本实施方式中,可以根据目标关联数据集中记录的关键词对应的相关关键词,确定目标检索关键词的目标相关关键词,从而可以确定出目标检索关键词其它的表述词汇或者与其相关的本文档来自技高网...

【技术保护点】
1.一种相关检索方法,其特征在于,包括:/n确定用户输入的检索内容的目标检索关键词;/n获取目标关联数据集;其中,所述目标关联数据集是利用关联分析算法构建的,所述关联数据集中包含多组数据,每组数据中包含一个关键词和对应的至少一个相关关键词;/n基于所述目标关联数据集,确定所述目标检索关键词对应的目标相关关键词;/n利用所述目标检索关键词和所述目标相关关键词进行检索,得到多个检索结果。/n

【技术特征摘要】
1.一种相关检索方法,其特征在于,包括:
确定用户输入的检索内容的目标检索关键词;
获取目标关联数据集;其中,所述目标关联数据集是利用关联分析算法构建的,所述关联数据集中包含多组数据,每组数据中包含一个关键词和对应的至少一个相关关键词;
基于所述目标关联数据集,确定所述目标检索关键词对应的目标相关关键词;
利用所述目标检索关键词和所述目标相关关键词进行检索,得到多个检索结果。


2.根据权利要求1所述的方法,其特征在于,在获取目标关联数据集之前,还包括:
确定目标数据库中记录的各个内容对应的关键词;
建立所述各个内容与关键词之间的对应关系;
根据所述各个内容与关键词之间的对应关系,设置目标支持度;
利用关联分析算法,根据所述目标支持度构建各个关键词的频繁模式树;其中,所述频繁模式树中的每个节点表征一个关键词;
基于所述频繁模式树构建所述目标关联数据集。


3.根据权利要求2所述的方法,其特征在于,基于所述频繁模式树构建所述目标关联数据集,包括:
基于所述频繁模式树筛选出各个关键词的相关关键词;
建立各个关键词与相关关键词之间的对应关系,得到初始关联数据集;
获取相关词评分表;其中,所述相关词评分表用于表征任意两个关键词之间的相关度;
基于所述相关词评分表,对所述初始关联数据集进行优化处理,得到目标关联数据集;其中,所述优化处理包括添加相关关键词和删除相关关键词。


4.根据权利要求2所述的方法,其特征在于,确定目标数据库中记录的各个内容对应的关键词,包括:
在确定所述目标数据库中记录的目标内容有对应的关键词行的情况下,获取所述目标内容对应的关键词行;
对所述目标内容对应的关键词行进行预处理,得到所述目标内容对应的关键词;其中,所述预处理包括:根据分隔符拆分关键词行为多个关键词;
在确定所述目标数据库中记录的目标内容没有对应的关键词行的情况下,获取所述目标内容;
对所述目标内容进行预处理,得到所述目标内容对应的关键词;其中,所述预处理包括:分词和去停用词。


5.根据权利要求3所述的方法,其特征在于,基于所述相关词评分表,对所述初始关联数据集进行优化处理,得到目标关联数据集,包括:
基于所述相关词评分表,确定所述初始关联数据集中目标关键词对应的各个相关关键词的得分;
在目标关键词对应的第一相关关键词的得分小于等于第一预设阈值的情况下,删除所述第一相关关键词;
在所述相关词评分表中与所述目标关键词的相关度大于等于第二预设阈值的第二相关关键词在所述初始关联数据集中不存在的情况下,将所述第二相关关键词添加至与所述目标关键词对应的相关关键词中,得到所述目标关联数据集。


6.根据权利要求1所述的方法,其特征在于,在利用所述目标检索关键词和所述目标相关关键词进行检索,得到多个检索结果之后,还包括:
计算各个检索结果与所述目标检索关键词和所述目标相关关键词的相关程度;
根据所述各个检索结果与所述目标检索关键词和所述目标相关关键词的相关程度,对所述各个检索结果进行降序排列;
将降序排列后的各个检索结果展示给...

【专利技术属性】
技术研发人员:兰亭徐琳玲张闯强锋
申请(专利权)人:中国工商银行股份有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1