一种检索方法、装置、电子设备及计算机存储介质制造方法及图纸

技术编号:31794485 阅读:27 留言:0更新日期:2022-01-08 10:53
本申请实施例公开了一种检索方法、装置、电子设备及计算机存储介质,其中,所述方法包括:根据至少一个检索词,从预设的文档数据库中检索出候选文档集;获取所述候选文档集的每一候选文档的目标文档得分,其中,所述每一候选文档的目标文档得分是基于对所述检索词的词频做对数操作确定的;基于所述候选文档集的每一候选文档的目标文档得分对所述候选文档集的每一候选文档进行排序,得到排序后的候选文档集;基于所述排序后的候选文档集,输出检索结果。索结果。索结果。

【技术实现步骤摘要】
一种检索方法、装置、电子设备及计算机存储介质


[0001]本申请实施例涉及互联网服务
,涉及但不限于一种检索方法、装置、电子设备及计算机存储介质。

技术介绍

[0002]现有技术中基于词频

逆文本频率指数(Term Frequency

Inverse Document Frequency,TF

IDF)算法完成的检索排名,提供了一种从宏观角度的表示词汇权重的通用策略。由于词频计算采用了直接线性乘的方式,倾向于赋予高频词汇更高得分,进而导致用户同时输入高频词汇和低频词汇的情况下返回的结果仍然都是侧重于包含高频词汇的案例,容易造成排名不合理的现象。

技术实现思路

[0003]有鉴于此,本申请实施例提供一种检索方法、装置、电子设备及计算机存储介质。
[0004]本申请实施例的技术方案是这样实现的:
[0005]第一方面,本申请实施例提供一种检索方法包括:根据至少一个检索词,从预设的文档数据库中检索出候选文档集;获取所述候选文档集的每一候选文档的目标文档得分,其中,所述每一候选文档的目标文档得分是基于对所述检索词的词频做对数操作确定的;基于所述候选文档集的每一候选文档的目标文档得分对所述候选文档集的每一候选文档进行排序,得到排序后的候选文档集;基于所述排序后的候选文档集,输出检索结果。
[0006]第二方面,本申请实施例提供一种检索装置所述装置包括:检索模块,用于根据至少一个检索词,从预设的文档数据库中检索出候选文档集;第一获取模块,用于获取所述候选文档集的每一候选文档的目标文档得分,其中,所述每一候选文档的目标文档得分是基于对所述检索词的词频做对数操作确定的;排序模块,用于基于所述候选文档集的每一候选文档的目标文档得分对所述候选文档集的每一候选文档进行排序,得到排序后的候选文档集;输出模块,用于基于所述排序后的候选文档集,输出检索结果。
[0007]第三方面,本申请实施例提供一种电子设备,包括存储器和处理器,所述存储器存储有可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述方法。
[0008]第四方面,本申请实施例提供一种计算机存储介质,存储有可执行指令,用于引起处理器执行时,实现上述方法。
[0009]本申请实施例中,每一文档的目标文档得分是基于对所述检索词的词频做对数操作确定的。这样,可以解决现有技术中由于词频计算采用了直接线性乘的方式,倾向于赋予高频词汇更高得分,进而导致用户同时输入高频词汇和低频词汇的情况下返回的结果仍然都是侧重于包含高频词汇的案例,容易造成排名不合理的现象的问题。在保留了词汇出现次数越多,词频得分越高的同时,抑制了词频得分的增长比,词汇在该文档出现次数越多,词频对得分的影响增长速度会下降。从而可以有效降低高频词汇对检索案例的影响程度,即增加了低频词汇对检索结果的影响力,以使得检索结果的排名更合理。
附图说明
[0010]图1为本申请实施例提供的一种检索方法的实现流程示意图;
[0011]图2A为本申请实施例提供的一种检索方法的实现流程示意图;
[0012]图2B为本申请实施例提供的一种文档组成框架图;
[0013]图3为本申请实施例提供的一种基于强化学习算法的自动词汇权重得分学习机制的实现流程示意图;
[0014]图4A为本申请实施例提供的一种案例检索的流程示意图;
[0015]图4B为本申请实施例提供的一种自定义关键词权重得分计算过程的流程示意图;
[0016]图4C为本申请实施例提供的一种根据用户输入的检索内容计算每个历史案例得分的流程示意图;
[0017]图5为本申请实施例提供的检索装置的组成结构示意图;
[0018]图6为本申请实施例提供的电子设备的一种硬件实体示意图。
具体实施方式
[0019]为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对专利技术的具体技术方案做进一步详细描述。以下实施例用于说明本申请,但不用来限制本申请的范围。
[0020]在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
[0021]在以下的描述中,所涉及的术语“第一\第二\第三”仅仅是是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。
[0022]除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的
的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的,不是旨在限制本申请。
[0023]对本申请实施例进行进一步详细说明之前,对本申请实施例中涉及的名词和术语进行说明,本申请实施例中涉及的名词和术语适用于如下的解释。
[0024]全词匹配:目前的全词匹配普遍在搜索引擎中进行了基础应用,应用模式为搭配倒排索引的方式,前端接收用户输入,将用户输入进行分词后,查询每个词语出现的文档,并按照这些出现位置的文档的命中词语个数降序排序输出返回相应文档给用户。
[0025]TF

IDF:全称Term Frequency

Inverse Document Frequency,是一种用于信息检索与数据挖掘的常用加权技术。TF是词频(Term Frequency),IDF是逆文本频率指数(Inverse Document Frequency)。
[0026]基于TF

IDF的检索排名:在全词匹配搜索的基础上,将所有文档所有词汇应用TF

IDF算法,计算对应的分数,表示每个词汇在文档中的重要程度。将查询后的文档放回给用户前,每个文档各自累加命中词语的TF

IDF分数,再降序输出给用户,这样得到了排名经过权重调整的结果。
[0027]超文本标记语言(Hyper Text Markup Language,HTML):是一种标记语言。包括一系列标签.通过这些标签可以将网络上的文档格式统一,使分散的Internet资源连接为一个逻辑整体。
[0028]自然语言处理(Natural Language Processing,NLP):主要应用于机器翻译、舆情监测、自动摘要、观点提取、文本分类、问题回答、文本语义对比、语音识别、中文光学字符识别等方面。
[0029]下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。
[0030]应当理解,此处所描述的一些实施例仅仅用以解释本申请的技术方案,并不用于限定本申请的技术范围。
[0031]本申请实施例提供的一种检索方法的实现流程示意图,如图1所示,该方法包括本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种检索方法,其特征在于,所述方法包括:根据至少一个检索词,从预设的文档数据库中检索出候选文档集;获取所述候选文档集的每一候选文档的目标文档得分,其中,所述每一候选文档的目标文档得分是基于对所述检索词的词频做对数操作确定的;基于所述候选文档集的每一候选文档的目标文档得分对所述候选文档集的每一候选文档进行排序,得到排序后的候选文档集;基于所述排序后的候选文档集,输出检索结果。2.如权利要求1所述的方法,其特征在于,在所述根据至少一个检索词,从预设的文档数据库中检索出候选文档集之前,所述方法还包括:对所述预设的文档数据库中的每一文档进行分词操作,得到每一所述文档对应的目标分词集合;对所述目标分词集合中的每一分词的词频做对数操作,和对每一所述分词做逆文本频率指数操作确定每一所述分词的第一分词得分;对应地,所述获取所述候选文档集的每一候选文档的目标文档得分,包括:获取每一所述候选文档中与所述检索词匹配的至少一个分词的第一分词得分;将每一所述候选文档中至少一个分词的第一分词得分进行加和操作,得到每一所述候选文档的目标文档得分。3.如权利要求2所述的方法,其特征在于,所述方法还包括:将每一所述分词的第一分词得分与对应分词的位置权重相乘,得到每一所述分词的第二分词得分;对应地,所述获取所述候选文档集的每一候选文档的目标文档得分,包括:获取每一所述候选文档中与所述检索词匹配的至少一个分词的第二分词得分;将每一所述候选文档中至少一个分词的第二分词得分进行加和操作,得到每一所述候选文档的目标文档得分。4.如权利要求3所述的方法,其特征在于,所述方法还包括:将每一所述分词的第二分词得分与对应分词的关键词权重相乘,得到每一所述分词的目标分词得分;对应地,所述获取所述候选文档集的每一候选文档的目标文档得分,包括:获取每一所述候选文档中与所述检索词匹配的至少一个分词的目标分词得分;将每一所述候选文档中至少一个分词的目标分词得分进行加和操作,得到每一所述候选文档的目标文档得分。5.如权利要求2至4任一项所述的...

【专利技术属性】
技术研发人员:余显陈晓帆陈梓鸿李德方
申请(专利权)人:深信服科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1