一种检索方法、装置、电子设备及计算机存储介质制造方法及图纸

技术编号：31794485 阅读：27 留言：0更新日期：2022-01-08 10:53

本申请实施例公开了一种检索方法、装置、电子设备及计算机存储介质，其中，所述方法包括：根据至少一个检索词，从预设的文档数据库中检索出候选文档集；获取所述候选文档集的每一候选文档的目标文档得分，其中，所述每一候选文档的目标文档得分是基于对所述检索词的词频做对数操作确定的；基于所述候选文档集的每一候选文档的目标文档得分对所述候选文档集的每一候选文档进行排序，得到排序后的候选文档集；基于所述排序后的候选文档集，输出检索结果。索结果。索结果。

全部详细技术资料下载

【技术实现步骤摘要】
一种检索方法、装置、电子设备及计算机存储介质

[0001]本申请实施例涉及互联网服务
，涉及但不限于一种检索方法、装置、电子设备及计算机存储介质。

技术介绍

[0002]现有技术中基于词频
‑
逆文本频率指数(Term Frequency
–
Inverse Document Frequency，TF
‑
IDF)算法完成的检索排名，提供了一种从宏观角度的表示词汇权重的通用策略。由于词频计算采用了直接线性乘的方式，倾向于赋予高频词汇更高得分，进而导致用户同时输入高频词汇和低频词汇的情况下返回的结果仍然都是侧重于包含高频词汇的案例，容易造成排名不合理的现象。

技术实现思路

[0003]有鉴于此，本申请实施例提供一种检索方法、装置、电子设备及计算机存储介质。
[0004]本申请实施例的技术方案是这样实现的：
[0005]第一方面，本申请实施例提供一种检索方法包括：根据至少一个检索词，从预设的文档数据库中检索出候选文档集；获取所述候选文档集的每一候选文档的目标文档得分，其中，所述每一候选文档的目标文档得分是基于对所述检索词的词频做对数操作确定的；基于所述候选文档集的每一候选文档的目标文档得分对所述候选文档集的每一候选文档进行排序，得到排序后的候选文档集；基于所述排序后的候选文档集，输出检索结果。
[0006]第二方面，本申请实施例提供一种检索装置所述装置包括：检索模块，用于根据至少一个检索词，从预设的文档数据库中检索出候选文档集；...

【技术保护点】

【技术特征摘要】
1.一种检索方法，其特征在于，所述方法包括：根据至少一个检索词，从预设的文档数据库中检索出候选文档集；获取所述候选文档集的每一候选文档的目标文档得分，其中，所述每一候选文档的目标文档得分是基于对所述检索词的词频做对数操作确定的；基于所述候选文档集的每一候选文档的目标文档得分对所述候选文档集的每一候选文档进行排序，得到排序后的候选文档集；基于所述排序后的候选文档集，输出检索结果。2.如权利要求1所述的方法，其特征在于，在所述根据至少一个检索词，从预设的文档数据库中检索出候选文档集之前，所述方法还包括：对所述预设的文档数据库中的每一文档进行分词操作，得到每一所述文档对应的目标分词集合；对所述目标分词集合中的每一分词的词频做对数操作，和对每一所述分词做逆文本频率指数操作确定每一所述分词的第一分词得分；对应地，所述获取所述候选文档集的每一候选文档的目标文档得分，包括：获取每一所述候选文档中与所述检索词匹配的至少一个分词的第一分词得分；将每一所述候选文档中至少一个分词的第一分词得分进行加和操作，得到每一所述候选文档的目标文档得分。3.如权利要求2所述的方法，其特征在于，所述方法还包括：将每一所述分词的第一分词得分与对应分词的位置权重相乘，得到每一所述分词的第二分词得分；对应地，所述获取所述候选文档集的每一候选文档的目标文档得分，包括：获取每一所述候选文档中与所述检索词匹配的至少一个分词的第二分词得分；将每一所述候选文档中至少一个分词的第二分词得分进行加和操作，得到每一所述候选文档的目标文档得分。4.如权利要求3所述的方法，其特征在于，所述方法还包括：将每一所述分词的第二分词得分与对应分词的关键词权重相乘，得到每一所述分词的目标分词得分；对应地，所述获取所述候选文档集的每一候选文档的目标文档得分，包括：获取每一所述候选文档中与所述检索词匹配的至少一个分词的目标分词得分；将每一所述候选文档中至少一个分词的目标分词得分进行加和操作，得到每一所述候选文档的目标文档得分。5.如权利要求2至4任一项所述的...

【专利技术属性】
技术研发人员：余显，陈晓帆，陈梓鸿，李德方，
申请(专利权)人：深信服科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人