搜索结果过滤方法、装置,及电子设备制造方法及图纸

技术编号:37344195 阅读:24 留言:0更新日期:2023-04-22 21:36
本申请公开了一种搜索结果过滤方法、装置、电子设备,属于计算机技术领域。所述方法包括:通过获取待过滤搜索结果;对所述待过滤搜索结果进行分词处理,获取待匹配分词集合;获取与所述待过滤搜索结果匹配的搜索目标所关联的隐藏关键词集合;根据所述隐藏关键词集合和所述待匹配分词集合,对所述待过滤搜索结果进行过滤,得到与所述搜索目标匹配的所述搜索结果。本方法通过预先推导得到的隐藏关键词集合,用于对搜索结果自动进行进一步过滤,充分利用了搜索目标关注的数据隐藏特征,不但提升了搜索结果的过滤效率,而且,提升了搜索结果过滤的准确率。过滤的准确率。过滤的准确率。

【技术实现步骤摘要】
搜索结果过滤方法、装置,及电子设备


[0001]本申请涉及计算机
,特别是涉及搜索结果过滤方法、装置,及电子设备及计算机可读存储介质。

技术介绍

[0002]在数据挖掘,信息收集类任务中,往往需要利用一些特定的关键词汇进行搜索和匹配,由于现阶段搜索引擎以及数据仓库的智能算法的限制,通过关键词搜索得到的内容中有部分信息是和目标任务无关的信息。现有技术中,对于搜索结果进行过滤主要包括关键词过滤和人工过滤。通过关键词匹配的方式对搜索结果进行过滤准确率过低,而通过人工对搜索结果进行过滤,耗时耗力。
[0003]综上所述,需要一种准确、高效的搜索结果过滤方法,对搜索结果进行过滤。

技术实现思路

[0004]本申请实施例提供一种搜索结果过滤方法、装置,及电子设备,可以解决在无关搜索结果过滤方面的人工成本高、效率低,以及,准确率低的问题。
[0005]第一方面,本申请实施例公开了一种搜索结果过滤方法,包括:
[0006]获取待过滤搜索结果;
[0007]对所述待过滤搜索结果进行分词处理,获取待匹配分词集合;
[0008]获取与所述待过滤搜索结果匹配的搜索目标所关联的隐藏关键词集合;
[0009]根据所述隐藏关键词集合和所述待匹配分词集合,对所述待过滤搜索结果进行过滤,得到与所述搜索目标匹配的所述搜索结果。
[0010]可选的,所述隐藏关键词集合是通过以下方法预先推导得到的:
[0011]获取与所述搜索目标对应的正样本集合和负样本集合;
[0012]对所述正样本集合和所述负样本集合中的样本进行分词处理,得到样本分词集合;
[0013]以所述样本分词集合作为搜索关键词的集合,通过预设贝叶斯模型进行反向推导,得到包含在所述正样本集合中且不包含在负样本集合中的隐藏关键词,组成隐藏关键词集合。
[0014]可选的,所述以所述样本分词集合作为搜索关键词的集合,通过预设贝叶斯模型进行反向推导,得到包含在所述正样本集合中且不包含在负样本集合中的隐藏关键词,组成隐藏关键词集合,包括:
[0015]以所述样本分词集合作为搜索关键词的集合;
[0016]通过预设贝叶斯模型反向推导在所述正样本集合中所述搜索关键词出现的条件下出现概率最大的候选关键词,作为第一候选隐藏关键词;
[0017]通过所述预设贝叶斯模型反向推导在所述负样本集合中所述搜索关键词出现的条件下出现概率最大的候选关键词,作为第二候选隐藏关键词;
[0018]将位于所述第一候选隐藏关键词和所述第二候选隐藏关键词的交集以外的所述第一候选隐藏关键词,作为隐藏关键词,组成隐藏关键词集合。
[0019]可选的,所述通过预设贝叶斯模型反向推导在所述正样本集合中所述搜索关键词出现的条件下出现概率最大的候选关键词,作为第一候选隐藏关键词,包括:
[0020]获取候选关键词在样本集合中出现的第一概率,其中,所述样本集合包括:所述正样本集合和所述负样本集合;
[0021]获取在所述正样本集合中出现所述候选关键词的条件下,所述搜索关键词出现的第二概率;
[0022]根据所述第一概率的对数值和所述第二概率的对数值之和,得到所述候选关键词对应的第一对数概率;
[0023]将使得所述第一对数概率最大的所述候选关键词,作为第一候选隐藏关键词。
[0024]可选的,所述通过所述预设贝叶斯模型反向推导在所述负样本集合中所述搜索关键词出现的条件下出现概率最大的候选关键词,作为第二候选隐藏关键词,包括:
[0025]获取候选关键词在样本集合中出现的第三概率,其中,所述样本集合包括:所述正样本集合和所述负样本集合;
[0026]获取在所述负样本集合中出现所述候选关键词的条件下,所述搜索关键词出现的第四概率;
[0027]根据所述第三概率的对数值和所述第四概率的对数值之和,得到所述候选关键词对应的第二对数概率;
[0028]将使得所述第二对数概率最大的所述候选关键词,作为第二候选隐藏关键词。
[0029]可选的,所述对所述正样本集合和所述负样本集合中的样本进行分词处理,得到样本分词集合,包括:
[0030]对所述正样本集合和所述负样本集合中的样本进行分词处理,得到若干候选样本分词;
[0031]基于所述正样本集合和所述负样本集合,计算各所述候选样本分词的逆文本词频;
[0032]选择所述逆文本词频大于预设词频阈值的所述候选样本分词,构成样本分词集合。
[0033]可选的,所述根据所述隐藏关键词集合和所述待匹配分词集合,对所述待过滤搜索结果进行过滤,得到与所述搜索目标匹配的所述搜索结果,包括:
[0034]获取所述隐藏关键词集合和所述待匹配分词集合的交集,作为交集关键词;
[0035]根据所述交集关键词在所述隐藏关键词集合中的占比,获取所述待过滤搜索结果与所述搜索目标的匹配度预测值;
[0036]根据所述匹配度预测值对所述待过滤搜索结果进行过滤,得到与所述搜索目标匹配的所述搜索结果。
[0037]第二方面,本申请实施例公开了一种搜索结果过滤装置,包括:
[0038]待过滤搜索结果获取模块,用于获取待过滤搜索结果;
[0039]待匹配分词集合获取模块,用于对所述待过滤搜索结果进行分词处理,获取待匹配分词集合;
[0040]隐藏关键词集合获取模块,用于获取与所述待过滤搜索结果匹配的搜索目标所关联的隐藏关键词集合;
[0041]搜索结果过滤模块,用于根据所述隐藏关键词集合和所述待匹配分词集合,对所述待过滤搜索结果进行过滤,得到与所述搜索目标匹配的所述搜索结果。
[0042]可选的,所述装置还包括:隐藏关键词集合推导模块,所述隐藏关键词集合推导模块用于通过以下方法预先推导得到所述隐藏关键词集合:
[0043]获取与所述搜索目标对应的正样本集合和负样本集合;
[0044]对所述正样本集合和所述负样本集合中的样本进行分词处理,得到样本分词集合;
[0045]以所述样本分词集合作为搜索关键词的集合,通过预设贝叶斯模型进行反向推导,得到包含在所述正样本集合中且不包含在负样本集合中的隐藏关键词,组成隐藏关键词集合。
[0046]可选的,所述以所述样本分词集合作为搜索关键词的集合,通过预设贝叶斯模型进行反向推导,得到包含在所述正样本集合中且不包含在负样本集合中的隐藏关键词,组成隐藏关键词集合,包括:
[0047]以所述样本分词集合作为搜索关键词的集合;
[0048]通过预设贝叶斯模型反向推导在所述正样本集合中所述搜索关键词出现的条件下出现概率最大的候选关键词,作为第一候选隐藏关键词;
[0049]通过所述预设贝叶斯模型反向推导在所述负样本集合中所述搜索关键词出现的条件下出现概率最大的候选关键词,作为第二候选隐藏关键词;
[0050]将位于所述第一候选隐藏关键词和所述第二候选隐藏关键词的交集以外本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种搜索结果过滤方法,其特征在于,包括:获取待过滤搜索结果;对所述待过滤搜索结果进行分词处理,获取待匹配分词集合;获取与所述待过滤搜索结果匹配的搜索目标所关联的隐藏关键词集合;根据所述隐藏关键词集合和所述待匹配分词集合,对所述待过滤搜索结果进行过滤,得到与所述搜索目标匹配的所述搜索结果。2.根据权利要求1所述的方法,其特征在于,所述隐藏关键词集合是通过以下方法预先推导得到的:获取与所述搜索目标对应的正样本集合和负样本集合;对所述正样本集合和所述负样本集合中的样本进行分词处理,得到样本分词集合;以所述样本分词集合作为搜索关键词的集合,通过预设贝叶斯模型进行反向推导,得到包含在所述正样本集合中且不包含在负样本集合中的隐藏关键词,组成隐藏关键词集合。3.根据权利要求2所述的方法,其特征在于,所述以所述样本分词集合作为搜索关键词的集合,通过预设贝叶斯模型进行反向推导,得到包含在所述正样本集合中且不包含在负样本集合中的隐藏关键词,组成隐藏关键词集合,包括:以所述样本分词集合作为搜索关键词的集合;通过预设贝叶斯模型反向推导在所述正样本集合中所述搜索关键词出现的条件下出现概率最大的候选关键词,作为第一候选隐藏关键词;通过所述预设贝叶斯模型反向推导在所述负样本集合中所述搜索关键词出现的条件下出现概率最大的候选关键词,作为第二候选隐藏关键词;将位于所述第一候选隐藏关键词和所述第二候选隐藏关键词的交集以外的所述第一候选隐藏关键词,作为隐藏关键词,组成隐藏关键词集合。4.根据权利要求3所述的方法,其特征在于,所述通过预设贝叶斯模型反向推导在所述正样本集合中所述搜索关键词出现的条件下出现概率最大的候选关键词,作为第一候选隐藏关键词,包括:获取候选关键词在样本集合中出现的第一概率,其中,所述样本集合包括:所述正样本集合和所述负样本集合;获取在所述正样本集合中出现所述候选关键词的条件下,所述搜索关键词出现的第二概率;根据所述第一概率的对数值和所述第二概率的对数值之和,得到所述候选关键词对应的第一对数概率;将使得所述第一对数概率最大的所述候选关键词,作为第一候选隐藏关键词。5.根据权利要求3所述的方法,其特征在于,所述通过所述预设贝叶斯模型反向推导在所述负样本集合中所述搜索关键词出现的条件下出现概率最大的候选关键词,作为第二候选隐藏关键词,包括:获取候选关键词在样本集合中出现的第三概率,其中,所述样本集合包括:所述正样本集合和所述负样本集合;获取在所述负样本集合中出现所述候选关键词的条件下,所...

【专利技术属性】
技术研发人员:曾悦陈舒陈鑫涛林吟燊
申请(专利权)人:中国电信股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1