内容搜索方法技术

技术编号:39816884 阅读:12 留言:0更新日期:2023-12-22 19:35
本申请实施例公开了一种内容搜索方法

【技术实现步骤摘要】
内容搜索方法、装置、计算机设备、存储介质和产品


[0001]本申请涉及通信
,具体涉及一种内容搜索方法

装置

计算机设备

存储介质和产品,其中,存储介质为计算机可读存储介质,产品为计算机程序产品


技术介绍

[0002]在内容搜索场景中,可以根据用户输入的内容进行搜索,并将搜索结果返回给用户,通常可以采用方案一:整体模糊搜索方案,将用户的完整输入信息作为单一条件进行搜索,只有包含需要完整的用户输入信息的内容才能被搜索到,搜索效果一般,需要用户输入准确的信息,任何错误的输入都会导致搜索结果不准确,或者出现搜索结果不存在

也可以采用方案二:普通分词搜索方案,同样基于分词进行搜索,能够搜索到包含有该分词的内容,用户输入的有效信息越多,搜索效果越好,但对用户输入的规范性有一定要求,若用户使用简称进行搜索,则效果较差,准确性不高


技术实现思路

[0003]本申请实施例提供一种内容搜索方法

装置

计算机设备

存储介质和产品,降低对查询文本输入准确性的要求,提高内容搜索的准确性

[0004]本申请实施例提供的一种内容搜索方法,包括:
[0005]获取查询文本,所述查询文本包括至少两个查询关键词;
[0006]基于所述查询关键词对预设的多个索引集合进行查询,确定包含有第一查询关键词的目标索引集合,和未查询到对应索引集合的第二查询关键词,所述第一查询关键词和所述第二查询关键词包含于所述查询关键词中;
[0007]从与所述目标索引集合具有对应关系的候选搜索内容中,筛选所述查询文本的期望搜索内容;
[0008]对所述第二查询关键词和所述期望搜索内容包含的内容分词之间的相似度进行计算,得到集合反馈数据;
[0009]根据所述集合反馈数据将所述第二查询关键词更新至所述期望搜索内容对应的目标索引集合中,得到更新后索引集合,以便通过所述第二查询关键词搜索到与所述更新后索引集合匹配的候选搜索内容

[0010]相应的,本申请实施例还提供的一种内容搜索装置,包括:
[0011]获取单元,用于获取与查询文本,所述查询文本包括至少两个查询关键词;
[0012]查询单元,用于基于所述查询关键词对预设的多个索引集合进行查询,确定包含有第一查询关键词的目标索引集合,和未查询到对应索引集合的第二查询关键词,所述第一查询关键词和所述第二查询关键词包含于所述查询关键词中;
[0013]筛选单元,用于从与所述目标索引集合具有对应关系的所述候选搜索内容中,筛选所述查询文本的期望搜索内容;
[0014]生成单元,用于对所述第二查询关键词和所述期望搜索内容包含的内容分词之间
的相似度进行计算,得到集合反馈数据;
[0015]更新单元,用于根据所述集合反馈数据将所述第二查询关键词更新至所述期望搜索内容对应的目标索引集合中,得到更新后索引集合,以便通过所述第二查询关键词搜索到与所述更新后索引集合匹配的候选搜索内容

[0016]在一实施例中,所述生成单元,包括:
[0017]分词子单元,用于对所述期望搜索内容进行分词处理,得到至少一个内容分词;
[0018]组合子单元,用于针对每个第二查询关键词,将所述第二查询关键词与每个内容分词进行组合,得到与每个所述第二查询关键词关联的多个同义词组;
[0019]计算子单元,用于计算所述同义词组中包含的第二关键词与内容分词之间的相似度,得到所述同义词组的相似度;
[0020]数据作为子单元,用于将所述同义词组和所述同义词组的相似度作为所述集合反馈数据

[0021]在一实施例中,所述更新单元,包括:词组作为子单元,用于针对每个第二查询关键词,将所述相似度满足预设条件的同义词组作为所述第二查询关键词的目标同义词组;
[0022]添加子单元,用于将所述第二查询关键词添加至所述目标同义词组中内容分词所在的目标索引集合,得到所述更新后索引集合

[0023]在一实施例中,所述添加子单元,包括:
[0024]词组获取模块,用于获取所述第二查询关键词的历史目标同义词组;
[0025]统计模块,用于对所述目标同义词组和所述历史目标同义词组进行数据统计,得到统计结果;
[0026]分词确定模块,用于根据所述统计结果,从所述目标同义词组和所述历史目标同义词组包含的内容分词中确定目标内容分词;
[0027]集合更新模块,用于将所述第二查询关键词添加至所述目标内容分词所在的目标索引集合,得到所述更新索引集合

[0028]在一实施例中,所述筛选单元,包括:
[0029]数据统计子单元,用于对所述候选搜索内容进行数据统计,得到每个候选搜索内容的被查询次数;
[0030]选择子单元,用于根据所述被查询次数从所述候选搜索内容中选择目标搜索内容;
[0031]内容确定子单元,用于根据针对所述目标搜索内容的内容选择操作,从所述目标搜索内容中确定期望搜索内容

[0032]在一实施例中,所述内容搜索装置还包括:
[0033]索引分词单元,用于获取多个候选搜索内容,并对所述候选搜索内容进行分词处理,得到多个索引分词;
[0034]识别单元,用于对所述索引分词进行索引同义词识别,得到索引集合;
[0035]映射单元,用于将所述索引集合和所述候选搜索内容进行映射,得到具有映射关系的候选搜索内容和索引集合

[0036]在一实施例中,所述识别单元,包括:
[0037]内容获取单元,用于获取与所述候选搜索内容相关的组成内容;
[0038]同义扩展单元,用于根据所述组成内容的文本规则对所述组成内容进行同义扩展,得到所述组成内容的扩展内容集合;
[0039]同义词识别单元,用于根据所述扩展内容集合对所述索引分词进行同义词识别,得到索引集合

[0040]相应的,本申请实施例还提供的一种计算机设备,包括存储器和处理器;所述存储器存储有计算机程序,所述处理器用于运行所述存储器内的计算机程序,以执行本申请实施例提供的任一种内容搜索方法

[0041]相应的,本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质用于存储计算机程序,所述计算机程序被处理器加载以执行本申请实施例提供的任一种内容搜索方法

[0042]相应的,本申请实施例还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现本申请实施例提供的任一种内容搜索方法

[0043]由上可知,本申请实施例通过获取查询文本,查询文本包括至少两个查询关键词;基于查询关键词对预设的多个索引集合进行查询,确定包含有第一查询关键词本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种内容搜索方法,其特征在于,包括:获取查询文本,所述查询文本包括至少两个查询关键词;基于所述查询关键词对预设的多个索引集合进行查询,确定包含有第一查询关键词的目标索引集合,和未查询到对应索引集合的第二查询关键词,所述第一查询关键词和所述第二查询关键词包含于所述查询关键词中;从与所述目标索引集合具有对应关系的候选搜索内容中,筛选所述查询文本的期望搜索内容;对所述第二查询关键词和所述期望搜索内容包含的内容分词之间的相似度进行计算,得到集合反馈数据;根据所述集合反馈数据将所述第二查询关键词更新至所述期望搜索内容对应的目标索引集合中,得到更新后索引集合,以便通过所述第二查询关键词搜索到与所述更新后索引集合匹配的候选搜索内容
。2.
根据权利要求1所述的方法,其特征在于,所述对所述第二查询关键词和所述期望搜索内容包含的内容分词之间的相似度进行计算,得到集合反馈数据,包括:对所述期望搜索内容进行分词处理,得到至少一个内容分词;针对每个第二查询关键词,将所述第二关键词与每个内容分词进行组合,得到与所述第二查询关键词关联的多个同义词组;计算所述同义词组中包含的第二关键词与内容分词之间的相似度,得到所述同义词组的相似度;将所述同义词组和所述同义词组的相似度作为所述集合反馈数据
。3.
根据权利要求1所述的方法,其特征在于,所述根据所述集合反馈数据将所述第二查询关键词更新至所述期望搜索内容对应的目标索引集合中,得到更新后索引集合,包括:针对每个第二查询关键词,将所述相似度满足预设条件的同义词组作为所述第二查询关键词的目标同义词组;将所述第二查询关键词添加至所述目标同义词组中内容分词所在的目标索引集合中,得到所述更新后索引集合
。4.
根据权利要求3所述的方法,其特征在于,所述将所述第二查询关键词添加至所述目标同义词组中内容分词所在的目标索引集合中,得到所述更新后索引集合,包括:获取所述第二查询关键词的历史目标同义词组;对所述目标同义词组和所述历史目标同义词组进行数据统计,得到统计结果;根据所述统计结果,从所述目标同义词组和所述历史目标同义词组包含的内容分词中确定目标内容分词;将所述第二查询关键词添加至所述目标内容分词所在的期目标索引集合中,得到所述更新后索引集合
。5.
根据权利要求1所述的方法,其特征在于,所述从与所述目标索引集合具有对应关系的所述候选搜索内容中,筛选所述查询文本的期望搜索内容,包括:对所述候选搜索内容进行数据统计,得到每个候选搜索内容的被查询次数...

【专利技术属性】
技术研发人员:占浪
申请(专利权)人:深圳市腾讯计算机系统有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1