【技术实现步骤摘要】
数据处理方法、装置、设备,及计算机可读存储介质
[0001]本申请属于计算机
,尤其涉及一种数据处理方法、装置、设备,及计算机可读存储介质。
技术介绍
[0002]目前,随着计算机技术的发展,搜索引擎已经成为人们获取信息的主要方式,用户在使用搜索引擎查询信息时,通常依赖用户的查询信息与文档内容中的词语的重合度以及词语的重复数量直接确定查询信息与文档的匹配度,进而确定查询信息对应的召回文档,确定查询信息与文档的匹配度的方式较单一,确定出的召回文档与查询信息的匹配度较低。
技术实现思路
[0003]本申请实施例提供一种与现有技术不同的实现方案,以解决现有方案确定出的召回文档与查询信息的匹配度较低的技术问题。
[0004]第一方面,本申请提供一种数据处理方法,包括:
[0005]获取用户的查询信息对应的备选文档集;
[0006]对所述备选文档集中的各备选文档进行分析,确定所述各备选文档对应的主题词组,得到所述备选文档集对应的主题词组集;
[0007]确定所述查询信息针对所述备选 ...
【技术保护点】
【技术特征摘要】
1.一种数据处理方法,其特征在于,包括:获取用户的查询信息对应的备选文档集;对所述备选文档集中的各备选文档进行分析,确定所述各备选文档对应的主题词组,得到所述备选文档集对应的主题词组集;确定所述查询信息针对所述备选文档集中各备选文档的相关信息,得到所述查询信息针对所述备选文档集的相关信息集,所述相关信息为备选文档对应的多个查询项中,与所述查询信息的相似度值大于预设相似度值的查询项;根据所述备选文档集,所述主题词组集,以及所述相关信息集确定所述查询信息对应的目标召回结果。2.根据权利要求1所述的方法,其特征在于,根据所述备选文档集,所述主题词组集,以及所述相关信息集确定所述查询信息对应的目标召回结果包括:针对所述备选文档集中的各备选文档,利用备选文档对应的主题词组以及所述查询信息针对所述备选文档对应的相关信息,确定所述查询信息与所述备选文档的匹配度信息,得到所述备选文档集对应的多个匹配度信息;基于所述备选文档集与所述多个匹配度信息确定所述查询信息对应的目标召回结果。3.根据权利要求2所述的方法,其特征在于,针对所述各备选文档,对备选文档进行分析,确定所述备选文档对应的主题词组,包括:将所述备选文档,输入预设的LDA模型,确定所述备选文档对应的分析结果,所述分析结果包括所述备选文档对应的主题词组。4.根据权利要求3所述的方法,其特征在于,针对所述各备选文档,利用备选文档对应的主题词组以及所述查询信息针对所述备选文档的相关信息,确定所述查询信息与所述备选文档的匹配度信息包括:若所述相关信息与所述主题词组满足第一预设条件,则根据所述第一预设条件确定所述匹配度信息;若所述相关信息与所述主题词组不满足所述第一预设条件,则获取所述备选文档对应的标题信息,并基于所述查询信息与所述标题信息确定所述匹配度信息。5.根据权利要求4所述的方法,其特征在于,基于所述查询信息与所述标题信息确定所述匹配度信息包括:当所述查询信息与所述标题信息的匹配度大于预设匹配度时,基于所述预设匹配度确定所述匹配度信息。6.根据权利要求5所述的方法,其特征在于,所述分析结果还包括所述主题词组与所述备选文档的相关度值,所述方法还包括:确定所述查询信息与所述主题词组是否满足第二预设条件,...
【专利技术属性】
技术研发人员:刘月,
申请(专利权)人:北京字跳网络技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。