数据处理方法、装置、设备,及计算机可读存储介质制造方法及图纸

技术编号:33038901 阅读:17 留言:0更新日期:2022-04-15 09:18
本申请公开了一种数据处理方法、装置、设备,及计算机可读存储介质,其中,方法包括:获取用户的查询信息对应的备选文档集;对所述备选文档集中的各备选文档进行分析,确定所述各备选文档对应的主题词组,得到所述备选文档集对应的主题词组集;确定所述查询信息针对所述备选文档集中各备选文档的相关信息,得到所述查询信息针对所述备选文档集的相关信息集,所述相关信息为备选文档对应的多个查询项中,与所述查询信息的相似度值大于预设相似度值的查询项;根据所述备选文档集,所述主题词组集,以及所述相关信息集确定所述查询信息对应的目标召回结果,以提高根据查询信息确定出的召回文档与查询信息的匹配度。回文档与查询信息的匹配度。回文档与查询信息的匹配度。

【技术实现步骤摘要】
数据处理方法、装置、设备,及计算机可读存储介质


[0001]本申请属于计算机
,尤其涉及一种数据处理方法、装置、设备,及计算机可读存储介质。

技术介绍

[0002]目前,随着计算机技术的发展,搜索引擎已经成为人们获取信息的主要方式,用户在使用搜索引擎查询信息时,通常依赖用户的查询信息与文档内容中的词语的重合度以及词语的重复数量直接确定查询信息与文档的匹配度,进而确定查询信息对应的召回文档,确定查询信息与文档的匹配度的方式较单一,确定出的召回文档与查询信息的匹配度较低。

技术实现思路

[0003]本申请实施例提供一种与现有技术不同的实现方案,以解决现有方案确定出的召回文档与查询信息的匹配度较低的技术问题。
[0004]第一方面,本申请提供一种数据处理方法,包括:
[0005]获取用户的查询信息对应的备选文档集;
[0006]对所述备选文档集中的各备选文档进行分析,确定所述各备选文档对应的主题词组,得到所述备选文档集对应的主题词组集;
[0007]确定所述查询信息针对所述备选文档集中各备选文档的相关信息,得到所述查询信息针对所述备选文档集的相关信息集,所述相关信息为备选文档对应的多个查询项中,与所述查询信息的相似度值大于预设相似度值的查询项;
[0008]根据所述备选文档集,所述主题词组集,以及所述相关信息集确定所述查询信息对应的目标召回结果。
[0009]第二方面,本申请提供一种数据处理装置,包括:获取模块、分析模块、第一确定模块,以及第二确定模块;其中:
[0010]获取模块,用于获取用户的查询信息对应的备选文档集;
[0011]分析模块,用于对所述备选文档集中的各备选文档进行分析,确定所述各备选文档对应的主题词组,得到所述备选文档集对应的主题词组集;
[0012]第一确定模块,用于确定所述查询信息针对所述备选文档集中各备选文档的相关信息,得到所述查询信息针对所述备选文档集的相关信息集,所述相关信息为备选文档对应的多个查询项中,与所述查询信息的相似度值大于预设相似度值的查询项;
[0013]第二确定模块,用于根据所述备选文档集,所述主题词组集,以及所述相关信息集确定所述查询信息对应的目标召回结果。
[0014]第三方面,本申请提供一种电子设备,包括:
[0015]处理器;以及
[0016]存储器,用于存储处理器的可执行指令;
[0017]其中,处理器配置为经由执行可执行指令来执行第一方面或第一方面各可能的实施方式中的任一方法。
[0018]第四方面,本申请实施例提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现第一方面或第一方面各可能的实施方式中的任一方法。
[0019]第五方面,本申请实施例提供一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现第一方面或第一方面各可能的实施方式中的任一方法。
[0020]本申请通过获取用户的查询信息对应的备选文档集;对所述备选文档集中的各备选文档进行分析,确定所述各备选文档对应的主题词组,得到所述备选文档集对应的主题词组集;确定所述查询信息针对所述备选文档集中各备选文档的相关信息,得到所述查询信息针对所述备选文档集的相关信息集,所述相关信息为备选文档对应的多个查询项中,与所述查询信息的相似度值大于预设相似度值的查询项;根据所述备选文档集,所述主题词组集,以及所述相关信息集确定所述查询信息对应的目标召回结果的方案,对查询信息的相关信息进行了引入,提出一种新的理念,提出了结合其它维度信息确定查询信息与文档的匹配度的方案,基于对多个维度信息的分析,确定查询信息与文档的匹配度,实现了提高查询信息与召回结果的匹配度的技术效果。
附图说明
[0021]为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
[0022]图1为本申请一实施例提供的数据处理系统的结构示意图;
[0023]图2a为本申请一实施例提供的数据处理方法的流程示意图;
[0024]图2b为本申请一实施例提供的主题词组与相关度信息的确定方式的流程示意图;
[0025]图2c为本申请一实施例提供的标注方法的流程示意图;
[0026]图2d为本申请一实施例提供的数据处理方法的场景性示意图;
[0027]图3为本申请一实施例提供的数据处理装置的结构示意图;
[0028]图4为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
[0029]下面详细描述本申请的实施例,实施例的示例在附图中示出。下面通过参考附图描述的实施例是示例性的,旨在用于解释本申请,而不能理解为对本申请的限制。
[0030]本申请实施例的说明书、权利要求书及附图中的术语“第一”和“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请实施例的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
[0031]首先,下面对本申请实施例中的部分用语进行解释说明,以便于本领域技术人员理解。
[0032]LDA:一种主题模型,可将文档集中每篇文档的主题以概率分布的形式给出,从而通过分析一些文档抽取出其主题(分布),以根据主题(分布)进行主题聚类或文本分类。
[0033]下面以具体的实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本申请的实施例进行描述。
[0034]图1为本申请一示例性实施例提供的一种数据处理系统的结构示意图,该结构包括:目标设备11、服务端设备12;其中:
[0035]目标设备11,用于获取用户通过输入框输入的查询信息;并将查询信息发送至服务端设备12;
[0036]服务端设备12,用于接收查询信息,并根据用户的查询信息确定对应的备选文档集;对所述备选文档集中的各备选文档进行分析,确定所述各备选文档对应的主题词组,得到所述备选文档集对应的主题词组集;确定所述查询信息针对所述备选文档集中各备选文档的相关信息,得到所述查询信息针对所述备选文档集的相关信息集,所述相关信息为备选文档对应的多个查询项中,与所述查询信息的相似度值大于预设相似度值的查询项;根据所述备选文档集,所述主题词组集本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据处理方法,其特征在于,包括:获取用户的查询信息对应的备选文档集;对所述备选文档集中的各备选文档进行分析,确定所述各备选文档对应的主题词组,得到所述备选文档集对应的主题词组集;确定所述查询信息针对所述备选文档集中各备选文档的相关信息,得到所述查询信息针对所述备选文档集的相关信息集,所述相关信息为备选文档对应的多个查询项中,与所述查询信息的相似度值大于预设相似度值的查询项;根据所述备选文档集,所述主题词组集,以及所述相关信息集确定所述查询信息对应的目标召回结果。2.根据权利要求1所述的方法,其特征在于,根据所述备选文档集,所述主题词组集,以及所述相关信息集确定所述查询信息对应的目标召回结果包括:针对所述备选文档集中的各备选文档,利用备选文档对应的主题词组以及所述查询信息针对所述备选文档对应的相关信息,确定所述查询信息与所述备选文档的匹配度信息,得到所述备选文档集对应的多个匹配度信息;基于所述备选文档集与所述多个匹配度信息确定所述查询信息对应的目标召回结果。3.根据权利要求2所述的方法,其特征在于,针对所述各备选文档,对备选文档进行分析,确定所述备选文档对应的主题词组,包括:将所述备选文档,输入预设的LDA模型,确定所述备选文档对应的分析结果,所述分析结果包括所述备选文档对应的主题词组。4.根据权利要求3所述的方法,其特征在于,针对所述各备选文档,利用备选文档对应的主题词组以及所述查询信息针对所述备选文档的相关信息,确定所述查询信息与所述备选文档的匹配度信息包括:若所述相关信息与所述主题词组满足第一预设条件,则根据所述第一预设条件确定所述匹配度信息;若所述相关信息与所述主题词组不满足所述第一预设条件,则获取所述备选文档对应的标题信息,并基于所述查询信息与所述标题信息确定所述匹配度信息。5.根据权利要求4所述的方法,其特征在于,基于所述查询信息与所述标题信息确定所述匹配度信息包括:当所述查询信息与所述标题信息的匹配度大于预设匹配度时,基于所述预设匹配度确定所述匹配度信息。6.根据权利要求5所述的方法,其特征在于,所述分析结果还包括所述主题词组与所述备选文档的相关度值,所述方法还包括:确定所述查询信息与所述主题词组是否满足第二预设条件,...

【专利技术属性】
技术研发人员:刘月
申请(专利权)人:北京字跳网络技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1