信息推荐方法、装置、电子设备及存储介质制造方法及图纸

技术编号:39241761 阅读:9 留言:0更新日期:2023-10-30 11:54
本申请提供了一种信息推荐方法、装置、电子设备及存储介质;方法包括:从搜索请求携带的待查询文本提取多个候选的分词组合;对多个候选的分词组合进行第一排序处理,从得到的第一排序结果中获取从首位开始的第一数量的分词组合;从第一索引集群中获取与第一数量的分词组合匹配的第一信息列表,基于第一信息列表确定每个分词组合的相关性特征;基于待查询文本以及每个分词组合的相关性特征,对第一数量的分词组合进行第二排序处理,从得到的第二排序结果中获取从首位开始的第二数量的分词组合;从第二索引集群中获取与第二数量的分词组合匹配的第二信息列表,基于第二信息列表响应搜索请求。通过本申请,能够提高信息推荐效果和效率。和效率。和效率。

【技术实现步骤摘要】
信息推荐方法、装置、电子设备及存储介质


[0001]本申请涉及互联网
,尤其涉及一种信息推荐方法、装置、电子设备及存储介质。

技术介绍

[0002]人工智能(AI,Artificial Intelligence)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
[0003]其中,信息推荐是人工智能的一个重要应用场景,信息推荐涉及搜索过程,搜索整体上可以分为召回和排序两大过程,在召回层面,文本召回依赖非必留结果。相关技术提供的非必留包括一次非必留、二次非必留、静态多路非必留和动态多路非必留。然而,一次非必留和二次非必留是两个任务串行进行的,模型的拟合能力不足,需要依赖其他输入特征,例如意图、实体等,同时还依赖复杂的后处理策略;此外,静态多路非必留和动态多路非必留的效果参差不齐,缺少衡量分词组合的召回预估能力,所有候选分词组合都下发会加大索引平台召回的压力。
[0004]也就是说,如何衡量候选分词组合的召回预估能力,并从中选择优质的分词组合,以提升信息推荐的效果和效率,相关技术尚无有效的解决方案。

技术实现思路

[0005]本申请实施例提供一种信息推荐方法、装置、电子设备、计算机可读存储介质及计算机程序产品,能够提高信息推荐效果和效率。
[0006]本申请实施例的技术方案是这样实现的:
[0007]本申请实施例提供一种信息推荐方法,包括:
[0008]接收搜索请求,从所述搜索请求携带的待查询文本提取多个候选的分词组合;
[0009]对所述多个候选的分词组合进行第一排序处理,从得到的第一排序结果中获取从首位开始的第一数量的分词组合;
[0010]从第一索引集群中获取与所述第一数量的分词组合匹配的第一信息列表,基于所述第一信息列表确定每个所述分词组合的相关性特征;
[0011]基于所述待查询文本以及每个所述分词组合的相关性特征,对所述第一数量的分词组合进行第二排序处理,从得到的第二排序结果中获取从首位开始的第二数量的分词组合,其中,所述第二数量小于所述第一数量;
[0012]从第二索引集群中获取与所述第二数量的分词组合匹配的第二信息列表,基于所述第二信息列表响应所述搜索请求,其中,所述第二索引集群包括所述第一索引集群。
[0013]本申请实施例提供一种信息推荐装置,包括:
[0014]接收模块,用于接收搜索请求;
[0015]提取模块,用于从所述搜索请求携带的待查询文本提取多个候选的分词组合;
[0016]排序模块,用于对所述多个候选的分词组合进行第一排序处理;
[0017]获取模块,用于从得到的第一排序结果中获取从首位开始的第一数量的分词组合;以及用于从第一索引集群中获取与所述第一数量的分词组合匹配的第一信息列表;
[0018]确定模块,用于基于所述第一信息列表确定每个所述分词组合的相关性特征;
[0019]所述排序模块,还用于基于所述待查询文本以及每个所述分词组合的相关性特征,对所述第一数量的分词组合进行第二排序处理;
[0020]所述获取模块,还用于从得到的第二排序结果中获取从首位开始的第二数量的分词组合;以及用于从第二索引集群中获取与所述第二数量的分词组合匹配的第二信息列表,其中,所述第二数量小于所述第一数量,所述第二索引集群包括所述第一索引集群;
[0021]响应模块,用于基于所述第二信息列表响应所述搜索请求。
[0022]本申请实施例提供一种电子设备,包括:
[0023]存储器,用于存储可执行指令;
[0024]处理器,用于执行所述存储器中存储的可执行指令时,实现本申请实施例提供的信息推荐方法。
[0025]本申请实施例提供一种计算机可读存储介质,存储有计算机可执行指令,用于被处理器执行时,实现本申请实施例提供的信息推荐方法。
[0026]本申请实施例提供一种计算机程序产品,包括计算机程序或计算机可执行指令,用于被处理器执行时,实现本申请实施例提供的信息推荐方法。
[0027]本申请实施例具有以下有益效果:
[0028]从小规模的第一索引集群中获取与大量的分词组合匹配的第一信息列表,基于第一信息列表确定的分词组合的相关性特征进行重排序,以从大量的分词组合中筛选出少量的分词组合,进而从大规模的第二索引集群获取与少量的分词组合匹配的第二信息列表,如此,能够通过基于第一信息列表确定的分词组合的相关性特征,准确地衡量该分词组合的预估召回能力,并从中选择出少量优质的分词组合进行大规模索引集群的下发,减轻了索引集群的压力,同时也提升了信息推荐的效果和效率。
附图说明
[0029]图1是本申请实施例提供的信息推荐系统100的架构示意图;
[0030]图2是本申请实施例提供的服务器200的结构示意图;
[0031]图3是本申请实施例提供的信息推荐方法的流程示意图;
[0032]图4A至图4C是本申请实施例提供的信息推荐方法的流程示意图;
[0033]图5是本申请实施例提供的确定分词序列的嵌入向量表示的原理示意图;
[0034]图6是本申请实施例提供的搜索链路示意图;
[0035]图7是本申请实施例提供的信息推荐方法的架构示意图;
[0036]图8是本申请实施例提供的粗排模型的结构示意图;
[0037]图9是本申请实施例提供的精排模型的结构示意图;
[0038]图10是本申请实施例提供的精排模型的结构示意图。
具体实施方式
[0039]为了使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请作进一步地详细描述,所描述的实施例不应视为对本申请的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
[0040]在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
[0041]可以理解的是,在本申请实施例中,涉及到用户信息等相关的数据(包括但不限于设备信息、个人信息、行为信息等),当本申请实施例运用到具体产品或技术中时,需要获得用户许可或者同意,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
[0042]在以下的描述中,所涉及的术语“第一\第二\...”仅仅是是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二\...”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本申请实施例能够以除了在这里图示或描述的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种信息推荐方法,其特征在于,所述方法包括:接收搜索请求,从所述搜索请求携带的待查询文本提取多个候选的分词组合;对所述多个候选的分词组合进行第一排序处理,从得到的第一排序结果中获取从首位开始的第一数量的分词组合;从第一索引集群中获取与所述第一数量的分词组合匹配的第一信息列表,基于所述第一信息列表确定每个所述分词组合的相关性特征;基于所述待查询文本以及每个所述分词组合的相关性特征,对所述第一数量的分词组合进行第二排序处理,从得到的第二排序结果中获取从首位开始的第二数量的分词组合,其中,所述第二数量小于所述第一数量;从第二索引集群中获取与所述第二数量的分词组合匹配的第二信息列表,基于所述第二信息列表响应所述搜索请求,其中,所述第二索引集群包括所述第一索引集群。2.根据权利要求1所述的方法,其特征在于,所述对所述多个候选的分词组合进行第一排序处理,包括:针对每个所述候选的分词组合,执行以下处理:对所述待查询文本和所述候选的分词组合进行拼接处理,得到分词序列;确定所述分词序列的嵌入向量表示;对所述嵌入向量表示进行编码处理,得到所述候选的分词组合对应的文本特征向量;对所述文本特征向量进行回归处理,得到所述待查询文本与所述候选的分词组合之间的语义匹配度;根据所述多个候选的分词组合分别对应的所述语义匹配度进行降序的第一排序处理。3.根据权利要求2所述的方法,其特征在于,所述确定所述分词序列的嵌入向量表示,包括:分别确定所述分词序列的字嵌入向量序列、句子嵌入向量序列以及位置嵌入向量序列,其中,所述字嵌入向量序列包括所述分词序列中每个字的字嵌入向量,所述句子嵌入向量序列包括所述分词序列中每个分词所属语句的序号的嵌入向量,所述位置嵌入向量序列包括所述分词序列中每个分词的位置嵌入向量;对所述字嵌入向量序列、所述句子嵌入向量序列以及所述位置嵌入向量序列进行相加处理,得到所述分词序列的嵌入向量表示。4.根据权利要求2所述的方法,其特征在于,所述对所述文本特征向量进行回归处理,得到所述待查询文本与所述候选的分词组合之间的语义匹配度,包括:对所述文本特征向量进行第一全连接处理,得到第一全连接特征向量;对所述第一全连接特征向量进行第一激活处理,得到所述待查询文本与所述候选的分词组合之间的语义匹配度。5.根据权利要求2所述的方法,其特征在于,所述语义匹配度是通过调用粗排模型确定的,在确定所述语义匹配度之前,所述方法还包括:通过以下方式训练所述粗排模型:获取训练样本对、以及针对所述训练样本对标记的标签数据,其中,所述训练样本对包括样本文本、以及从所述样本文本提取的样本分词组合;
基于所述训练样本对,调用初始化的所述粗排模型进行语义匹配度预测处理,得到所述样本分词组合与所述样本文本之间的语义匹配度;将预测得到的所述语义匹配度与所述标签数据代入第一损失函数,以基于所述第一损失函数更新所述粗排模型的参数。6.根据权利要求1所述的方法,其特征在于,所述相关性特征包括整数型数值特征和浮点型数值特征;所述基于所述第一信息列表确定每个所述分词组合的相关性特征,包括:针对每个所述分词组合,执行以下处理:确定所述第一信息列表中基于所述分词组合获取的第一信息;确定所述第一信息与所述待查询文本之间的所述整数型数值特征;确定所述第一信息与所述待查询文本之间的所述浮点型数值特征;将所述整数型数值特征和所述浮点型数值特征,确定为所述分词组合的相关性特征。7.根据权利要求6所述的方法,其特征在于,所述确定所述第一信息与所述待查询文本之间的所述整数型数值特征,包括:执行以下处理至少之一:确定所述第一信息的正文与所述待查询文本之间的正文相关性级别;确定所述第一信息的标题与所述待查询文本之间的标题相关性级别;确定所述第一信息的质量级别;确定所述第一信息与所述待查询文本之间的总体相关性级别;所述确定所述第一信息与所述待查询文本之间的所述浮点型数值特征,包括:执行以下处理至少之一:确定所述第一信息的标题命中所述待查询文本的标题命中特征;确定所述第一信息的正文命中分;确定所述第一信息的标题命中分;确定所述第一信息的正文命中所述待查询文本的正文命中特征;确定所述第一信息的正文与所述待查询文本之间的正文相关性得分;确定所述第一信息与所述待查询文本之间的总体相关性得分;确定所述第一信息的标题与所述待查询文本之间的标题相关性得分。8.根据权利要求1所述的方法,其特征在于,所述基于所述待查询文本以及每个所述分词组合的相关性特征,对所述第一数量的分词组合进行第二排序处理,包括:针对每个所述分词组合,执行以下处理:对所述分词组合的相关性特征进行编码处理,得到所述分词组合的相关性特征...

【专利技术属性】
技术研发人员:朱秀红黄泽谦
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1