信息推荐方法、装置、电子设备及存储介质制造方法及图纸

技术编号：39241761 阅读：9 留言：0更新日期：2023-10-30 11:54

本申请提供了一种信息推荐方法、装置、电子设备及存储介质；方法包括：从搜索请求携带的待查询文本提取多个候选的分词组合；对多个候选的分词组合进行第一排序处理，从得到的第一排序结果中获取从首位开始的第一数量的分词组合；从第一索引集群中获取与第一数量的分词组合匹配的第一信息列表，基于第一信息列表确定每个分词组合的相关性特征；基于待查询文本以及每个分词组合的相关性特征，对第一数量的分词组合进行第二排序处理，从得到的第二排序结果中获取从首位开始的第二数量的分词组合；从第二索引集群中获取与第二数量的分词组合匹配的第二信息列表，基于第二信息列表响应搜索请求。通过本申请，能够提高信息推荐效果和效率。和效率。和效率。

全部详细技术资料下载

【技术实现步骤摘要】
信息推荐方法、装置、电子设备及存储介质

[0001]本申请涉及互联网
，尤其涉及一种信息推荐方法、装置、电子设备及存储介质。

技术介绍

[0002]人工智能(AI，Artificial Intelligence)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。
[0003]其中，信息推荐是人工智能的一个重要应用场景，信息推荐涉及搜索过程，搜索整体上可以分为召回和排序两大过程，在召回层面，文本召回依赖非必留结果。相关技术提供的非必留包括一次非必留、二次非必留、静态多路非必留和动态多路非必留。然而，一次非必留和二次非必留是两个任务串行进行的，模型的拟合能力不足，需要依赖其他输入特征，例如意图、实体等，同时还依赖复杂的后处理策略；此外，静态多路非必留和动态多路非必留的效果参差不齐，缺少衡量分词组合的召回预估能力，所有候选分词组合都下发会加大索引平台召回的压力。
[0004]也就是说，如何衡量候选分词组合的召回预估能力，并从中选择优质的分词组合，以提升信息推荐的效果和效率，相关技术尚无有效的解决方案。

技术实现思路

[0005]本申请实施例提供一种信息推荐方法、装置、电子设备、计算机可读存储介...

【技术保护点】

【技术特征摘要】
1.一种信息推荐方法，其特征在于，所述方法包括：接收搜索请求，从所述搜索请求携带的待查询文本提取多个候选的分词组合；对所述多个候选的分词组合进行第一排序处理，从得到的第一排序结果中获取从首位开始的第一数量的分词组合；从第一索引集群中获取与所述第一数量的分词组合匹配的第一信息列表，基于所述第一信息列表确定每个所述分词组合的相关性特征；基于所述待查询文本以及每个所述分词组合的相关性特征，对所述第一数量的分词组合进行第二排序处理，从得到的第二排序结果中获取从首位开始的第二数量的分词组合，其中，所述第二数量小于所述第一数量；从第二索引集群中获取与所述第二数量的分词组合匹配的第二信息列表，基于所述第二信息列表响应所述搜索请求，其中，所述第二索引集群包括所述第一索引集群。2.根据权利要求1所述的方法，其特征在于，所述对所述多个候选的分词组合进行第一排序处理，包括：针对每个所述候选的分词组合，执行以下处理：对所述待查询文本和所述候选的分词组合进行拼接处理，得到分词序列；确定所述分词序列的嵌入向量表示；对所述嵌入向量表示进行编码处理，得到所述候选的分词组合对应的文本特征向量；对所述文本特征向量进行回归处理，得到所述待查询文本与所述候选的分词组合之间的语义匹配度；根据所述多个候选的分词组合分别对应的所述语义匹配度进行降序的第一排序处理。3.根据权利要求2所述的方法，其特征在于，所述确定所述分词序列的嵌入向量表示，包括：分别确定所述分词序列的字嵌入向量序列、句子嵌入向量序列以及位置嵌入向量序列，其中，所述字嵌入向量序列包括所述分词序列中每个字的字嵌入向量，所述句子嵌入向量序列包括所述分词序列中每个分词所属语句的序号的嵌入向量，所述位置嵌入向量序列包括所述分词序列中每个分词的位置嵌入向量；对所述字嵌入向量序列、所述句子嵌入向量序列以及所述位置嵌入向量序列进行相加处理，得到所述分词序列的嵌入向量表示。4.根据权利要求2所述的方法，其特征在于，所述对所述文本特征向量进行回归处理，得到所述待查询文本与所述候选的分词组合之间的语义匹配度，包括：对所述文本特征向量进行第一全连接处理，得到第一全连接特征向量；对所述第一全连接特征向量进行第一激活处理，得到所述待查询文本与所述候选的分词组合之间的语义匹配度。5.根据权利要求2所述的方法，其特征在于，所述语义匹配度是通过调用粗排模型确定的，在确定所述语义匹配度之前，所述方法还包括：通过以下方式训练所述粗排模型：获取训练样本对、以及针对所述训练样本对标记的标签数据，其中，所述训练样本对包括样本文本、以及从所述样本文本提取的样本分词组合；
基于所述训练样本对，调用初始化的所述粗排模型进行语义匹配度预测处理，得到所述样本分词组合与所述样本文本之间的语义匹配度；将预测得到的所述语义匹配度与所述标签数据代入第一损失函数，以基于所述第一损失函数更新所述粗排模型的参数。6.根据权利要求1所述的方法，其特征在于，所述相关性特征包括整数型数值特征和浮点型数值特征；所述基于所述第一信息列表确定每个所述分词组合的相关性特征，包括：针对每个所述分词组合，执行以下处理：确定所述第一信息列表中基于所述分词组合获取的第一信息；确定所述第一信息与所述待查询文本之间的所述整数型数值特征；确定所述第一信息与所述待查询文本之间的所述浮点型数值特征；将所述整数型数值特征和所述浮点型数值特征，确定为所述分词组合的相关性特征。7.根据权利要求6所述的方法，其特征在于，所述确定所述第一信息与所述待查询文本之间的所述整数型数值特征，包括：执行以下处理至少之一：确定所述第一信息的正文与所述待查询文本之间的正文相关性级别；确定所述第一信息的标题与所述待查询文本之间的标题相关性级别；确定所述第一信息的质量级别；确定所述第一信息与所述待查询文本之间的总体相关性级别；所述确定所述第一信息与所述待查询文本之间的所述浮点型数值特征，包括：执行以下处理至少之一：确定所述第一信息的标题命中所述待查询文本的标题命中特征；确定所述第一信息的正文命中分；确定所述第一信息的标题命中分；确定所述第一信息的正文命中所述待查询文本的正文命中特征；确定所述第一信息的正文与所述待查询文本之间的正文相关性得分；确定所述第一信息与所述待查询文本之间的总体相关性得分；确定所述第一信息的标题与所述待查询文本之间的标题相关性得分。8.根据权利要求1所述的方法，其特征在于，所述基于所述待查询文本以及每个所述分词组合的相关性特征，对所述第一数量的分词组合进行第二排序处理，包括：针对每个所述分词组合，执行以下处理：对所述分词组合的相关性特征进行编码处理，得到所述分词组合的相关性特征...

【专利技术属性】
技术研发人员：朱秀红，黄泽谦，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人