数据处理方法、装置及计算机设备制造方法及图纸

技术编号：35486738 阅读：14 留言：0更新日期：2022-11-05 16:40

本申请实施例公开了一种数据处理方法、装置及计算机设备，方法包括：在确定目标搜索词对应的N个候选改写词后，采用目标搜索词与N个候选改写词构建N个目标词对；一个目标词对包括目标搜索词和一个候选改写词，不同目标词对中的候选改写词互不相同；调用目标模型根据各个目标词对的特征信息，分别预测各个目标词对中的候选改写词作为目标搜索词的有效改写词的概率；基于预测出的各个概率对N个候选改写词进行排序处理，以根据排序结果从N个候选改写词中筛选出目标搜索词的有效改写词。本申请实施例可以基于候选改写词的排序结果确定出目标搜索词的有效改写词，提升有效改写词的筛选准确性。选准确性。选准确性。

全部详细技术资料下载

【技术实现步骤摘要】
数据处理方法、装置及计算机设备

[0001]本申请涉及互联网
，具体涉及计算机
，尤其涉及一种数据处理方法、装置及计算机设备。

技术介绍

[0002]随着互联网技术的快速发展，搜索引擎在人们的工作、学习以及生活中的应用越来越广泛。目前，搜索引擎在接收到对象输入的搜索词后，通常会先召回该搜索词所对应的候选改写词，并从召回的候选改写词中筛选出该搜索词的有效改写词，从而利用这些有效改写词以及搜索词向对象输出相应的反馈信息。基于此，如何从大量的候选改写词中确定出搜索词的有效改写词成为当前的研究热点。

技术实现思路

[0003]本申请实施例提供了一种数据处理方法、装置及计算机设备，可以基于候选改写词的排序结果确定出目标搜索词的有效改写词，提升有效改写词的筛选准确性。
[0004]一方面，本申请实施例提供了一种数据处理方法，所述方法包括：
[0005]在确定目标搜索词对应的N个候选改写词后，采用所述目标搜索词与所述N个候选改写词构建N个目标词对；一个目标词对包括所述目标搜索词和一个候选改写词，不同目标词对中的候选改写词互不相同，N为正整数；
[0006]调用目标模型根据各个目标词对的特征信息，分别预测所述各个目标词对中的候选改写词作为所述目标搜索词的有效改写词的概率；所述目标模型采用至少一个训练样本和相应的样本标签进行模型训练得到，一个训练样本包括样本搜索词和样本改写词，任一训练样本的样本标签是基于相应训练样本中的各个词的后验数据确定，且任一训练样本的样本标签用于指示相应训练样...

【技术保护点】

【技术特征摘要】
1.一种数据处理方法，其特征在于，所述方法包括：在确定目标搜索词对应的N个候选改写词后，采用所述目标搜索词与所述N个候选改写词构建N个目标词对；一个目标词对包括所述目标搜索词和一个候选改写词，不同目标词对中的候选改写词互不相同，N为正整数；调用目标模型根据各个目标词对的特征信息，分别预测所述各个目标词对中的候选改写词作为所述目标搜索词的有效改写词的概率；所述目标模型采用至少一个训练样本和相应的样本标签进行模型训练得到，一个训练样本包括样本搜索词和样本改写词，任一训练样本的样本标签是基于相应训练样本中的各个词的后验数据确定，且任一训练样本的样本标签用于指示相应训练样本中的样本改写词是否为对应的样本搜索词的有效改写词；基于预测出的各个概率对所述N个候选改写词进行排序处理，以根据排序结果从所述N个候选改写词中筛选出所述目标搜索词的有效改写词。2.如权利要求1所述的方法，其特征在于，所述方法还包括：获取第n个目标词对中的目标搜索词的词特征，以及所述第n个目标词对中的候选改写词的词特征；其中，任一词特征包括以下至少一项：相应词的文本特征、后验特征以及语义特征，n∈[1，N]；基于获取到的两个词特征之间的特征差异，确定所述第n个目标词对的交叉特征；采用获取到的两个词特征以及所述交叉特征，构建所述第n个目标词对的特征信息。3.如权利要求1或2所述的方法，其特征在于，所述方法还包括：获取用于训练初始模型的多个样本词对，一个样本词对包括一个样本搜索词和一个样本改写词；根据每个样本词对中的各个词的后验数据，分别对所述每个样本词对进行打标处理，得到所述每个样本词对的样本标签；基于所述每个样本词对的样本标签以及所述每个样本词对中的各个词的后验数据，在所述多个样本词对中进行样本挖掘，得到至少一个训练样本；采用所述至少一个训练样本和每个训练样本的样本标签，对所述初始模型进行模型训练，得到目标模型。4.如权利要求3所述的方法，其特征在于，所述获取用于训练初始模型的多个样本词对，包括：获取第一历史时间段内产生的K个第一搜索词和各个第一搜索词的反馈信息集，并获取第二历史时间段内产生的H个第二搜索词和各个第二搜索词的反馈信息集，K和H均为正整数；根据所述各个第一搜索词的反馈信息集和所述各个第二搜索词的反馈信息集，对所述K个第一搜索词和所述H个第二搜索词进行关联操作，被关联的第一搜索词和第二搜索词之间对应有相同的反馈信息；若关联操作的结果指示第k个第一搜索词与至少一个第二搜索词相关联，则将所述第k个第一搜索词作为样本搜索词，并分别将所述第k个第一搜索词所关联的各个第二搜索词作为样本改写词，以构建得到用于训练初始模型的多个样本词对，k∈[1，K]。5.如权利要求4所述的方法，其特征在于，所述获取第二历史时间段内产生的H个第二搜索词和各个第二搜索词的反馈信息集，包括：
通过聚合分析第二历史时间段内产生的搜索行为日志，得到H个第二搜索词以及每个第二搜索词对应的各个反馈信息；针对第h个第二搜索词，获取所述第h个第二搜索词对应的各个反馈信息的信息曝光量，h∈[1，H]；按照信息曝光量从高到低的顺序，根据所述各个反馈信息的信息曝光量从所述第h个第二搜索词对应的全部反馈信息中，选取目标数量的反馈信息构建所述第h个第二搜索词的反馈信息集。6.如权利要求3所述的方法，其特征在于，所述根据每个样本词对中的各个词的后验数据，分别对所述每个样本词对进行打标处理，得到所述每个样本词对的样本标签，包括：遍历所述多个样本词对中的各个样本词对，将当前遍历的样本词对作为目标样本词对；根据所述目标样本词对中的样本搜索词的后验数据，计算相应的样本搜索词的后验得分；并根据所述目标样本词对中的样本改写词的后验数据，计算相应的样本改写词的后验得分；基于计算出的两个后验得分之间的相对大小关系，对所述目标样本词对进行打标处理，得到所述目标样本词对的样本标签。7.如权利要求6所述的方法，其特征在于，任一后验数据包括：相应词的词搜索量、词点击量和词标准化观看得分；所述词点击量是根据相应词所对应的各个反馈信息的信息点击量计算得到的；所述词标准化观看得分是根据相应词所对应的各个反馈信息的观看信息计算得到的；所述根据所述目标样本词对中的样本搜索词的后验数据，计算相应的样本搜索词的后验得分，包括：根据所述目标样本词对中的样本搜索词的词搜索量和相应的词标准化观看得分，计算所述目标样本词对中的样本搜索词在观看维度下的后验表现分；根据所述目标样本词对中的样本搜索词的词搜索量和相应的词点击量，计算所述目标样本词对中的样本搜索词在点击量维度下的后验表现分；对计算得到的各个后验表现分进行加权求和，得到所述目标样本词对中的样本搜索词的后验得分。8.如权利要求6所述的方法，其特征在于，所述基于计算出的两个后验得分之间的相对大小关系，对所述目标样本词对进行打标处理，得到所述目标样本词对的样本标签，包括：若计算出的样本搜索词的后验得分，小于计算出的样本改写词的后验得分，则将第一标签作为所述目标样本对的样本标签；若计算出的样本搜索词的后验得分，大于或等于计算出的样本改写词的后验得分，则将第二标签作为所述目标样本对的样本标签；其中，所述第一标签用于指示样本改写词是相应样本搜索词的有效改写词，所述第二标签用于指示样本改写词不是相应样本搜索词的有效改写词。9.如权利要求3所述的方法，其特征在于，所述基于所述每个样本词对的样本标签以及所述每个样本词对中的各个词的后验数据，在所述多个样本词对中进行样本挖掘，得到至少一个训练样本，包括：
按照包含相同样本搜索词的样本词对被划分至同一个组的划分原则，对所述多个样本词对进行分组处理，得到一个或多个词对组；基于所述每个样本词对中的样本改写词的反馈信息集的反馈行为数据，确定所述每个样本词对在相应词对组内的位置信息；任一反馈行为数据包括：相应反馈信息集中的各个反馈信息的信息点击量、信息标准化观看得分或者历史观看时长；根据所述每个样本词对在相应词对组内的位置信息，所述每个样本词对的样本标签以及所述每个样本词对中的各个词的后验数据，从所述多个样本词对中挖掘出至少一个正样本，并将挖掘出的各个正样本作为训练样本。10.如权利要求9所述的方法，其特征在于，任一位置信息包括得分占比；所述基于所述每个样本词对中的样本改写词的反馈信息集的反馈行为数据，确定所述每个样本词对在相应词对组内的位置信息，包括：基于所述每个样本词对中的样本改写词的反馈信息集的反馈行为数据，分别计算所述每个样本词对的反馈行为得分；针对任一样本词对，从相应词对组中的各个样本词对对应的反馈行为得分中确定出最大反馈行为得分；将所述任一样本词对的反馈行为得分和所述最大反馈行为得分之间的比值，确定为所述任一样本词对在相应词对组中的得分占比。11.如权利要求9所述的方法，其...

【专利技术属性】
技术研发人员：黄婷，温泉，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人