【技术实现步骤摘要】
文档排序方法、装置、设备及存储介质
本申请涉及数据处理领域,特别涉及一种文档排序方法、装置、设备及存储介质。
技术介绍
目前,大多应用平台都提供搜索功能。应用平台在基于用户输入的搜索语句(Query)返回搜索结果时,通常需要对搜索结果进行排序。其中,搜索结果可以为信息、新闻、科技文献、网页或广告等文档。相关技术中,一般采用传统的排序模型对搜索结果进行排序,该排序模型是基于多个样本文档以及各个样本文档的排序标签进行训练得到。其中,这多个样本文档中可能存在文档类型不同的样本文档,在进行模型训练时,不同文档类型的样本文档的文档特征之间可能会存在特征干扰。比如,假设第一样本文档的第一文档特征集合为A+B,第二样本文档的第二文档特征集合为A+C,在进行模型训练时,需要将第一文档特征集合A+B与第二文档特征集合A+C进行混排,得到特征全集A+B+C,再在特征全集A+B+C上训练排序模型。但是这种情况下,在训练特征与文档特征B直接相连的网络参数时,第二样本文档也就成了干扰项,导致文档特征之间存在特征干扰。由于传统的 ...
【技术保护点】
1.一种文档排序方法,其特征在于,所述方法包括:/n获取与搜索语句匹配的多个搜索结果,所述多个搜索结果中存在文档类型不同的搜索结果;/n基于所述多个搜索结果的文档特征,通过排序模型,确定所述多个搜索结果的排序结果,所述排序模型是采用第一训练方式和第二训练方式进行交替训练得到;/n其中,所述第一训练方式用于基于多个样本文档对以及每个样本文档对的排序标签,对待训练排序模型的嵌入层参数进行更新,且每个样本文档对中样本文档的文档类型相同,所述第二训练方式用于基于多个样本文档以及每个样本文档的排序标签,对所述待训练排序模型的预测层参数进行更新;/n基于所述多个搜索结果的排序结果,对所 ...
【技术特征摘要】
1.一种文档排序方法,其特征在于,所述方法包括:
获取与搜索语句匹配的多个搜索结果,所述多个搜索结果中存在文档类型不同的搜索结果;
基于所述多个搜索结果的文档特征,通过排序模型,确定所述多个搜索结果的排序结果,所述排序模型是采用第一训练方式和第二训练方式进行交替训练得到;
其中,所述第一训练方式用于基于多个样本文档对以及每个样本文档对的排序标签,对待训练排序模型的嵌入层参数进行更新,且每个样本文档对中样本文档的文档类型相同,所述第二训练方式用于基于多个样本文档以及每个样本文档的排序标签,对所述待训练排序模型的预测层参数进行更新;
基于所述多个搜索结果的排序结果,对所述多个搜索结果进行排序。
2.如权利要求1所述的方法,其特征在于,所述基于所述多个搜索结果的文档特征,通过排序模型,确定所述多个搜索结果的排序结果,包括:
将所述多个搜索结果的文档特征输入至所述排序模型中进行处理,得到所述多个搜索结果的预测得分,所述预测得分用于指示对应搜索结果与所述搜索语句之间的相关度;
所述基于所述多个搜索结果的排序结果,对所述多个搜索结果进行排序,包括:
基于所述多个搜索结果的预测得分,按照预测得分从大到小的顺序,对所述多个搜索结果进行排序。
3.如权利要求1所述的方法,其特征在于,所述待训练排序模型包括嵌入层和预测层,所述嵌入层用于将文档特征映射为文档的嵌入特征,所述预测层用于将文档的嵌入特征映射为文档的预测得分;
所述基于所述多个搜索结果的文档特征,通过排序模型,确定所述多个搜索结果的排序结果之前,还包括:
获取第一样本数据和第二样本数据,所述第一样本数据包括所述多个样本文档以及每个样本文档的排序标签,所述第二样本数据包括所述多个样本文档对以及每个样本文档对的排序标签;
基于所述第二样本数据,采用所述第一训练方式对所述待训练模型的嵌入层参数进行更新,以及基于所述第一样本数据,采用所述第二训练方式,对所述待训练排序模型的预测层参数进行更新。
4.如权利要求3所述的方法,其特征在于,所述获取第一样本数据和第二样本数据,包括:
获取所述第一样本数据;
基于所述第一样本数据包括的所述多个样本文档以及每个样本文档的文档类型,构建多个样本文档对,所述多个样本文档对中每个样本文档对包括文档类型相同的一对样本文档;
确定所述多个样本文档对中每个样本文档对的排序标签,每个样本文档对的排序标签用于指示每个样本文档对的第一个样本文档是否排序在第二个样本文档...
【专利技术属性】
技术研发人员:王丛超,张凯,杨一帆,
申请(专利权)人:北京三快在线科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。