The embodiment of the invention provides a method, device and electronic equipment for the evaluation index, the method includes: obtaining the user clicks after playing preset queries corresponding to each file first time; according to the first preset time, the first time with the corresponding relation, and the first preset threshold the preset relationship the first preset threshold value and the correlation value, obtains the correlation of each file value, among them, the correlation value for each file with the default query quantization parameter correlation degree words; according to the correlation value calculation of the sorted results normalized cumulative discount information the gain value, and the normalized cumulative discount information gain value evaluation index as the ranking result. The application of the invention can improve the accuracy of the correlation of the file, and then improve the accuracy of the evaluation of the ranking results.
【技术实现步骤摘要】
一种评价指标的获得方法、装置及电子设备
本专利技术涉及文件检索
,特别是涉及一种评价指标的获得方法、装置及电子设备。
技术介绍
随着网络上的文件越来越多,在向用户展示对应于查询词的文件时,需要对相关文件进行排序后再行显示。对与查询词对应的相关文件进行排序时,需要依据一定的排序规则,因此催生了多种排序模型。由于基于相关性的排序模型有多种,因此应用不同的排序模型可能会得到不同的排序结果,为了筛选出更优化的排序模型,需要对排序结果进行评价。目前,常用NDCG@K(NormalizeDiscountedCu006DulativeGain,归一化累计折扣信息增益值)评价排序结果是否合理。NDCG@K的思想是将当前查询词的每个前K个文件的相关性值乘以一个折扣,排序越靠前的文件对应的折扣越小,排序越靠后的文件对应的折扣越大,将折扣后的相关性值之和与IDCG(IdealDiscountedCumulativeGain,理想累计折扣信息增益值)的商就可以得到NDCG@K。在评价时先利用公式,计算动态累计折扣信息增益值,其中,DCG为动态累计折扣信息增益值;K为排序结果中前K个 ...
【技术保护点】
一种评价指标的获得方法,其特征在于,所述方法包括:获得用户点击后播放每一文件的第一时长,其中,所述每一文件为与预设查询词对应的排序结果中的每一文件;根据所述第一时长、所述第一时长与第一预设阈值的预设对应关系、以及所述第一预设阈值与相关性值的预设对应关系,获得所述每一文件的相关性值,其中,所述相关性值为所述每一文件与所述预设查询词的关联程度的量化参数;根据所述相关性值计算所述排序结果的归一化累计折扣信息增益值,并将所述归一化累计折扣信息增益值作为排序结果的评价指标。
【技术特征摘要】
1.一种评价指标的获得方法,其特征在于,所述方法包括:获得用户点击后播放每一文件的第一时长,其中,所述每一文件为与预设查询词对应的排序结果中的每一文件;根据所述第一时长、所述第一时长与第一预设阈值的预设对应关系、以及所述第一预设阈值与相关性值的预设对应关系,获得所述每一文件的相关性值,其中,所述相关性值为所述每一文件与所述预设查询词的关联程度的量化参数;根据所述相关性值计算所述排序结果的归一化累计折扣信息增益值,并将所述归一化累计折扣信息增益值作为排序结果的评价指标。2.根据权利要求1所述的方法,其特征在于,在根据所述相关性值计算所述排序结果的归一化累计折扣信息增益值之前,所述方法还包括:获得所述预设查询词对应文件的排序结果;根据用户的点击记录,获得所述排序结果中排序最后的、被所述用户点击的文件,并将该文件作为目标文件;利用预设的数学模型,根据所述用户的历史点击记录,建立针对该用户点击行为的模型;从所述排序结果中、所述目标文件之后的第一个文件开始,针对每一个文件,利用所述模型计算当前文件的用户查看概率;根据所述当前文件的用户查看概率和所述当前文件是否被点击,或者根据所述当前文件的用户查看概率和用户针对所述当前文件的播放时长,获得所述当前文件的相关性值;判断所述用户查看概率是否大于或等于第二预设阈值;在所述用户查看概率大于或等于第二预设阈值的情况下,将当前文件的下一文件设定为当前文件,并执行所述利用所述模型计算当前文件的用户查看概率的步骤;所述获得用户点击后播放预设查询词对应每一文件的第一时长,包括:针对所述排序结果中排序最后的被点击文件之前的每一个文件,获得用户播放所述每一文件的第一时长。3.根据权利要求2所述的方法,其特征在于,所述根据所述当前文件的用户查看概率、所述当前文件是否被点击或者用户针对所述当前文件的播放时长,获得所述当前文件的相关性值,包括:判断所述用户查看概率是否大于或等于第三预设阈值;在所述用户查看概率大于或等于所述第三预设阈值的情况下,根据该文件是否被点击获得该文件的相关性值;或者,在所述用户查看概率小于所述第三预设阈值的情况下,根据该文件的历史播放总时长以及该文件的用户历史播放次数计算该文件对应的第二时长,并根据所述第二时长、所述第二时长与第一预设阈值的对应关系、以及所述第一预设阈值与相关性值的对应关系,获得该文件的相关性值。4.根据权利要求3所述的方法,其特征在于,所述根据该文件的历史播放总时长以及该文件的用户历史播放次数计算该文件对应的第二时长,包括:根据该文件的历史播放总时长以及该文件的用户历史播放次数的商,计算所述文件对应的平均播放时长,并将该平均播放时长作为第二时长。5.根据权利要求1或2所述的方法,其特征在于,所述根据所述相关性值计算所述排序结果的归一化累计折扣信息增益值,包括:根据所述排序结果中排序最后的被点击文件之前的文件的相关性值,和用户查看概率不小于第二预设阈值的每一文件的相关性值,利用公式:计算动态累计折扣信息增益值,其中,DDCG为动态累计折扣信息增益值;n_est为排序最后的被点击文件之前的文件和用户查看概率不小于第二预设阈值的文件的数量之和;i为文件在排序结果中的序号;wi为序号为i的文件的权重;reli为排序结果中排序最后的被点击文件之前的,且序号为i的文件的相关性值;avg_reli为排序结果中排序最后的被点击文件之后的,且序号为i的文件的相关性值;利用公式计算出归一化动态累计折扣信息增益值,其中,DNDCG为归一化动态累计折扣信息增益值;DDCG为动态累计折扣信息增益值;IDCG为人工确定的理想累计折扣信息增益值。6.一种评价指标的获得装置,其特征在于,所述装置包括:第一获得模块、第二获得模块和第一计算模块,其中,所述第一获得模块,用于获得用户点击后播放每一文件...
【专利技术属性】
技术研发人员:赵晓萌,胡军,
申请(专利权)人:北京奇艺世纪科技有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。