【技术实现步骤摘要】
一种利用不确定样本的伪标记数据生成方法
本专利技术属于排序学习
,尤其涉及一种利用不确定样本的伪标记数据生成方法。
技术介绍
排序学习是一种基于监督学习的排序方法,由于其良好的效果,已经被很多领域所认知和采纳,例如在时间网络搜索中,谷歌、Bing、百度等搜索引擎对召回结果的排序。同样的,在研究领域,排序学习也受到了广泛的关注,例如ICML、NIPS等信息检索、机器学习的国际会议上有超过100篇的相关文章;在信息检索顶级会议SIGIR上,每年都至少有两个session是有关排序学习的。排序学习的任务是对一组文档进行排序,其希望能够通过使用人工标注的数据来进行算法设计,挖掘出隐藏在数据中的规律,从而完成对任意查询需求给出反映相关性的文档排序。只有依赖足够的、可靠的标记数据,排序学习才能发挥优势,然而在实际应用中经常会由于缺乏足够的标记数据导致排序学习的性能降低。半监督学习算法尝试逐步的增加标记数据数量,在学习过程中,共同利用少量的标记数据和大量的未标记数据,从而降低了应用排序学习算法时对人工的依赖,并节省了人工成本 ...
【技术保护点】
1.一种利用不确定样本的伪标记数据生成方法,其特征在于,包括以下步骤:/nS101、采用NQC算法,提取衡量用户输入的查询质量“好坏”的特征集,记为查询特征集;/nS102、利用不确定样本建立查询质量预测器;/n使用基本检索模型BM25得到的MAP记为MAP_b;/n对于每一个训练查询,使用排序学习算法训练得到一个排序学习模型,然后在校验集上检验该模型的性能,得到MAP_p;/n计算性能增益:ΔMAP=MAP_p-MAP_b/n接着基于少量标记数据和不确定样本,利用查询特征集和ΔMAP建立查询质量预测器,以及利用所述的查询质量预测器预测每一个测试查询的质量;/nS103、过 ...
【技术特征摘要】
1.一种利用不确定样本的伪标记数据生成方法,其特征在于,包括以下步骤:
S101、采用NQC算法,提取衡量用户输入的查询质量“好坏”的特征集,记为查询特征集;
S102、利用不确定样本建立查询质量预测器;
使用基本检索模型BM25得到的MAP记为MAP_b;
对于每一个训练查询,使用排序学习算法训练得到一个排序学习模型,然后在校验集上检验该模型的性能,得到MAP_p;
计算性能增益:ΔMAP=MAP_p-MAP_b
接着基于少量标记数据和不确定样本,利用查询特征集和ΔMAP建立查询质量预测器,以及利用所述的查询质量预测器预测每一个测试查询的质量;
S103、过滤查询...
【专利技术属性】
技术研发人员:张新,程知,张琛,宁飞鸿,
申请(专利权)人:合肥学院,
类型:发明
国别省市:安徽;34
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。