一种利用不确定样本的伪标记数据生成方法技术

技术编号：25890449 阅读：60 留言：0更新日期：2020-10-09 23:31

本发明专利技术属于排序学习技术领域，尤其涉及一种利用不确定样本的伪标记数据生成方法，所述的方法包括：S101、采用NQC算法，提取衡量用户输入的查询质量“好坏”的特征集，记为查询特征集；S102、建立查询质量预测器；S103、过滤查询集，候选的查询利用步骤S102建立的查询质量预测器进行预测，选择朴素贝叶斯和Logistic算法来决定查询是否被选择；S104、生成伪标记数据；选定某一查询作为训练集，在后续的半监督学习中迭代生成伪标记数据；本发明专利技术通过自动过滤训练数据来建立弱预测器对训练查询集的质量进行预测的方法，与现有半监督方法不同，并不是所有可得的查询都被作为训练查询集，只有高质量的查询才会在接下来的半监督直推学习中被利用。

全部详细技术资料下载

【技术实现步骤摘要】
一种利用不确定样本的伪标记数据生成方法
本专利技术属于排序学习
，尤其涉及一种利用不确定样本的伪标记数据生成方法。
技术介绍
排序学习是一种基于监督学习的排序方法，由于其良好的效果，已经被很多领域所认知和采纳，例如在时间网络搜索中，谷歌、Bing、百度等搜索引擎对召回结果的排序。同样的，在研究领域，排序学习也受到了广泛的关注，例如ICML、NIPS等信息检索、机器学习的国际会议上有超过100篇的相关文章；在信息检索顶级会议SIGIR上，每年都至少有两个session是有关排序学习的。排序学习的任务是对一组文档进行排序，其希望能够通过使用人工标注的数据来进行算法设计，挖掘出隐藏在数据中的规律，从而完成对任意查询需求给出反映相关性的文档排序。只有依赖足够的、可靠的标记数据，排序学习才能发挥优势，然而在实际应用中经常会由于缺乏足够的标记数据导致排序学习的性能降低。半监督学习算法尝试逐步的增加标记数据数量，在学习过程中，共同利用少量的标记数据和大量的未标记数据，从而降低了应用排序学习算法时对人工的依赖，并节省了人工成本...

【技术保护点】
1.一种利用不确定样本的伪标记数据生成方法，其特征在于，包括以下步骤：/nS101、采用NQC算法，提取衡量用户输入的查询质量“好坏”的特征集，记为查询特征集；/nS102、利用不确定样本建立查询质量预测器；/n使用基本检索模型BM25得到的MAP记为MAP_b；/n对于每一个训练查询，使用排序学习算法训练得到一个排序学习模型，然后在校验集上检验该模型的性能，得到MAP_p；/n计算性能增益：ΔMAP＝MAP_p-MAP_b/n接着基于少量标记数据和不确定样本，利用查询特征集和ΔMAP建立查询质量预测器，以及利用所述的查询质量预测器预测每一个测试查询的质量；/nS103、过滤查询集；/n候选的...

【技术特征摘要】
1.一种利用不确定样本的伪标记数据生成方法，其特征在于，包括以下步骤：
S101、采用NQC算法，提取衡量用户输入的查询质量“好坏”的特征集，记为查询特征集；
S102、利用不确定样本建立查询质量预测器；
使用基本检索模型BM25得到的MAP记为MAP_b；
对于每一个训练查询，使用排序学习算法训练得到一个排序学习模型，然后在校验集上检验该模型的性能，得到MAP_p；
计算性能增益：ΔMAP＝MAP_p-MAP_b
接着基于少量标记数据和不确定样本，利用查询特征集和ΔMAP建立查询质量预测器，以及利用所述的查询质量预测器预测每一个测试查询的质量；
S103、过滤查询...

【专利技术属性】
技术研发人员：张新，程知，张琛，宁飞鸿，
申请(专利权)人：合肥学院，
类型：发明
国别省市：安徽;34

全部详细技术资料下载我是这个专利的主人