一种融合半监督学习和主动学习的搜索引擎用户满意度评估方法技术

技术编号：23212822 阅读：81 留言：0更新日期：2020-01-31 21:53

本发明专利技术公开了一种融合半监督学习和主动学习的搜索引擎用户满意度评估方法，具体包括以下步骤：1)利用人工标注获取初始的有标注数据；2)同时使用有标注数据和无标注数据来训练基于半监督学习的用户满意度分类器；3)引入一种整合选择策略来挑选出最具代表性和最富信息量的争议数据给标注人员标注，并更新有标注数据和无标注数据；4)重复训练基于半监督学习的用户满意度分类器和挑选争议数据的过程直至耗尽所有人工标注成本；5)利用构建的用户满意度分类器识别给定样本的用户满意度标签。本发明专利技术方法能够促进搜索引擎技术的发展，方便人们的生产生活。

A search engine user satisfaction evaluation method based on semi supervised learning and active learning

全部详细技术资料下载

【技术实现步骤摘要】
一种融合半监督学习和主动学习的搜索引擎用户满意度评估方法
本专利技术涉及互联网信息
，尤其涉及一种融合半监督学习和主动学习的搜索引擎用户满意度评估方法。
技术介绍
搜索引擎是用户访问万维网查找和获取资源信息的主要工具之一。随着互联网信息数据规模急速膨胀，用户对于高效便捷获取信息资源的要求越来越高，搜索引擎需要不断地进行算法改进和系统优化来满足用户日益增长的信息需求和高效方便获取信息资源的要求，因此，如何有效评估搜索引擎的质量成为了研究界与产业界关注的焦点。搜索满意度是基于用户搜索体验来评估搜索引擎质量的重要指标之一。大多数现有的搜索引擎用户满意度评估方法通常将该任务转化为二分类问题，通过有监督学习的方法对搜索引擎日志中的用户行为数据进行建模，进而评估该搜索任务对用户是满意的或不满意的。然而，这些方法存在的问题是，需要大量的有标注数据作为训练样本，以获得有效的搜索满意度评估模型。如果模型的训练样本数量不足，则会导致训练出的模型出现过拟合的问题。而在实际的应用场景中，由于难以直接采集到用户对当前搜索...

【技术保护点】
1.一种融合半监督学习和主动学习的搜索引擎用户满意度评估方法，包括以下步骤：/n步骤1，对搜索引擎日志进行标签标注，分为有标注数据和无标注数据，同时将搜索引擎日志划分为行为视图数据和时间视图数据，以搜索引擎日志的标签作为对应的行为视图数据和时间视图数据的标签；/n步骤2，采用有标注数据和无标注数据来训练基于半监督学习的用户满意度分类器，所述用户满意度分类器包括基于行为视图的用户满意度评估模型和基于时间视图的用户满意度评估模型；/n步骤3，引入整合选择策略挑选出争议数据给标注人员标注，并更新有标注数据和无标注数据，并利用更新后的有标注数据和无标注数据重新训练基于行为视图的用户满意度评估模型和基于...

【技术特征摘要】
1.一种融合半监督学习和主动学习的搜索引擎用户满意度评估方法，包括以下步骤：
步骤1，对搜索引擎日志进行标签标注，分为有标注数据和无标注数据，同时将搜索引擎日志划分为行为视图数据和时间视图数据，以搜索引擎日志的标签作为对应的行为视图数据和时间视图数据的标签；
步骤2，采用有标注数据和无标注数据来训练基于半监督学习的用户满意度分类器，所述用户满意度分类器包括基于行为视图的用户满意度评估模型和基于时间视图的用户满意度评估模型；
步骤3，引入整合选择策略挑选出争议数据给标注人员标注，并更新有标注数据和无标注数据，并利用更新后的有标注数据和无标注数据重新训练基于行为视图的用户满意度评估模型和基于时间视图的用户满意度评估模型，直到满足迭代终止条件，获得最终的基于行为视图的用户满意度评估模型和基于时间视图的用户满意度评估模型；
步骤4，利用基于行为视图的用户满意度评估模型和基于时间视图的用户满意度评估模型识别待识别搜索引擎日志对应的用户满意度标签。

2.如权利要求1所述的融合半监督学习和主动学习的搜索引擎用户满意度评估方法，其特征在于，步骤1具体包括：
步骤1-1，将搜索引擎日志以信息需求为单位进行划分，通过人工标注对随机挑选的q个信息需求赋予标签，将有标签的信息需求所对应的数据作为初始的有标注数据，将无标签的信息需求所对应的数据作为无标注数据；
步骤1-2，从每个信息需求所对应的搜索引擎日志中分别提取出行为视图数据和时间视图数据，行为视图数据是由n个行为组成的有序序列SA＝＜a1,a2,...,an＞，时间视图数据是由n-1个停留时间组成的有序序列信息需求对应的标签作为对应行为视图数据和时间视图数据的标签。

3.如权利要求1所述的融合半监督学习和主动学习的搜索引擎用户满意度评估方法，其特征在于，步骤2具体包括：
步骤2-1，从有标注数据中读取行为视图数据，并将读取的行为视图数据按照满意度标签分为满意行为视图数据和不满意行为视图数据两部分；
步骤2-2，利用满意行为视图数据训练行为视图满意模型，利用不满意行为视图数据训练行为视图不满意模型，训练好的行为视图满意模型和行为视图不满意模型组成基于行为视图的用户满意度评估模型hA；
步骤2-3，从无标注数据中读取行为视图数据，利用基于行为视图的用户满意度评估模型hA对行为视图数据赋予伪标签，该伪标签作为行为视图数据对应的无标注数据的伪标签
步骤2-4，从带有伪标签的无标注数据和有标注数据中读取时间视图数据，并将读取的时间视图数据按照满意度标签分为满意时间视图数据和不满意时间视图数据两部分；
步骤2-5，利用满意时间视图数据训练时间视图满意模型，利用不满意时间视图数据训练时间视图不满意模型，训练好的时间视图满意模型和时间视图不满意模型组成基于时间视图的用户满意度评估模型hT；
步骤2-6，检查当前的基于行为视图的用户满意度评估模型hA与前一次迭代获得的基于行为视图的用户满意度评估模型hA是否相同，如果相同则执行步骤2-7，如果不同则执行步骤2-9；
步骤2-7，检查当前的基于时间视图的用户满意度评估模型hT与前一次迭代获得的基于时间视图的用户满意度评估模型hT是否相同，如果相同则执行步骤2-8，如果不同则执行步骤2-9；
步骤2-8，输出基于行为视图的用户满意度评估模型hA和基于时间视图的用户满意度评估模型hT；
步骤2-9，从无标注数据中读取时间视图数据，利用基于时间视图的用户满意度评估模型hT对时间视图数据赋予伪标签，该伪标签作为时间视图数据对应的无标注数据的伪标签
步骤2-10，从带有伪标签的无标注数据和有标注数据中读取行为视图数据，并将读取的行为视图数据按照满意度标签分为满意行为视图数据和不满意行为视图数据两部分后，跳转执行步骤2-2。

4.如权利要求3所述的融合半监督学习和主动学习的搜索引擎用户满意度评估方法，其特征在于，步骤2-2中，使用生成模型来训练基于行为视图的用户满意度评估模型hA，学习观察值和标签值的联合概率分布，并利用马尔可夫链来对任意两个行为之间的转移进行建模，通过最大似然估计来计算两个行为ai和aj之间的转移概率：

其中，表示类C的行为视图数据中出现ai转移到aj的经验次数，表示类C的行为视图数据中出现ai的经验次数，α＞0表示平滑参数，通常设置为1，|V|表示行为类型的数量，Cs和Cu分别表示满意的类和不满意的类。

5.如权利要求3所述的融合半监督学习和主动学习的搜索引擎用户满意度评估方法，其特征在于，步骤2-3中，
将行为视图数据SA作为数据源，利用基于行为视图的用户满意度评估模型hA生成SA的概率P(SA|C)为：

给定行为视图数据SA，基于行为视图的用户满意度评估模型hA的似然值P(C|SA)为：

其中，Cs...

【专利技术属性】
技术研发人员：陈岭，范阿琳，
申请(专利权)人：浙江大学，
类型：发明
国别省市：浙江;33

全部详细技术资料下载我是这个专利的主人