分类器用训练数据获取方法和装置、服务器及存储介质制造方法及图纸

技术编号:17248695 阅读:26 留言:0更新日期:2018-02-11 06:55
本发明专利技术提出了分类器用训练数据获取方法和装置、服务器及存储介质。该分类器用训练数据获取方法包括以下步骤:图片检索意图获得步骤,根据用户输入获得图片检索意图;图片提供步骤,根据所述图片检索意图向用户提供展示图片;类别对应步骤,根据用户对所述图片的选择,确定所述图片检索意图与对应的图片实体分类类别对。根据本发明专利技术的实施方式,可以获得更多的高质量训练数据,有助于分类器性能的提高。

【技术实现步骤摘要】
分类器用训练数据获取方法和装置、服务器及存储介质
本专利技术涉及分类器,尤其涉及在线检索系统的查询意图分类器的训练数据获取方法和装置、服务器及存储介质。
技术介绍
商业搜索引擎(如百度、google、好搜等产品)的在线检索系统的查询意图分类器(query分类器)是进行流量分析、细化排序的关键模块。一般查询意图分类都通过人工标注训练数据训练分类器得到。当前的图片检索结果排序主要是通过图片周边文本与查询的文本相关性、以及点击累计数据等为主要特征进行排序,少有考虑图片内容和查询本身的直接相关性。人工标注成本高,而且长尾场景覆盖不足,而且无法有效地广泛地与图像内容做匹配。
技术实现思路
本专利技术鉴于现有技术的上述问题提出,用于克服或缓解现有技术存在的一个或更多个问题,至少提供一种有益的选择。为了实现以上的目的,根据本专利技术的一个方面,提供了一种分类器用训练数据获取方法,包括以下步骤:图片检索意图获得步骤,根据用户输入获得图片检索意图;图片提供步骤,根据所述图片检索意图向用户提供展示图片;类别对应步骤,根据用户对所述图片的选择,确定所述图片检索意图与对应的图片实体分类类别对。根据一种实施方式,所述方法还包括汇聚步骤,对所述类别对应步骤多次运行所获得的所述图片检索意图与对应的图片实体分类类别对进行汇聚,获得所述图片检索意图与对应的图片实体分类类别对组。根据一种实施方式,所述方法还包括以下两个步骤之一或两者:点击过滤步骤,去掉所述用户对图片的不可信点击;所述类别对应步骤根据去掉不可信点击后的对图片的选择,确定所述图片检索意图对应的图片实体分类类别;评估步骤,对所获得的所述图片检索意图与对应的图片实体分类类别对组或所述图片检索意图与对应的图片实体分类类别对进行评估。根据一种实施方式,所述图片检索意图与对应的图片实体分类类别对组包含与所述图片检索意图对应的各图片实体分类类别的占比。根据一种实施方式,所述点击过滤步骤采用以下采用点击率分析法、视觉实体分类法、聚类分析法三种方法之一或其组合来进行,所述点击过滤步骤采用点击率分析法、视觉实体分类法、聚类分析法三种方法之一或其组合来进行,所述点击率分析法根据点击总数和/或点击比例来区分可信点击和不可信点击;所述聚类分析法对所点击的图片进行聚类,将针对图片数、或图片数与最多聚类的图片数的差和/或比值未满足预定条件的聚类图片的点击列为不可信点击;所述视觉实体分类法根据所点击的图片的视觉实体分类,将针对数目、或数目与最多视觉实体分类的图片数的差和/或比例未满足预定条件的图片的点击列为不可信点击。根据本专利技术的另一方面,提供了一种分类器用训练数据获取装置,包括:图片检索意图获取单元,根据用户输入获得图片检索意图;图片提供单元,根据所述图片检索意图向用户提供展示图片;类别对应单元,根据用户对所述图片的选择,确定所述图片检索意图与对应的图片实体分类类别对。根据一种实施方式,所述方法还包括汇聚单元,对所述类别对应单元所获得的多个所述图片检索意图与对应的图片实体分类类别对进行汇聚,获得所述图片检索意图与对应的图片实体分类类别对组。根据一种实施方式,所述装置还包括以下两个单元之一或两者:点击过滤单元,去掉所述用户对图片的不可信点击;所述类别对应单元根据去掉不可信点击后的对图片的选择,确定所述图片检索意图对应的图片实体分类类别;评估单元,对所获得的所述图片检索意图与对应的图片实体分类类别对组或所述图片检索意图与对应的图片实体分类类别对进行评估。根据一种实施方式,所述点击过滤单元采用以下采用点击率分析法、视觉实体分类法、聚类分析法三种方法之一或其组合来进行,所述点击过滤步骤采用点击率分析法、视觉实体分类法、聚类分析法三种方法之一或其组合来进行,所述点击率分析法根据点击总数和/或点击比例来区分可信点击和不可信点击;所述聚类分析法对所点击的图片进行聚类,将针对图片数、或图片数与最多聚类的图片数的差和/或比值未满足预定条件的聚类图片的点击列为不可信点击;所述视觉实体分类法根据所点击的图片的视觉实体分类,将针对数目、或数目与最多视觉实体分类的图片数的差和/或比例未满足预定条件的图片的点击列为不可信点击。根据本专利技术的又一方面,提供了一种图片检索服务器,所述图片检索服务器包括:一个或多个处理器;存储装置,用于存储一个或多个程序;当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现所要求权利的方法。根据本专利技术的在一方面提供了一种计算机可读存储介质,其存储有计算机程序,该程序被处理器执行时实现所要求权利的任一方法。根据本专利技术的实施方式,可以获得更多的高质量训练数据,有助于分类器性能的提高。附图说明在附图中,除非另外规定,否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解,这些附图仅描绘了根据本专利技术公开的一些实施方式,而不应将其视为是对本专利技术范围的限制。图1是示出了依据本专利技术的一种实施方式的分类器用训练数据获取方法的示意性流程图。图2示出了依据本专利技术的一种实施方式的分类器用训练数据获取装置的示意性方框图。图3示出了依据本专利技术的另一种实施方式的分类器用训练数据获取装置的示意性方框图。图4示出了依据本专利技术的另一种实施方式的图片检索服务器的示意性方框图。具体实施方式在下文中,仅简单地描述了某些示例性实施例。正如本领域技术人员可认识到的那样,在不脱离本专利技术的精神或范围的情况下,可通过各种不同方式修改所描述的实施例。因此,附图和描述被认为本质上是示例性的而非限制性的。图1是示出了依据本专利技术的一种实施方式的分类器用训练数据获取方法的示意性流程图。如图1所示,依据本专利技术的一种实施方式,首先在步骤S101,获得检索意图表达,这可以从用户所使用的计算机接收用户的输入而获得,用户对检索意图的表达通常是文本。例如可以是在搜索框中输入的文字、表情。用户也可能通过对网页中的文字、表情或图像的双击等操作,也可能是语音的输入等来进行检索表达。在步骤S101,根据用户的输入获得检索意图表达。在步骤S101中,可能会包括对检索意图表达的一些处理,例如去掉空格,进行图像、音频到文本的转换等。然后在步骤S102,根据所获得的检索意图表达向用户提供展示图片。在检索系统中匹配文本对应的图片提供展示给用户。展示图片例如可通过发送给接收用户输入的计算机而进行提供。接着,在步骤S103,进行点击过滤。过滤掉不可信的点击。根据一种实施方式,这种不可信的点击的过滤采用点击率分析法,点击率分析法即根据点击总数、点击比例来区分可信点击和误点击作弊等不可信点击。可以参见以下的文献:LearningQueryandDocumentRelevancefromaWeb-scaleClickGraphSJiang,YHu,CKang,TDalyJr,DYin…-Proceedingsofthe39th…,2016-dl.acm.org根据另一种实施方式,首先是将用户针对该检索意图表达而点击的图像进行聚类,根据聚类的结果,将数量少于阈值的点击列为不可信点击。或者将与数量组大的聚类的差值/比值大于阈值的点击列为不可信点击。例如:如果输入的检索意图表达是“猫女图片”,客户共点击了10张图片,其中九张是与蝙蝠侠电影中本文档来自技高网...
分类器用训练数据获取方法和装置、服务器及存储介质

【技术保护点】
一种分类器用训练数据获取方法,包括以下步骤:图片检索意图获得步骤,根据用户输入获得图片检索意图;图片提供步骤,根据所述图片检索意图向用户提供展示图片;类别对应步骤,根据用户对所述图片的选择,确定所述图片检索意图与对应的图片实体分类类别对。

【技术特征摘要】
1.一种分类器用训练数据获取方法,包括以下步骤:图片检索意图获得步骤,根据用户输入获得图片检索意图;图片提供步骤,根据所述图片检索意图向用户提供展示图片;类别对应步骤,根据用户对所述图片的选择,确定所述图片检索意图与对应的图片实体分类类别对。2.根据权利要求1所述的分类器用训练数据获取方法,其特征在于,所述方法还包括汇聚步骤,对所述类别对应步骤多次运行所获得的所述图片检索意图与对应的图片实体分类类别对进行汇聚,获得所述图片检索意图与对应的图片实体分类类别对组。3.根据权利要求1或2所述的分类器用训练数据获取方法,其特征在于,所述方法还包括以下两个步骤之一或两者:点击过滤步骤,去掉所述用户对图片的不可信点击;所述类别对应步骤根据去掉不可信点击后的对图片的选择,确定所述图片检索意图对应的图片实体分类类别;评估步骤,对所获得的所述图片检索意图与对应的图片实体分类类别对组或所述图片检索意图与对应的图片实体分类类别对进行评估。4.根据权利要求2所述的分类器用训练数据获取方法,其特征在于,所述图片检索意图与对应的图片实体分类类别对组包含与所述图片检索意图对应的各图片实体分类类别的可能性占比。5.根据权利要求3所述的分类器用训练数据获取方法,其特征在于,所述点击过滤步骤采用点击率分析法、视觉实体分类法、聚类分析法三种方法之一或其组合来进行,所述点击率分析法根据点击总数和/或点击比例来区分可信点击和不可信点击;所述聚类分析法对所点击的图片进行聚类,将针对图片数、或图片数与最多聚类的图片数的差和/或比值未满足预定条件的聚类图片...

【专利技术属性】
技术研发人员:李肃付立波
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1