建立查询改写判别模型、查询改写判别的方法和对应装置制造方法及图纸

技术编号:16837400 阅读:42 留言:0更新日期:2017-12-19 19:55
本发明专利技术提供了一种建立查询改写判别模型、查询改写判别的方法和对应装置,其中建立查询改写判别模型的方法包括:利用包含query对的第一正样本和第一负样本构成的第一样本集合,分别训练M个神经网络模型,得到M个底层模型,所述M为正整数;从包含query对的第二正样本和第二负样本构成的第二样本集合中提取特征,所述特征包括所述M个底层模型分别对所述第二样本集合中各query对的评分;利用提取的特征训练分类模型,得到查询改写判别模型。本发明专利技术利用了前沿的机器学习技术,以学习文本表达的潜在关联,从而实现查询改写的准确判别。

Establishment of query rewriting discriminant model, query rewriting discrimination method and corresponding device

The invention provides a set of query rewrite discriminant model, query rewrite discriminant method and corresponding device, including a query rewrite discriminant model methods: the first sample contains query on the first positive sample and negative sample first set of training, respectively M neural network model, get M the underlying model the M is an integer from second to query; contains positive samples and second negative samples consisting of second samples of the feature extraction of the feature set, including the underlying M models to query on the score of each of the second sample collection; using feature extraction training classification model, get the query rewriting discriminant model. The invention makes use of the machine learning technology in the front to learn the potential association of text expression so as to realize the accurate discrimination of query rewriting.

【技术实现步骤摘要】
建立查询改写判别模型、查询改写判别的方法和对应装置
本专利技术涉及计算机应用
,特别涉及一种建立查询改写判别模型、查询改写判别的方法和对应装置。
技术介绍
在搜索引擎中为了改善搜索结果,引入了查询改写这一技术。通过将用户输入的query进行改写,使得搜索结果能够召回改写后的query对应的搜索结果,从而使得用户需求的表达更加准确。在现有的查询改写技术中,主要是基于一些人工制定的规则,例如片段改写规则、调序改写规则、链式改写规则、省略改写规则,等等。然而,中文自然语言博大精深,字里行间体现了我国数千年的文化底蕴和先人智慧,基于人工制定的规则进行查询改写时,往往达不到较高的准确度要求。例如,在基于片段改写规则时,将“老干妈”改写为“老干娘”;在基于调序改写规则时,将“北京南到深圳”改写为“南京到深圳北”;在基于链式改写规则时,将“湖北汽车票”改写为“湖北车票”,再进而改写为“湖北火车票”;在基于省略改写规则时,将“美股的行情”改写为“美的行情”……显然这些查询改写的准确度是比较差的。因此急需一种判别一个query是否可以用于另一query的查询改写的方式
技术实现思路
有本文档来自技高网
...
建立查询改写判别模型、查询改写判别的方法和对应装置

【技术保护点】
一种建立查询改写判别模型的方法,其特征在于,该方法包括:利用包含query对的第一正样本和第一负样本构成的第一样本集合,分别训练M个神经网络模型,得到M个底层模型,所述M为正整数;从包含query对的第二正样本和第二负样本构成的第二样本集合中提取特征,所述特征包括所述M个底层模型分别对所述第二样本集合中各query对的评分;利用提取的特征训练分类模型,得到查询改写判别模型。

【技术特征摘要】
1.一种建立查询改写判别模型的方法,其特征在于,该方法包括:利用包含query对的第一正样本和第一负样本构成的第一样本集合,分别训练M个神经网络模型,得到M个底层模型,所述M为正整数;从包含query对的第二正样本和第二负样本构成的第二样本集合中提取特征,所述特征包括所述M个底层模型分别对所述第二样本集合中各query对的评分;利用提取的特征训练分类模型,得到查询改写判别模型。2.根据权利要求1所述的方法,其特征在于,所述第一样本集合采用如下方式获取:从搜索日志中获取被点击url的相似度大于或等于第一阈值的两个query构成的query对作为第一正样本,和/或,利用已有改写规则确定出原query的优质改写query,由该原query和优质改写query构成的query对作为第一正样本;从搜索日志中获取被点击url的相似度小于或等于第二阈值的两个query构成的query对作为第一负样本;其中所述第一阈值高于所述第二阈值。3.根据权利要求2所述的方法,其特征在于,所述第二样本集合采用如下方式获取:从搜索日志中获取被点击url的相似度大于或等于第三阈值并且小于或等于第四阈值的两个query构成的query对,所述第三阈值大于所述第二阈值,所述第四阈值小于所述第一阈值;依据人工对所述query对进行的标注结果,将人工标注为表述相同含义的query对作为第二正样本,将人工标注为表述不同含义的query对作为第二负样本。4.根据权利要求2或3所述的方法,其特征在于,对正样本进行以下过滤中的至少一种:若query对中两个query对应的搜索结果中排在前q个的共同url个数小于预设的个数阈值,则过滤掉该query对,q为预设的正整数;若query对中两个query分别去掉停用词后得到相同的表述,则过滤掉该query对;若query对中两个query包含不同的数字内容,则过滤掉该query对;若query对中两个query对应的url总点击次数小于预设的点击次数阈值,则过滤掉该query对;若query对中的一个query为另一个query的纠错表述,则过滤掉该query对。5.根据权利要求2或3所述的方法,其特征在于,对负样本进行以下过滤中的至少一种:若query对中的各query均不是具有预设需求的query,则过滤掉该query对;若一个query存在于多个query对,则保留其中m个query对,其他过滤掉,所述m为预设的正整数。6.根据权利要求1所述的方法,其特征在于,所述神经网络模型包括以下至少一种:基于多层感知机的神经网络BOW_NN、卷积神经网络CNN、双向递归神经网络BiRNN。7.根据权利要求1所述的方法,其特征在于,所述特征还包括以下中的一种或任意组合:统计特征、距离特征、位置特征、词语重要性特征、语义特征以及同义词改写特征。8.根据权利要求1所述的方法,其特征在于,所述利用提取的特征训练分类模型,得到查询改写判别模型包括:利用提取的特征分别训练N个分类模型,得到N个高阶模型,所述N为大于1的正整数;对所述N个高阶模型进行选择和集成,得到查询改写判别模型。9.根据权利要求8所述的方法,其特征在于,所述分类模型包括以下至少一种:梯度递归决策树GBDT、支持向量机SVM、逻辑回归LR、随机森林RF、多层感知器MLP。10.根据权利要求8所述的方法,其特征在于,对所述N个高阶模型进行选择和集成,得到查询改写判别模型包括:利用测试集对所述N个高阶模型的结果进行测试评分,所述测试集包含已确定改写评分的query对;依据测试评分选择其中P个高阶模型,所述P小于或等于所述N;对所述P个高阶模型进行加权处理,得到查询改写判别模型。11.一种判别查询改写的方法,其特征在于,该方法包括:从待判别query对中提取特征,所述特征包括M个底层模型对该query对的评分,所述M为正整数;将提取的特征输入查询改写判别模型,得到所述查询改写判别模型的判别结果;其中所述M个底层模型和所述查询改写判别模型是采用如权利要求1至10任一权项所述方法得到的。12.一种建立查询改写判别模型的装置,其特征在于,该装置包括:第一样本获取单元,用于获取包含query对的第一正样本和第一负样本构成的第一样本集合;第二样本获取单元,用于获取包含query对的第二正样本...

【专利技术属性】
技术研发人员:成幸毅林荣逸吕钦李磊
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1