网页训练的方法和装置、搜索意图识别的方法和装置制造方法及图纸

技术编号:15822641 阅读:57 留言:0更新日期:2017-07-15 04:52
本发明专利技术涉及一种网页训练的方法和装置,包括:获取人工标注类别的训练网页集合,生成训练网页集合中的网页的网页向量,具体包括:获取训练网页集合中的第一训练网页的有效历史查询字符串,对有效历史查询字符串进行分词;获取各个分词的有效次数,有效次数为有效历史查询字符串中分词出现的总次数;根据各个分词的有效次数计算各个分词的分词权重;根据各个分词和对应的分词权重生成所述第一训练网页的网页向量;根据训练网页集合中的网页的人工标注类别和对应的网页向量训练生成网页分类模型,训练成本低,效率高,且生成网页分类模型后可自动对网页进行标注类别,可使识别出的意图正确率更高,还提出一种搜索意图识别的方法和装置。

【技术实现步骤摘要】
网页训练的方法和装置、搜索意图识别的方法和装置
本专利技术涉及互联网
,特别是涉及一种网页训练的方法和装置、搜索意图识别的方法和装置。
技术介绍
随着互联网技术的发展,人们可以通过网络使用搜索引擎检索自己所需要的信息。如当用户在搜索引擎里输入“仙剑奇侠传”时,用户的意图较大可能是搜索电视剧或搜索游戏,搜索引擎需要先判断出用户搜索的意图,才能使返回的搜索结果更接近用户需要的内容。意图识别就是对于任意给定的查询字符串,判断该查询字符串属于的类别。现有的搜索意图识别方法,往往使用人工标注的方法对网页标注类别,在进行意图识别时,需要使用人工标注的网页类别进行识别,需要人工标注每个类别的网页集合,成本太高,而且人工标注的结果往往数量有限,对于点击率少的网页很有可能网页的类别未知,导致意图识别的准确率不高。
技术实现思路
基于此,有必要针对上述技术问题,提供一种网页训练的方法和装置、搜索意图识别的方法和装置,提高搜索意图识别的准确率。一种网页训练的方法,所述方法包括:获取人工标注类别的训练网页集合,生成所述训练网页集合中的网页的网页向量,具体包括:获取所述训练网页集合中的第一训练网页的有效历史本文档来自技高网...
网页训练的方法和装置、搜索意图识别的方法和装置

【技术保护点】
一种网页训练的方法,所述方法包括:获取人工标注类别的训练网页集合,生成所述训练网页集合中的网页的网页向量,具体包括:获取所述训练网页集合中的第一训练网页的有效历史查询字符串,对所述有效历史查询字符串进行分词;获取各个分词的有效次数,所述有效次数为所述有效历史查询字符串中所述分词出现的总次数;根据所述各个分词的有效次数计算各个分词的分词权重;根据所述各个分词和对应的分词权重生成所述第一训练网页的网页向量;根据所述训练网页集合中的网页的人工标注类别和对应的网页向量训练生成网页分类模型。

【技术特征摘要】
1.一种网页训练的方法,所述方法包括:获取人工标注类别的训练网页集合,生成所述训练网页集合中的网页的网页向量,具体包括:获取所述训练网页集合中的第一训练网页的有效历史查询字符串,对所述有效历史查询字符串进行分词;获取各个分词的有效次数,所述有效次数为所述有效历史查询字符串中所述分词出现的总次数;根据所述各个分词的有效次数计算各个分词的分词权重;根据所述各个分词和对应的分词权重生成所述第一训练网页的网页向量;根据所述训练网页集合中的网页的人工标注类别和对应的网页向量训练生成网页分类模型。2.根据权利要求1所述的方法,其特征在于,所述根据所述训练网页集合中的网页的人工标注类别和对应的网页向量训练生成网页分类模型的步骤之前,还包括:获取所述训练网页集合中的网页的LDA特征;所述根据所述训练网页集合中的网页的人工标注类别和对应的网页向量训练生成网页分类模型的步骤为:根据所述网页的LDA特征、人工标注类别和对应的网页向量训练生成网页分类模型。3.根据权利要求1所述的方法,其特征在于,所述网页分类模型的训练采用逻辑回归法。4.根据权利要求1所述的方法,其特征在于,所述根据所述各个分词的有效次数计算各个分词的分词权重的步骤包括:根据公式W(qi)=log(ci+1)计算分词qi的分词权重W(qi),其中i为分词的序号,ci为分词qi的有效次数。5.一种搜索意图识别的方法,所述方法包括:获取待识别的查询字符串,获取所述查询字符串对应的历史网页集合,所述历史网页集合中包括历史通过所述查询字符串点击的各个网页;获取通过所述权利要求1至4中任一项所述的网页训练的方法生成的网页分类模型,根据所述网页分类模型得到所述历史网页集合中的网页的类别;统计各个类别中的网页数量,根据所述各个类别中的网页数量和历史网页集合中网页的总数量计算得到所述查询字符串的意图分布;根据所述意图分布得到所述查询字符串的意图识别结果。6.根据权利要求5所述的方法,其特征在于,在所述根据所述意图分布得到所述查询字符串的意图识别结果的步骤之前,还包括:获取字符串分类模型,根据所述字符串分类模型得到所述查询字符串的预测类别;所述根据所述意图分布得到所述查询字符串的意图识别结果的步骤为:根据所述意图分布和预测类别得到所述查询字符串的意图识别结果。7.根据权利要求6所述的方法,其特征在于,所述获取字符串分类模型的步骤之前,还包括:获取历史查询字符串对应的意图分布中意图概率最大的类别对应的查询字符串作为类别训练查询字符串,其中所述意图概率最大的类别包括多个不同类别;对所述不同类别对应的类别训练查询字符串提取基于词语和/或基于字符的n元语法特征,所述n为大于1且小于当前提取的查询字符串词语长度或字符长度的整数;将所述n元语法特征和对应的类别作为训练数据采用分类模型进行训练生成所述...

【专利技术属性】
技术研发人员:王忠存
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1