一种分词词项权重的计算方法和装置制造方法及图纸

技术编号:21477816 阅读:23 留言:0更新日期:2019-06-29 04:51
本发明专利技术实施例公开了一种分词词项权重的计算方法和装置,用于实现对查询词中的各个分词词项权重的准确预测。本发明专利技术实施例提供一种分词词项权重的计算方法,所述方法包括:使用文本语料和历史查询词进行词向量训练,得到所述历史查询词的词向量,所述历史查询词通过历史搜索数据得到;以所述历史查询词的词向量作为特征,基于历史行为数据和通过对历史查询词搜索后得到的召回结果计算出的目标值,使用机器学习算法对依赖于所述历史查询词的多个分词词项权重进行训练,当误差最小或迭代次数达到次数阈值时结束训练;使用所述机器学习算法对目标查询词进行分词词项权重的计算,输出依赖于所述目标查询词的多个分词词项的权重值。

【技术实现步骤摘要】
一种分词词项权重的计算方法和装置
本专利技术涉及计算机
,尤其涉及一种分词词项权重的计算方法和装置。
技术介绍
在搜索引擎中用户可以输入查询词(query),对查询词做分词后可以得到多个分词词项(term)。当用户输入一个查询词时,目标是获取到与该查询词相关的有用信息,一个好的搜索引擎在于能准确返回用户想找的信息并将它们排前。文档的召回正是根据query中各个term在文档中求交所得,若query过长,很可能导致某些文档不能正确召回展现给用户,因此有必要对query中的各个term计算其权重,根据权重等进行处理对文档召回并排序。term权重作为其中的有效模块,对文档的召回及排序至关重要。现有技术中,在计算查询词中每个term权重时,主要采用的计算方法是从多文本数据集中获取词的相关共现统计特征,例如常见的词频-逆向文件频率(TermFrequency–InverseDocumentfrequency,TF-IDF)、互信息等特征,现有技术提供的相关共现统计特征仅仅考虑了文本中的词的共现等信息,而这些信息都是与查询词本身是独立的,使得对term权重的计算结果并不能反映不同查询词中相同term的重要程度。
技术实现思路
本专利技术实施例提供了一种分词词项权重的计算方法和装置,用于实现对查询词中的各个分词词项权重的准确预测。为解决上述技术问题,本专利技术实施例提供以下技术方案:第一方面,本专利技术实施例提供一种分词词项权重的计算方法,所述方法包括:使用文本语料和历史查询词进行词向量训练,得到所述历史查询词的词向量,所述历史查询词通过历史搜索数据得到;以所述历史查询词的词向量作为特征,基于历史行为数据和通过对历史查询词搜索后得到的召回结果计算出的目标值,使用机器学习算法对依赖于所述历史查询词的多个分词词项权重进行训练,当误差最小或迭代次数达到次数阈值时结束训练;使用所述回归算法对目标查询词进行分词词项权重的计算,输出依赖于所述目标查询词的多个分词词项的权重值。第二方面,本专利技术实施例还提供一种分词词项权重的计算装置,所述装置包括:词向量训练模块,用于使用文本语料和历史查询词进行词向量训练,得到所述历史查询词的词向量,所述历史查询词通过历史搜索数据得到;机器学习算法训练模块,用于以所述历史查询词的词向量作为特征,基于历史行为数据和通过对历史查询词搜索后得到的召回结果计算出的目标值,使用机器学习算法对依赖于所述历史查询词的多个分词词项权重进行训练,当误差最小或迭代次数达到次数阈值时结束训练;权重计算模块,用于使用所述回归算法对目标查询词进行分词词项权重的计算,输出依赖于所述目标查询词的多个分词词项的权重值。第三方面,提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述各方面所述的方法。从以上技术方案可以看出,本专利技术实施例具有以下优点:在本专利技术实施例中,首先使用文本语料和历史查询词进行词向量训练,得到历史查询词的词向量,历史查询词通过历史搜索数据得到,然后以历史查询词的词向量作为特征,基于历史行为数据和通过对历史查询词搜索后得到的召回结果计算出的目标值,使用机器学习算法对依赖于历史查询词的多个分词词项权重进行训练,当误差最小或迭代次数达到次数阈值时结束训练,最后使用机器学习算法对目标查询词进行分词词项权重的计算,输出依赖于目标查询词的多个分词词项的权重值。本专利技术实施例中通过对历史查询词的词向量训练,可以使用词向量来反映历史查询词的语义信息,并通过历史搜索数据可以得到历史查询词的统计特征,因此本专利技术实施例有效地结合了统计特征、语义和用户点击行为特征,从而预测分词词项权重时,可以取得很好的计算效果,实现对各个分词词项权重的准确预测。附图说明为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域的技术人员来讲,还可以根据这些附图获得其他的附图。图1为本专利技术实施例提供的一种分词词项权重的计算方法的流程方框示意图;图2为本专利技术实施例提供的分词词项权重的计算流程示意图;图3为本专利技术实施例提供的分词词项的词向量特征的计算方式示意图;图4-a为本专利技术实施例提供的一种分词词项权重的计算装置的组成结构示意图;图4-b为本专利技术实施例提供的一种词向量训练模块的组成结构示意图;图4-c为本专利技术实施例提供的一种机器学习算法训练模块的组成结构示意图;图4-d为本专利技术实施例提供的一种目标值获取模块的组成结构示意图;图4-e为本专利技术实施例提供的一种分词词项权重的计算装置的组成结构示意图;图5为本专利技术实施例提供的分词词项权重的计算方法应用于服务器的组成结构示意图。具体实施方式本专利技术实施例提供了一种分词词项权重的计算方法和装置,用于实现对查询词中的各个分词词项权重的准确预测。为使得本专利技术的专利技术目的、特征、优点能够更加的明显和易懂,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,下面所描述的实施例仅仅是本专利技术一部分实施例,而非全部实施例。基于本专利技术中的实施例,本领域的技术人员所获得的所有其他实施例,都属于本专利技术保护的范围。本专利技术的说明书和权利要求书及上述附图中的术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,以便包含一系列单元的过程、方法、系统、产品或设备不必限于那些单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它单元。以下分别进行详细说明。本专利技术分词词项权重的计算方法的一个实施例,具体可以应用于对查询词(query)中各个分词词项(term)的权重预测场景中。请参阅图1所示,本专利技术一个实施例提供的分词词项权重的计算方法,可以包括如下步骤:101、使用文本语料和历史查询词进行词向量训练,得到历史查询词的词向量,历史查询词通过历史搜索数据得到。在本专利技术实施例中,历史搜索数据是用户进行搜索产生的历史数据,该历史搜索数据主要包括浏览器日志及各垂直领域用户搜索数据,特别是需要运用到词权重结果的相关领域,通过该历史搜索数据可以获取到用户之前使用过的查询词,定义为“历史查询词”。本专利技术实施例中还可以获取到文本语料,该文本语料也可以称为语料文档信息,具体可以包括新闻页面中的摘要及正文,或者权威性较高的相关文档,这些文本语料可用于对历史查询词的词向量训练,得到历史查询词的词向量。其中,本专利技术实施例中采用的词向量训练方法可以包括:word2vector,word2vector是一个将单词转换成向量形式的工具,可以把对文本内容的处理简化为向量空间中的向量运算,计算出向量空间上的相似度,来表示文本语义上的相似度。本专利技术实施例中通过对历史查询词的词向量训练,可以使用词向量来反映历史查询词的语义信息。在本专利技术的一些实施例中,步骤101使用文本语料和历史查询词进行词向量训练,得到历史查询词的词向量,具体可以包括如下步骤:A1、根据历史搜索次数、查询词长度对历史搜索数据进行排除重复数据以及过滤,得到历史查询词;A2、对文本语料进行分词处理,得到查询词处理结果;A3、使用查询词处理结果对历史查询词进行词向量计算,得到历史查询词的词向量。其中,历史搜索次数本文档来自技高网...

【技术保护点】
1.一种分词词项权重的计算方法,其特征在于,所述方法包括:使用文本语料和历史查询词进行词向量训练,得到所述历史查询词的词向量,所述历史查询词通过历史搜索数据得到;以所述历史查询词的词向量作为特征,基于历史行为数据和通过对历史查询词搜索后得到的召回结果计算出的目标值,使用机器学习算法对依赖于所述历史查询词的多个分词词项权重进行训练,当误差最小或迭代次数达到次数阈值时结束训练;使用所述机器学习算法对目标查询词进行分词词项权重的计算,输出依赖于所述目标查询词的多个分词词项的权重值。

【技术特征摘要】
1.一种分词词项权重的计算方法,其特征在于,所述方法包括:使用文本语料和历史查询词进行词向量训练,得到所述历史查询词的词向量,所述历史查询词通过历史搜索数据得到;以所述历史查询词的词向量作为特征,基于历史行为数据和通过对历史查询词搜索后得到的召回结果计算出的目标值,使用机器学习算法对依赖于所述历史查询词的多个分词词项权重进行训练,当误差最小或迭代次数达到次数阈值时结束训练;使用所述机器学习算法对目标查询词进行分词词项权重的计算,输出依赖于所述目标查询词的多个分词词项的权重值。2.根据权利要求1所述的方法,其特征在于,所述使用文本语料和历史查询词进行词向量训练,得到所述历史查询词的词向量,包括:根据历史搜索次数、查询词长度对历史搜索数据进行排除重复数据以及过滤,得到所述历史查询词;对所述文本语料进行分词处理,得到查询词处理结果;使用所述查询词处理结果对所述历史查询词进行词向量计算,得到所述历史查询词的词向量。3.根据权利要求1所述的方法,其特征在于,所述以所述历史查询词的词向量作为特征,基于历史行为数据和通过对历史查询词搜索后得到的召回结果计算出的目标值,使用机器学习算法对依赖于所述历史查询词的多个分词词项权重进行训练,当误差最小或迭代次数达到次数阈值时结束训练,包括:对所述历史查询词进行分词处理,得到多个分词词项;根据所述多个分词词项中每个分词词项对应的词向量和所述历史查询词的词向量计算出所述多个分词词项中每个分词词项的词向量特征;根据历史行为数据和通过对历史查询词搜索后得到的召回结果获取机器学习算法的目标值;基于所述多个分词词项中每个分词词项的词向量特征和所述目标值,使用所述机器学习算法对多个分词词项权重进行训练。4.根据权利要求3所述的方法,其特征在于,所述根据历史行为数据和通过对历史查询词搜索后得到的召回结果获取机器学习算法的目标值,包括:使用所述历史查询词在搜索引擎中检索;获取通过所述搜索引擎反馈的召回结果,所述召回结果包括:通过所述搜索引擎召回的对应文档以及点击文档;从所述对应文档以及点击文档中统计出包含分词词项的文档数量以及包含历史查询词的文档数量;根据所述包含分词词项的文档数量以及包含历史查询词的文档数量计算出所述机器学习算法的目标值。5.根据权利要求1所述的方法,其特征在于,所述输出所述目标查询词的多个分词词项的权重值之后,所述方法还包括:对所述分词词项的权重值进行后验处理。6.根据权利要求5所述的方法,其特征在于,所述对所述分词词项的权重值进行后验处理,包括:分别判断所述多个分词词项是否属于停用词;获取属于停用词的分词词项和其左右两个词的紧密度;根据所述紧密度减小所述属于停用词的分词词项对应的权重值。7.一种分词词项权重的计算装置,其特征在于,所述装置包...

【专利技术属性】
技术研发人员:邓亚平连凤宗
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1