一种分词词项权重的计算方法和装置制造方法及图纸

技术编号：21477816 阅读：23 留言：0更新日期：2019-06-29 04:51

本发明专利技术实施例公开了一种分词词项权重的计算方法和装置，用于实现对查询词中的各个分词词项权重的准确预测。本发明专利技术实施例提供一种分词词项权重的计算方法，所述方法包括：使用文本语料和历史查询词进行词向量训练，得到所述历史查询词的词向量，所述历史查询词通过历史搜索数据得到；以所述历史查询词的词向量作为特征，基于历史行为数据和通过对历史查询词搜索后得到的召回结果计算出的目标值，使用机器学习算法对依赖于所述历史查询词的多个分词词项权重进行训练，当误差最小或迭代次数达到次数阈值时结束训练；使用所述机器学习算法对目标查询词进行分词词项权重的计算，输出依赖于所述目标查询词的多个分词词项的权重值。

全部详细技术资料下载

【技术实现步骤摘要】
一种分词词项权重的计算方法和装置
本专利技术涉及计算机
，尤其涉及一种分词词项权重的计算方法和装置。
技术介绍
在搜索引擎中用户可以输入查询词(query)，对查询词做分词后可以得到多个分词词项(term)。当用户输入一个查询词时，目标是获取到与该查询词相关的有用信息，一个好的搜索引擎在于能准确返回用户想找的信息并将它们排前。文档的召回正是根据query中各个term在文档中求交所得，若query过长，很可能导致某些文档不能正确召回展现给用户，因此有必要对query中的各个term计算其权重，根据权重等进行处理对文档召回并排序。term权重作为其中的有效模块，对文档的召回及排序至关重要。现有技术中，在计算查询词中每个term权重时，主要采用的计算方法是从多文本数据集中获取词的相关共现统计特征，例如常见的词频-逆向文件频率(TermFrequency–InverseDocumentfrequency，TF-IDF)、互信息等特征，现有技术提供的相关共现统计特征仅仅考虑了文本中的词的共现等信息，而这些信息都是与查询词本身是独立的，使得对term权重的计算结果并不能反映不同查询词中相同term的重要程度。
技术实现思路
本专利技术实施例提供了一种分词词项权重的计算方法和装置，用于实现对查询词中的各个分词词项权重的准确预测。为解决上述技术问题，本专利技术实施例提供以下技术方案：第一方面，本专利技术实施例提供一种分词词项权重的计算方法，所述方法包括：使用文本语料和历史查询词进行词向量训练，得到所述历史查询词的词向量，所述历史查询词通过历史搜索数据得到；以所述历史查...

【技术保护点】
1.一种分词词项权重的计算方法，其特征在于，所述方法包括：使用文本语料和历史查询词进行词向量训练，得到所述历史查询词的词向量，所述历史查询词通过历史搜索数据得到；以所述历史查询词的词向量作为特征，基于历史行为数据和通过对历史查询词搜索后得到的召回结果计算出的目标值，使用机器学习算法对依赖于所述历史查询词的多个分词词项权重进行训练，当误差最小或迭代次数达到次数阈值时结束训练；使用所述机器学习算法对目标查询词进行分词词项权重的计算，输出依赖于所述目标查询词的多个分词词项的权重值。

【技术特征摘要】
1.一种分词词项权重的计算方法，其特征在于，所述方法包括：使用文本语料和历史查询词进行词向量训练，得到所述历史查询词的词向量，所述历史查询词通过历史搜索数据得到；以所述历史查询词的词向量作为特征，基于历史行为数据和通过对历史查询词搜索后得到的召回结果计算出的目标值，使用机器学习算法对依赖于所述历史查询词的多个分词词项权重进行训练，当误差最小或迭代次数达到次数阈值时结束训练；使用所述机器学习算法对目标查询词进行分词词项权重的计算，输出依赖于所述目标查询词的多个分词词项的权重值。2.根据权利要求1所述的方法，其特征在于，所述使用文本语料和历史查询词进行词向量训练，得到所述历史查询词的词向量，包括：根据历史搜索次数、查询词长度对历史搜索数据进行排除重复数据以及过滤，得到所述历史查询词；对所述文本语料进行分词处理，得到查询词处理结果；使用所述查询词处理结果对所述历史查询词进行词向量计算，得到所述历史查询词的词向量。3.根据权利要求1所述的方法，其特征在于，所述以所述历史查询词的词向量作为特征，基于历史行为数据和通过对历史查询词搜索后得到的召回结果计算出的目标值，使用机器学习算法对依赖于所述历史查询词的多个分词词项权重进行训练，当误差最小或迭代次数达到次数阈值时结束训练，包括：对所述历史查询词进行分词处理，得到多个分词词项；根据所述多个分词词项中每个分词词项对应的词向量和所述历史查询词的词向量计算出所述多个分词词项中每个分词词项的词向量特征；根据历史行为数据和通过对历史查询词搜索后得到的召回结果获取机器学习算法的目标值；基于所述多个分词词项中每个分词词项的词向量特征和所述目标值，使用所述机器学习算法对多个分词词项权重进行训练。4.根据权利要求3所述的方法，其特征在于，所述根据历史行为数据和通过对历史查询词搜索后得到的召回结果获取机器学习算法的目标值，包括：使用所述历史查询词在搜索引擎中检索；获取通过所述搜索引擎反馈的召回结果，所述召回结果包括：通过所述搜索引擎召回的对应文档以及点击文档；从所述对应文档以及点击文档中统计出包含分词词项的文档数量以及包含历史查询词的文档数量；根据所述包含分词词项的文档数量以及包含历史查询词的文档数量计算出所述机器学习算法的目标值。5.根据权利要求1所述的方法，其特征在于，所述输出所述目标查询词的多个分词词项的权重值之后，所述方法还包括：对所述分词词项的权重值进行后验处理。6.根据权利要求5所述的方法，其特征在于，所述对所述分词词项的权重值进行后验处理，包括：分别判断所述多个分词词项是否属于停用词；获取属于停用词的分词词项和其左右两个词的紧密度；根据所述紧密度减小所述属于停用词的分词词项对应的权重值。7.一种分词词项权重的计算装置，其特征在于，所述装置包...

【专利技术属性】
技术研发人员：邓亚平，连凤宗，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人