关键词的权重计算方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:29228776 阅读:14 留言:0更新日期:2021-07-10 01:16
本发明专利技术实施例公开了一种关键词的权重计算方法、装置、计算机设备及存储介质。方法包括:获取用户输入的查询内容;然后对查询内容进行分词处理,得到查询内容对应的关键词;并将查询内容输入训练后的BERT网络模型进行双向语言表征处理,得到查询内容中每个字的字向量;根据关键词中每个字分别对应的字向量确定关键词对应的关键词向量;将关键词向量输入训练后的前馈神经网络模型,得到关键词对应的权重。本发明专利技术实施例中,获取到的关键词向量与查询内容中的上下文相关,为动态关键词向量,然后再根据前馈神经网络对该动态关键词向量的权重进行预测,得到关键词的动态权重,当该动态权重应用在搜索引擎中时,可以提高搜索引擎的召回率。的召回率。的召回率。

【技术实现步骤摘要】
关键词的权重计算方法、装置、计算机设备及存储介质


[0001]本专利技术涉及互联网
,尤其涉及一种关键词的权重计算方法、装置、计算机设备及存储介质。

技术介绍

[0002]随着互联网的发展,互联网中的存储数据量非常大,因此为了使用户能够快速准确的找到所需要的数据内容,提供互联网搜索服务的厂商就需要对搜索引擎的搜索质量进行优化。其中,关键词权重是搜索引擎给予搜索内容的一个的评估值,这个权重可以反映出关键词的重要程度,权重越高,说明该关键词越得到重视。
[0003]在用户使用搜索引擎的过程中,会在搜索框中提交査询内容,这些查询内容通常称之为query,搜索引擎需要根据query在海量数据中获取有用信息,由于query中具有不同的关键词,其中,每个关键词对于获取查询结果而言其重要程度各不相同,因此若要根据query准确获取到查询结果就需要参考query中各个关键词的重要性,也就是需要利用query中关键词的权重进行结果的查询。
[0004]现有技术中,一般是使用基于统计学的词频

逆文本频率指数(Term Frequency

Inverse Document Frequency,TF

IDF)或者BM25等静态权重算法对关键词进行权重的计算,在这些静态权重算法中,每个关键词都有预设的对应权重,由于同一个关键词在不同的语境中,其权重可能是不一样的,如果都使用固定的权重,将会影响搜索引擎的召回效果。

技术实现思路

[0005]本专利技术实施例提供了一种关键词的权重计算方法、装置、计算机设备及存储介质,可以提高搜索引擎的召回率。
[0006]第一方面,本专利技术实施例提供了一种关键词的权重计算方法,其包括:
[0007]获取用户输入的查询内容;
[0008]对所述查询内容进行分词处理,得到所述查询内容对应的关键词;
[0009]将所述查询内容输入训练后的BERT网络模型进行双向语言表征处理,得到所述查询内容中每个字的字向量;
[0010]根据所述关键词中每个字分别对应的所述字向量确定所述关键词对应的关键词向量;
[0011]将所述关键词向量输入训练后的前馈神经网络模型,得到所述关键词对应的权重。
[0012]第二方面,本专利技术实施例还提供了一种关键词的权重计算装置,其包括用于执行上述方法的单元。
[0013]第三方面,本专利技术实施例还提供了一种计算机设备,其包括存储器及处理器,所述存储器上存储有计算机程序,所述处理器执行所述计算机程序时实现上述方法。
[0014]第四方面,本专利技术实施例还提供了一种计算机可读存储介质,所述存储介质存储
有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时可实现上述方法。
[0015]本专利技术实施例提供了一种关键词的权重计算方法、装置、计算机设备及存储介质。其中,所述方法包括:获取用户输入的查询内容;然后对所述查询内容进行分词处理,得到所述查询内容对应的关键词;并将所述查询内容输入训练后的BERT网络模型进行双向语言表征处理,得到所述查询内容中每个字的字向量;再根据所述关键词中每个字分别对应的所述字向量确定所述关键词对应的关键词向量;最后将所述关键词向量输入训练后的前馈神经网络模型,得到所述关键词对应的权重。本专利技术实施例中,获取到的关键词向量与查询内容中的上下文相关,为动态关键词向量,然后再将动态关键词向量接前馈神经网络对关键词的权重进行预测,得到关键词的动态权重,与传统的静态权重相比,本方案中的动态权重与查询内容中的上下文相关联,当该动态权重应用在搜索引擎中时,可以提高搜索引擎的召回率。
附图说明
[0016]为了更清楚地说明本专利技术实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0017]图1为本专利技术实施例提供的关键词的权重计算方法的应用场景示意图;
[0018]图2为本专利技术实施例提供的关键词的权重计算方法的流程示意图;
[0019]图3为本专利技术实施例提供的关键词的权重计算方法的一个子流程示意图;
[0020]图4为本专利技术实施例提供的关键词的权重计算方法的另一个子流程示意图;
[0021]图5为本专利技术实施例提供的BERT网络模型的一个结构示意图;
[0022]图6为本专利技术实施例提供的BERT网络模型的一个训练框架示意图;
[0023]图7为本专利技术实施例提供的关键词的权重计算方法的另一个子流程示意图;
[0024]图8为本专利技术实施例提供的前馈神经网络模型的一个结构示意图;
[0025]图9为本专利技术实施例提供的关键词的权重计算方法的另一个子流程示意图;
[0026]图10为本专利技术实施例提供的关键词的权重计算方法的另一个流程示意图;
[0027]图11为本专利技术实施例提供的关键词的权重计算装置的示意性框图;
[0028]图12为本专利技术实施例提供的关键词的权重计算装置的另一个示意性框图;
[0029]图13为本专利技术实施例提供的计算机设备的示意性框图。
具体实施方式
[0030]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0031]应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
[0032]还应当理解,在此本专利技术说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本专利技术。如在本专利技术说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
[0033]还应当进一步理解,在本专利技术说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
[0034]本专利技术实施例提供一种关键词的权重计算方法、装置、计算机设备及存储介质。
[0035]本实施例提供的一种关键词的权重计算方法的执行主体可以是与该方法对应的关键词的权重计算装置,或者集成了该关键词的权重计算装置的计算机设备,具体地,该权重计算装置可以为搜索引擎,或者为搜索引擎的搜索入口一部件,也可以为可以与搜索引擎进行数据交互的装置,该计算机设备可以采用硬件或者软件的方式实现,该计算机设备可以包括服务器或终端,该终端可以是智能手机、平板电脑、掌上电脑、或者笔记本电脑等。
...

【技术保护点】

【技术特征摘要】
1.一种关键词的权重计算方法,其特征在于,包括:获取用户输入的查询内容;对所述查询内容进行分词处理,得到所述查询内容对应的关键词;将所述查询内容输入训练后的BERT网络模型进行双向语言表征处理,得到所述查询内容中每个字的字向量;根据所述关键词中每个字分别对应的所述字向量确定所述关键词对应的关键词向量;将所述关键词向量输入训练后的前馈神经网络模型,得到所述关键词对应的权重。2.根据权利要求1所述的方法,其特征在于,所述根据所述关键词中每个字分别对应的所述字向量确定所述关键词对应的关键词向量,包括:确定所述关键词中每个字分别对应的所述字向量;对所述关键词中每个字分别对应的所述字向量进行叠加平均处理,得到所述关键词对应的关键词向量。3.根据权利要求1所述的方法,其特征在于,所述将所述关键词向量输入训练后的前馈神经网络模型,得到所述关键词对应的权重,包括:将所述关键词向量输入所述训练后的前馈神经网络模型中进行二分类,得到二分类结果,所述二分类结果包括所述关键词重要性分数以及不重要性分数;将所述重要性分数确定为所述关键词对应的权重。4.根据权利要求1所述的方法,其特征在于,所述将所述查询内容输入训练后的BERT网络模型进行双向语言表征处理,得到所述查询内容中每个字的字向量,包括:基于所述训练后的BERT网络模型,分别确定所述查询内容中每个字的原始字向量、文本向量以及位置向量;根据所述原始字向量、所述文本向量以及所述位置向量确定所述查询内容中每个字的字向量。5.根据权利要求1所述的方法,其特征在于,所述将所述查询内容输入训练后的BERT网络模型进行双向语言表征处理,得到所述查询内容中每个字的字向量之前,所述方法还包括:获取垂直领域的训练样...

【专利技术属性】
技术研发人员:张聪刘璐
申请(专利权)人:平安国际智慧城市科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1