关键词的权重计算方法、装置、计算机设备及存储介质制造方法及图纸

技术编号：29228776 阅读：14 留言：0更新日期：2021-07-10 01:16

本发明专利技术实施例公开了一种关键词的权重计算方法、装置、计算机设备及存储介质。方法包括：获取用户输入的查询内容；然后对查询内容进行分词处理，得到查询内容对应的关键词；并将查询内容输入训练后的BERT网络模型进行双向语言表征处理，得到查询内容中每个字的字向量；根据关键词中每个字分别对应的字向量确定关键词对应的关键词向量；将关键词向量输入训练后的前馈神经网络模型，得到关键词对应的权重。本发明专利技术实施例中，获取到的关键词向量与查询内容中的上下文相关，为动态关键词向量，然后再根据前馈神经网络对该动态关键词向量的权重进行预测，得到关键词的动态权重，当该动态权重应用在搜索引擎中时，可以提高搜索引擎的召回率。的召回率。的召回率。

全部详细技术资料下载

【技术实现步骤摘要】
关键词的权重计算方法、装置、计算机设备及存储介质

[0001]本专利技术涉及互联网
，尤其涉及一种关键词的权重计算方法、装置、计算机设备及存储介质。

技术介绍

[0002]随着互联网的发展，互联网中的存储数据量非常大，因此为了使用户能够快速准确的找到所需要的数据内容，提供互联网搜索服务的厂商就需要对搜索引擎的搜索质量进行优化。其中，关键词权重是搜索引擎给予搜索内容的一个的评估值，这个权重可以反映出关键词的重要程度，权重越高，说明该关键词越得到重视。
[0003]在用户使用搜索引擎的过程中，会在搜索框中提交査询内容，这些查询内容通常称之为query，搜索引擎需要根据query在海量数据中获取有用信息，由于query中具有不同的关键词，其中，每个关键词对于获取查询结果而言其重要程度各不相同，因此若要根据query准确获取到查询结果就需要参考query中各个关键词的重要性，也就是需要利用query中关键词的权重进行结果的查询。
[0004]现有技术中，一般是使用基于统计学的词频
‑
逆文本频率指数(Term Frequency
–
Inverse Document Frequency，TF
‑
IDF)或者BM25等静态权重算法对关键词进行权重的计算，在这些静态权重算法中，每个关键词都有预设的对应权重，由于同一个关键词在不同的语境中，其权重可能是不一样的，如果都使用固定的权重，将会影响搜索引擎的召回效果。

技术实现思路

[0005]本专利

【技术保护点】

【技术特征摘要】
1.一种关键词的权重计算方法，其特征在于，包括：获取用户输入的查询内容；对所述查询内容进行分词处理，得到所述查询内容对应的关键词；将所述查询内容输入训练后的BERT网络模型进行双向语言表征处理，得到所述查询内容中每个字的字向量；根据所述关键词中每个字分别对应的所述字向量确定所述关键词对应的关键词向量；将所述关键词向量输入训练后的前馈神经网络模型，得到所述关键词对应的权重。2.根据权利要求1所述的方法，其特征在于，所述根据所述关键词中每个字分别对应的所述字向量确定所述关键词对应的关键词向量，包括：确定所述关键词中每个字分别对应的所述字向量；对所述关键词中每个字分别对应的所述字向量进行叠加平均处理，得到所述关键词对应的关键词向量。3.根据权利要求1所述的方法，其特征在于，所述将所述关键词向量输入训练后的前馈神经网络模型，得到所述关键词对应的权重，包括：将所述关键词向量输入所述训练后的前馈神经网络模型中进行二分类，得到二分类结果，所述二分类结果包括所述关键词重要性分数以及不重要性分数；将所述重要性分数确定为所述关键词对应的权重。4.根据权利要求1所述的方法，其特征在于，所述将所述查询内容输入训练后的BERT网络模型进行双向语言表征处理，得到所述查询内容中每个字的字向量，包括：基于所述训练后的BERT网络模型，分别确定所述查询内容中每个字的原始字向量、文本向量以及位置向量；根据所述原始字向量、所述文本向量以及所述位置向量确定所述查询内容中每个字的字向量。5.根据权利要求1所述的方法，其特征在于，所述将所述查询内容输入训练后的BERT网络模型进行双向语言表征处理，得到所述查询内容中每个字的字向量之前，所述方法还包括：获取垂直领域的训练样...

【专利技术属性】
技术研发人员：张聪，刘璐，
申请(专利权)人：平安国际智慧城市科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人