文本关键词的确定方法和装置、存储介质及电子设备制造方法及图纸

技术编号:34364276 阅读:19 留言:0更新日期:2022-07-31 08:09
本发明专利技术公开了一种文本关键词的确定方法和装置、存储介质及电子设备。其中,该方法包括:获取目标文本中的预设的一组候选关键词中的每个候选关键词的第一词向量;根据预设的目标文本的文本类目特征以及每个候选关键词的词类目特征,确定每个候选关键词的第二词向量;根据每个候选关键词的第二词向量以及第一词向量,确定每个候选关键词的第三词向量;根据每个候选关键词的第一词向量、第二词向量以及第三词向量,确定每个候选关键词的目标词向量;根据每个候选关键词的目标词向量,确定出目标文本的目标候选关键词,将人工特征融合加入深度学习序列模型中,进而解决了现有技术中,获取的关键词准确率较低的技术问题。获取的关键词准确率较低的技术问题。获取的关键词准确率较低的技术问题。

【技术实现步骤摘要】
文本关键词的确定方法和装置、存储介质及电子设备


[0001]本专利技术涉及计算机
,具体而言,涉及一种文本关键词的确定方法和装置、存储介质及电子设备。

技术介绍

[0002]目前,在广告领域或其他公众号领域,通常后台服务器或根据用户的浏览内容推送相关内容,在推送系统中,通过需要获取用户浏览内容的通过关键词抽取模型抽取关键词,进而根据关键词推送相关内容,如,后台服务器发现用户常看的内容是关于体育方面的内容,服务器将会根据关键词体育向用户推送运动服饰、健身器材等相关广告。
[0003]在推荐系统领域中常用Wide&Deep类似模型架构处理同时引入模型的稀疏特征和稠密特征,使得模型同时具有记忆能力和泛化能力。在基于Wide&Deep类似模型架构的关键词抽取模型中,通过深度语义模型生成的候选词向量与根据人工特征得到的候选关键词向量直接拼接的策略,无法有效的将人工特征与深度文本建模表示融合在一起,导致确定的候选词准确性较低。
[0004]针对上述的问题,目前尚未提出有效的解决方案。
专利技术内本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本关键词的确定方法,其特征在于,包括:根据目标文本中的一组分词对应的一组词向量,确定预设的一组候选关键词中的每个候选关键词的第一词向量;根据预设的所述目标文本的文本类目特征以及预设的所述一组候选关键词中的每个候选关键词的词类目特征,确定所述每个候选关键词的第二词向量;根据所述每个候选关键词的所述第二词向量以及所述一组词向量,确定所述一组分词中的每个分词与所述每个候选关键词共同对应的权重值,根据所述每个分词与所述每个候选关键词共同对应的权重值以及所述一组词向量,确定所述每个候选关键词的第三词向量;将所述每个候选关键词的所述第一词向量、所述第二词向量以及所述第三词向量进行拼接,确定所述每个候选关键词的目标词向量;根据所述每个候选关键词的目标词向量,在所述一组候选关键词中确定出所述目标文本的目标候选关键词。2.根据权利要求1所述的方法,其特征在于,所述根据预设的所述目标文本的文本类目特征以及预设的所述一组候选关键词中的每个候选关键词的词类目特征,确定所述每个候选关键词的第二词向量,包括:获取所述文本类目特征对应的文本类目向量,以及与所述每个候选关键词的词类目特征对应的所述每个候选关键词的词类目向量;根据所述文本类目向量以及所述每个候选关键词的词类目向量,确定所述每个候选关键词的第二词向量。3.根据权利要求2所述的方法,其特征在于,所述根据所述文本类目向量以及所述每个候选关键词的词类目向量,确定所述每个候选关键词的第二词向量,包括:通过以下公式确定所述每个候选关键词的第二词向量:f
i
=f
doc
+f
i,keyword
其中,f
i
表示所述一组候选关键词中的第i个候选关键词的第二词向量,f
doc
表示所述文本类目向量,f
i,keyword
表示所述一组候选关键词中的第i个候选关键词的词类目向量。4.根据权利要求1所述的方法,其特征在于,所述根据所述每个候选关键词的所述第二词向量以及所述一组词向量,确定所述一组分词中的每个分词与所述每个候选关键词共同对应的权重值,包括:根据所述每个候选关键词的第二词向量和所述一组词向量,确定所述一组分词中的每个分词与所述每个候选关键词共同对应的分值;根据所述每个分词与所述每个候选关键词共同对应的分值,确定所述每个分词与所述每个候选关键词共同对应的权重值。5.根据权利要求4所述的方法,其特征在于,所述根据所述每个候选关键词的第二词向量和所述一组词向量,确定所述一组分词中的每个分词与所述每个候选关键词共同对应的分值,包括:通过以下公式确定所述每个分词与所述每个候选关键词共同对应的分值:
其中,表示所述一组分词中的第j个分词与所述一组候选关键词中的第i个候选关键词共同对应的分值,x
j
表示所述一组词向量中与所述第j个分词对应的第j个词向量,f
i
表示所述第i个候选关键词的第二词向量,[x
j
;f
i
]表示所述第j个词向量与所述第i个候选关键词的第二词向量拼接得到的向量,W
att
表示预设的与[x
j
;f
i
]匹配的矩阵,b
att
表示预设的常数。6.根据权利要求4所述的方法,其特征在于,所述根据所述每个分词与所述每个候选关键词共同对应的分值,确定所述每个分词与所述每个候选关键词共同对应的权重值,包括:通过以下公式确定所述每个分词与所述每个候选关键词共同对应的权重值:其中,表示所述一组分词中的第j个分词与所述一组候选关键词中的第i个候选关键词共同对应的权重值,表示所述一组分词中的所述第j个分词与所述一组候选关键词中的所述第i个候选关键词共同对应的分值,n表示所述一组分词中的分词的数量。7.根据权利要求1所述的方法,其特征在于,所述根据所述每个分词与所述每个候选关键词共同对应的权重值以及所述一组词向量,确定所述每个候选关键词的所述第三词向量,包括:通过以下公式确定所述每个候选关键词的第三词向量:其中,c
i
表示所述一组候选关键词中的第i个候选关键词的第三词向量,表示所述...

【专利技术属性】
技术研发人员:李天时
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1