文本标签挖掘方法、装置、设备及存储介质制造方法及图纸

技术编号:27284383 阅读:19 留言:0更新日期:2021-02-06 11:52
本申请适用于自然语言处理、机器学习技术领域,提供一种文本标签挖掘方法、装置、设备及存储介质,其方法包括:接收待挖掘文本并获取与待挖掘文本对应的文本关键词;对待挖掘文本及其对应的文本关键词进行向量匹配处理,以获取待挖掘文本的文本向量以及文本关键词的词向量;根据待挖掘文本的文本向量以及文本关键词的词向量计算出文本关键词与待挖掘文本之间的相似度值,并根据相似度值确定文本关键词是否被设定为是待挖掘文本的文本标签。上述方法通过文本向量与词向量匹配的方式来确定的文本标签,可以准确地表达文本的主题,解决传统的文本标签生成方法中不能准确表达文章主题的问题,还可以帮助用户对文档内容进行正确的归类和理解。的归类和理解。的归类和理解。

【技术实现步骤摘要】
文本标签挖掘方法、装置、设备及存储介质


[0001]本申请涉及自然语言处理、机器学习
,尤其涉及一种文本标签挖掘方法、装置、设备及存储介质。

技术介绍

[0002]随着互联网技术的发展,网络上的信息量与日俱增,各类信息充斥于互联网,而每个人感兴趣的信息只是其中的一小部分,如何帮助用户查找到其感兴趣的信息变得越来越难。目前无论是网络文本还是纸版文本中,通常会采用一些文本标签来代表文本内容,比如阅读新闻、论文时所看到的关键字标签。现有技术中传统文本标签生成方式通常是按照预先设定好的关键词提取规则从标签库中进行匹配获得,虽然此种方式限定了关键词会落入标签库中,但是这种方式挖掘得到的文本标签也难以准确地表达文本的主题,使得用户难以对文档内容进行正确的归类和理解。

技术实现思路

[0003]有鉴于此,本申请实施例提供了一种文本标签挖掘方法、装置、设备及存储介质,可以通过向量匹配的方式准确地表达文本的主题,解决了传统文本标签生成不能准确表达文章主题的问题,也可以帮助用户对文档内容进行正确的归类和理解。
[0004]本申请实施例的第一方面提供了一种文本标签挖掘方法,包括:
[0005]接收待挖掘文本并获取与所述待挖掘文本对应的文本关键词;
[0006]对所述待挖掘文本及其对应的文本关键词进行向量匹配处理,以获取所述待挖掘文本的文本向量以及所述文本关键词的词向量;
[0007]根据所述待挖掘文本的文本向量以及所述文本关键词的词向量计算出所述文本关键词与所述待挖掘文本之间的相似度值,并根据所述相似度值确定所述文本关键词是否被设定为是所述待挖掘文本的文本标签。
[0008]结合第一方面,在第一方面的第一种可能实现方式中,所述文本标签挖掘方法基于采用深度学习算法进行模型训练获得的挖掘模型实现,其中,所述挖掘模型中包括有用于获取文本向量的第一向量匹配模型以及用于获取词向量的第二向量匹配模型;所述对所述待挖掘文本及其对应的文本关键词进行向量匹配处理,以获取所述待挖掘文本的文本向量以及所述文本关键词的词向量的步骤之前,包括:
[0009]采用训练样本文本训练卷积神经网络获得所述第一向量匹配模型;以及
[0010]对词库中的关键词进行向量表达获得所述第二向量匹配模型,其中,所述词库通过对基于训练样本文本获得的用于表示训练样本文本主题的关键词进行统一存储生成。
[0011]结合第一方面的第一种可能实现方式,在第一方面的第二种可能实现方式中,所述采用训练样本文本训练卷积神经网络获得所述第一向量匹配模型的步骤,包括:
[0012]获取训练样本文本;
[0013]将所述训练样本文本按照字段转化为对应的字符向量;
[0014]将所述字符向量输入到卷积神经网络的嵌入层进行映射处理,生成与所述字符向量对应的向量矩阵;
[0015]将所述向量矩阵输入到卷积神经网络卷积层及池化层分别进行卷积处理和池化处理,获取表征所述训练样本文本的距离数值;
[0016]结合卷积神经网络的卷积核数量,通过卷积神经网络的全连接层对所述表征训练样本文本的距离数值进行向量转化处理,以训练获得用于获取文本向量所述第一向量匹配模型。
[0017]结合第一方面的第一种可能实现方式,在第一方面的第三种可能实现方式中,所述对词库中的关键词进行向量表达获得所述第二向量匹配模型的步骤,包括:
[0018]根据训练样本文本获取用于表征所述训练样本文本主题的关键词并将所述关键词存储于词库中;
[0019]对所述词库中的关键词进行编码处理生成与所述关键词对应的词编码;
[0020]通过卷积神经网络的嵌入层对所述词编码进行映射处理,生成所述词库的词向量表达矩阵,所述词向量表达矩阵为用于获取词向量第二向量匹配模型。
[0021]结合第一方面的第一种可能实现方式,在第一方面的第四种可能实现方式中,在所述挖掘模型中还包括有一用于获取文本关键词与待挖掘文本之间相似度值的相似度计算模型,所述根据所述待挖掘文本的文本向量以及所述文本关键词的词向量计算出所述文本关键词与所述待挖掘文本之间的相似度值,并根据所述相似度值确定所述文本关键词是否被设定为是所述待挖掘文本的文本标签的步骤之前,包括:
[0022]根据所述训练样本文本构建用于训练生成所述相似度计算模型的正样本和负样本,其中,所述正样本包含有一训练样本文本以及一表达所述训练样本文本主题的关键词;所述负样本包含有一训练样本文本以及表达其他训练样本文本主题的关键词,且所述表达其他训练样本文本主题的关键词不存在于所述训练样本文本中;
[0023]结合hinge损失函数,将相似度计算模型训练至正样本与负样本之间的相似关系满足预设阈值要求。
[0024]结合第一方面和第一方面的第一至第四种可能实现方式中的任意一种,在第一方面的第五种可能实现方式中,所述根据所述相似度值确定所述文本关键词是否被设定为是所述待挖掘文本的文本标签的步骤,包括:
[0025]获取所述待挖掘文本中文本关键词与所述待挖掘文本之间的相似度值;
[0026]将所述相似度值与预设的相似度阈值进行比对;
[0027]若所述相似度值满足所述预设的相似度阈值要求,则将该文本关键词设定为是所述待挖掘文本的文本标签。
[0028]结合第一方面和第一方面的第一至第四种可能实现方式中的任意一种,在第一方面的第六种可能实现方式中,所述根据所述相似度值确定所述文本关键词是否被设定为是所述待挖掘文本的文本标签的步骤,包括:
[0029]获取所述待挖掘文本中的文本关键词与所述待挖掘文本之间的相似度值;
[0030]按照相似度值由大至小对所述待挖掘文本中的文本关键词进行排序并生成排序列表;
[0031]从所述排序列表中由大至小选取预设的文本标签数量个文本关键词设定为是所
述待挖掘文本的文本标签。
[0032]本申请实施例的第二方面提供了一种文本标签挖掘装置,所述文本标签挖掘装置包括:
[0033]接收模块,用于接收待挖掘文本并获取与所述待挖掘文本对应的文本关键词;
[0034]处理模块,用于对所述待挖掘文本及其对应的文本关键词进行向量匹配处理,以获取所述待挖掘文本的文本向量以及所述文本关键词的词向量;
[0035]执行模块,用于根据所述待挖掘文本的文本向量以及所述文本关键词的词向量计算出所述文本关键词与所述待挖掘文本之间的相似度值,并根据所述相似度值确定所述文本关键词是否被设定为是所述待挖掘文本的文本标签。
[0036]本申请实施例的第三方面提供了一种电子设备,包括存储器、处理器以及存储在所述存储器中并可在电子设备上运行的计算机程序,所述处理器执行所述计算机程序时实现第一方面提供的文本标签挖掘方法的各步骤。
[0037]本申请实施例的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现第一方面提供的文本标签挖掘方法本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本标签挖掘方法,其特征在于,包括:接收待挖掘文本并获取与所述待挖掘文本对应的文本关键词;对所述待挖掘文本及其对应的文本关键词进行向量匹配处理,以获取所述待挖掘文本的文本向量以及所述文本关键词的词向量;根据所述待挖掘文本的文本向量以及所述文本关键词的词向量计算出所述文本关键词与所述待挖掘文本之间的相似度值,并根据所述相似度值确定所述文本关键词是否被设定为是所述待挖掘文本的文本标签。2.根据权利要求1所述的文本标签挖掘方法,其特征在于,所述文本标签挖掘方法基于采用深度学习算法进行模型训练获得的挖掘模型实现,其中,所述挖掘模型中包括有用于获取文本向量的第一向量匹配模型以及用于获取词向量的第二向量匹配模型;所述对所述待挖掘文本及其对应的文本关键词进行向量匹配处理,以获取所述待挖掘文本的文本向量以及所述文本关键词的词向量的步骤之前,包括:采用训练样本文本训练卷积神经网络获得所述第一向量匹配模型;以及对词库中的关键词进行向量表达获得所述第二向量匹配模型,其中,所述词库通过对基于训练样本文本获得的用于表示训练样本文本主题的关键词进行统一存储生成。3.根据权利要求2所述的文本标签挖掘方法,其特征在于,所述采用训练样本文本训练卷积神经网络获得所述第一向量匹配模型的步骤,包括:获取训练样本文本;将所述训练样本文本按照字段转化为对应的字符向量;将所述字符向量输入到卷积神经网络的嵌入层进行映射处理,生成与所述字符向量对应的向量矩阵;将所述向量矩阵输入到卷积神经网络卷积层及池化层分别进行卷积处理和池化处理,获取表征所述训练样本文本的距离数值;结合卷积神经网络的卷积核数量,通过卷积神经网络的全连接层对所述表征训练样本文本的距离数值进行向量转化处理,以训练获得用于获取文本向量所述第一向量匹配模型。4.根据权利要求2所述的文本标签挖掘方法,其特征在于,所述对词库中的关键词进行向量表达获得所述第二向量匹配模型的步骤,包括:根据训练样本文本获取用于表征所述训练样本文本主题的关键词并将所述关键词存储于词库中;对所述词库中的关键词进行编码处理生成与所述关键词对应的词编码;通过卷积神经网络的嵌入层对所述词编码进行映射处理,生成所述词库的词向量表达矩阵,所述词向量表达矩阵为用于获取词向量第二向量匹配模型。5.根据权利要求2所述的文本标签挖掘方法,其特征在于,在所述挖掘模型中还包括有一用于获取文本关键词与待挖掘文本之间相似度值的相似度计算模型,所述根据所述待挖掘文本的文本向量...

【专利技术属性】
技术研发人员:郑勇升
申请(专利权)人:中国平安人寿保险股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1