文本标签挖掘方法、装置、设备及存储介质制造方法及图纸

技术编号：27284383 阅读：19 留言：0更新日期：2021-02-06 11:52

本申请适用于自然语言处理、机器学习技术领域，提供一种文本标签挖掘方法、装置、设备及存储介质，其方法包括：接收待挖掘文本并获取与待挖掘文本对应的文本关键词；对待挖掘文本及其对应的文本关键词进行向量匹配处理，以获取待挖掘文本的文本向量以及文本关键词的词向量；根据待挖掘文本的文本向量以及文本关键词的词向量计算出文本关键词与待挖掘文本之间的相似度值，并根据相似度值确定文本关键词是否被设定为是待挖掘文本的文本标签。上述方法通过文本向量与词向量匹配的方式来确定的文本标签，可以准确地表达文本的主题，解决传统的文本标签生成方法中不能准确表达文章主题的问题，还可以帮助用户对文档内容进行正确的归类和理解。的归类和理解。的归类和理解。

全部详细技术资料下载

【技术实现步骤摘要】
文本标签挖掘方法、装置、设备及存储介质

[0001]本申请涉及自然语言处理、机器学习
，尤其涉及一种文本标签挖掘方法、装置、设备及存储介质。

技术介绍

[0002]随着互联网技术的发展，网络上的信息量与日俱增，各类信息充斥于互联网，而每个人感兴趣的信息只是其中的一小部分，如何帮助用户查找到其感兴趣的信息变得越来越难。目前无论是网络文本还是纸版文本中，通常会采用一些文本标签来代表文本内容，比如阅读新闻、论文时所看到的关键字标签。现有技术中传统文本标签生成方式通常是按照预先设定好的关键词提取规则从标签库中进行匹配获得，虽然此种方式限定了关键词会落入标签库中，但是这种方式挖掘得到的文本标签也难以准确地表达文本的主题，使得用户难以对文档内容进行正确的归类和理解。

技术实现思路

[0003]有鉴于此，本申请实施例提供了一种文本标签挖掘方法、装置、设备及存储介质，可以通过向量匹配的方式准确地表达文本的主题，解决了传统文本标签生成不能准确表达文章主题的问题，也可以帮助用户对文档内容进行正确的归类和理解。
[0004]本申请实施例的第一方面提供了一种文本标签挖掘方法，包括：
[0005]接收待挖掘文本并获取与所述待挖掘文本对应的文本关键词；
[0006]对所述待挖掘文本及其对应的文本关键词进行向量匹配处理，以获取所述待挖掘文本的文本向量以及所述文本关键词的词向量；
[0007]根据所述待挖掘文本的文本向量以及所述文本关键词的词向量计算出所述文本关键词与所述待挖掘文本之间的相似度值...

【技术保护点】

【技术特征摘要】
1.一种文本标签挖掘方法，其特征在于，包括：接收待挖掘文本并获取与所述待挖掘文本对应的文本关键词；对所述待挖掘文本及其对应的文本关键词进行向量匹配处理，以获取所述待挖掘文本的文本向量以及所述文本关键词的词向量；根据所述待挖掘文本的文本向量以及所述文本关键词的词向量计算出所述文本关键词与所述待挖掘文本之间的相似度值，并根据所述相似度值确定所述文本关键词是否被设定为是所述待挖掘文本的文本标签。2.根据权利要求1所述的文本标签挖掘方法，其特征在于，所述文本标签挖掘方法基于采用深度学习算法进行模型训练获得的挖掘模型实现，其中，所述挖掘模型中包括有用于获取文本向量的第一向量匹配模型以及用于获取词向量的第二向量匹配模型；所述对所述待挖掘文本及其对应的文本关键词进行向量匹配处理，以获取所述待挖掘文本的文本向量以及所述文本关键词的词向量的步骤之前，包括：采用训练样本文本训练卷积神经网络获得所述第一向量匹配模型；以及对词库中的关键词进行向量表达获得所述第二向量匹配模型，其中，所述词库通过对基于训练样本文本获得的用于表示训练样本文本主题的关键词进行统一存储生成。3.根据权利要求2所述的文本标签挖掘方法，其特征在于，所述采用训练样本文本训练卷积神经网络获得所述第一向量匹配模型的步骤，包括：获取训练样本文本；将所述训练样本文本按照字段转化为对应的字符向量；将所述字符向量输入到卷积神经网络的嵌入层进行映射处理，生成与所述字符向量对应的向量矩阵；将所述向量矩阵输入到卷积神经网络卷积层及池化层分别进行卷积处理和池化处理，获取表征所述训练样本文本的距离数值；结合卷积神经网络的卷积核数量，通过卷积神经网络的全连接层对所述表征训练样本文本的距离数值进行向量转化处理，以训练获得用于获取文本向量所述第一向量匹配模型。4.根据权利要求2所述的文本标签挖掘方法，其特征在于，所述对词库中的关键词进行向量表达获得所述第二向量匹配模型的步骤，包括：根据训练样本文本获取用于表征所述训练样本文本主题的关键词并将所述关键词存储于词库中；对所述词库中的关键词进行编码处理生成与所述关键词对应的词编码；通过卷积神经网络的嵌入层对所述词编码进行映射处理，生成所述词库的词向量表达矩阵，所述词向量表达矩阵为用于获取词向量第二向量匹配模型。5.根据权利要求2所述的文本标签挖掘方法，其特征在于，在所述挖掘模型中还包括有一用于获取文本关键词与待挖掘文本之间相似度值的相似度计算模型，所述根据所述待挖掘文本的文本向量...

【专利技术属性】
技术研发人员：郑勇升，
申请(专利权)人：中国平安人寿保险股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人