一种基于关键词提取的重要数据文本识别技术制造技术

技术编号：41207038 阅读：6 留言：0更新日期：2024-05-07 22:33

本发明专利技术公开了一种基于关键词提取的重要数据文本识别技术，包括：获取包含各种重要度级别的文本数据，对文本数据进行预处理，将预处理后的文本数据划分为训练集和测试集；将训练集中的文本数据输入到基于BERT模型的关键词提取网络中，计算可能的关键词；将获取关键词的特征输入到重要数据分类网络中，并结合注意力机制进行重要程度级别的判定；本发明专利技术涉及自然语言处理技术领域。该基于关键词提取的重要数据文本识别技术，通过结合关键词提取和重要数据文本分类两项任务，训练出的模型能够对重要数据相关的关键词更加敏感，从而提取出与重要数据分类结果相关的关键词，在提供准确分类效果的同时，还能够满足现实场景的可解释性需求。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及自然语言处理，具体为一种基于关键词提取的重要数据文本识别技术。

技术介绍

1、重要数据识别在当前数字化时代的背景下显得至关重要，随着数据不断增长，企业和组织需要快速而准确地识别和分类各种类型的数据，以更好地管理和保护它们，同时，数据泄露和隐私问题也在不断升级，及时发现潜在风险对于数据安全至关重要，对企业和组织中的数据进行重要程度分类，已经成为亟待解决的问题。

2、现有能够支持文本数据重要性分类的技术可分为两类，第一类是基于手工特征的文本分类方法，此类方法通过人工设计和选择一组特征来表示文本，并基于这些特征进行分类，在构建特征集合时，研究人员可以根据问题的特定背景和需求选择最相关的特征，使分类模型更加精确和可解释，然而，手工特征的构建需要领域专业知识，对研究人员的知识储备要求较高，同时，特征工程通常是一项繁重和耗时的任务，需要大量的人力投入。

3、第二类是基于深度学习的文本分类方法，此类方法不需要手工设计特征，可以自动从原始文本数据中学习到更丰富、高层次的特征表示，由于深度神经网络具有强大的拟合能力，此类方案可以从大量数据中学习到复杂的语义信息和模式，从而实现更加鲁棒和准确的分类效果，此外，与传统方法不同，深度学习算法可以接受不同长度的文本输入，并自动学习适当的特征表示，总体而言，基于深度学习的文本分类方法在处理大规模、高维度的文本数据时表现出色，然而也面临着数据和计算资源的要求较高以及解释性较差的挑战。

4、基于上述资料的检索，可以看出，现有文本数据中的重要文本数据缺乏有效识别，

技术实现思路

1、(一)解决的技术问题

2、针对现有技术的不足，本专利技术提供了一种基于关键词提取的重要数据文本识别技术，解决了上述的问题。

3、(二)技术方案

4、为实现以上目的，本专利技术通过以下技术方案予以实现：一种基于关键词提取的重要数据文本识别技术，包括：

5、s1、获取包含各种重要度级别的文本数据，对文本数据进行预处理，将预处理后的文本数据划分为训练集和测试集；

6、s2、将训练集中的文本数据输入到基于bert模型的关键词提取网络中，计算可能的关键词；

7、s3、将获取关键词的特征输入到重要数据分类网络中，并结合注意力机制进行重要程度级别的判定。

8、本专利技术进一步设置为：所述s1中对文本数据进行预处理的方式包括：

9、利用正则表达式删除数据中的无效文本，并修订其中的特殊字符；

10、利用smote算法对其中少数类文本数据进行数据扩充。

11、本专利技术进一步设置为：所述数据扩充方式具体包括：

12、选择少数类文本数据中的一个样本si，计算该类中与其在欧氏距离上相距最近的k个样本；

13、从得到的k个样本中随机选择一个样本sj，生成一个新样本sn：

14、sn＝si+(sj-si)*rand(0,1)m；

15、重复若干次上述操作，实现少数类文本数据的数据扩充。

16、本专利技术进一步设置为：所述s2中基于bert模型的关键词提取网络构建方式包括：

17、利用bert模型在大型文本数据集上预训练得到的权重对bert模型进行初始化，获取基于bert模型的关键词提取网络。

18、本专利技术进一步设置为：所述s2中关键词的计算方式包括：

19、将文本数据输入到基于bert模型的关键词提取网络中，获取文档级别的特征向量；

20、利用tf-idf方法从文本数据中获取候选关键词，并输入到基于bert模型的关键词提取网络中，获取候选词对应的特征向量；

21、计算候选词特征向量与文档特征向量之间的tanimoto系数，筛选出最相似的前t个作为关键词。

22、本专利技术进一步设置为：所述tanimoto系数计算方式为：

23、

24、其中，x表示文档特征向量，y表示候选词的特征向量。

25、本专利技术进一步设置为：所述s3中重要数据分类网络的构建及计算方式包括：

26、设定t个具有不同大小卷积核的卷积层，每个卷积层通过relu函数进行激活，并通过注意力模块对卷积层特征进行重要度计算，然后增加最大池化层进行降维处理；

27、对t个分支计算得到的特征向量进行拼接，输入到由五层全连接层组成网络中，全连接层之间以relu函数激活，最后一层采用softmax函数激活；

28、将关键词提取网络中获取的关键词特征拼接后输出到重要数据分类网络中进行逐层计算，对每层计算出的特征进行重要度判断，辅助生成最终的分类结果。

29、本专利技术进一步设置为：经过所述重要数据分类网络得出分类结果后，利用交叉熵损失函数对基于bert模型的关键词提取网络以及重要数据分类网络进行联合优化，提升重要数据分类的准确度。

30、(三)有益效果

31、本专利技术提供了一种基于关键词提取的重要数据文本识别技术。具备以下有益效果：

32、本专利技术通过结合关键词提取和重要数据文本分类两项任务，进行模型训练，使模型能够对重要数据相关的关键词更加敏感，从而提取出与重要数据分类结果相关的关键词，相比于现有算法，在提供准确分类效果的同时，还能够满足现实场景的可解释性需求。

本文档来自技高网...

【技术保护点】

1.一种基于关键词提取的重要数据文本识别技术，其特征在于：包括：

2.根据权利要求1所述的一种基于关键词提取的重要数据文本识别技术，其特征在于：所述S1中对文本数据进行预处理的方式包括：

3.根据权利要求2所述的一种基于关键词提取的重要数据文本识别技术，其特征在于：所述数据扩充方式具体包括：

4.根据权利要求1所述的一种基于关键词提取的重要数据文本识别技术，其特征在于：所述S2中基于BERT模型的关键词提取网络构建方式包括：

5.根据权利要求4所述的一种基于关键词提取的重要数据文本识别技术，其特征在于：所述S2中关键词的计算方式包括：

6.根据权利要求5所述的一种基于关键词提取的重要数据文本识别技术，其特征在于：所述Tanimoto系数计算方式为：

7.根据权利要求1所述的一种基于关键词提取的重要数据文本识别技术，其特征在于：所述S3中重要数据分类网络的构建及计算方式包括：

8.根据权利要求7所述的一种基于关键词提取的重要数据文本识别技术，其特征在于：经过所述重要数据分类网络得出分类结果后，利用交

...

【技术特征摘要】

1.一种基于关键词提取的重要数据文本识别技术，其特征在于：包括：

2.根据权利要求1所述的一种基于关键词提取的重要数据文本识别技术，其特征在于：所述s1中对文本数据进行预处理的方式包括：

3.根据权利要求2所述的一种基于关键词提取的重要数据文本识别技术，其特征在于：所述数据扩充方式具体包括：

4.根据权利要求1所述的一种基于关键词提取的重要数据文本识别技术，其特征在于：所述s2中基于bert模型的关键词提取网络构建方式包括：

5.根据权利要求4所述的一种基于关键词提取的重要数据文本识别...

【专利技术属性】
技术研发人员：刘翔，余佩鹏，李睿，夏志华，
申请(专利权)人：东莞理工学院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人