面向嵌套命名实体识别的数据增强方法、系统及存储介质技术方案

技术编号：41217065 阅读：8 留言：0更新日期：2024-05-09 23:38

本发明专利技术提供了一种面向嵌套命名实体识别的数据增强方法、系统及存储介质，其中，所述方法包括：利用相似性过滤机制从原始训练集样本的语料库中获取目标句子的相似句子，并提取注意力图，确定与命名实体相关的关键字；使用复合嵌套标签分类方法对目标句子和相似句子进行处理，得到动态屏蔽选定关键字的目标句子模板以及使用FUSION机制将目标句子与相似句子合并后的模板；使用CNL模型生成增强数据样本；采用置信度过滤机制对生成的增强数据样本进行过滤，得到高置信度的Sliver数据集，与原始训练集样本连接，构建最终的训练数据集。本发明专利技术通过相似性过滤、注意力图提取、复合嵌套标签分类和置信度过滤等步骤生成高质量增强数据样本，可以用于训练NER模型。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及人工智能，尤其涉及一种面向嵌套命名实体识别的数据增强方法、系统及存储介质。

技术介绍

1、在当今数字化时代，大量的文本数据被创建和共享，这些数据包括了从社交媒体帖子到医疗记录等各种文本形式。对这些文本数据进行自动化处理和分析已经成为许多领域的核心需求。

2、数据增强指通过对已有数据添加微小改动或从已有数据新创建合成数据，以增加数据量的方法。目前，序列标记任务数据增强技术：利用弱标记数据增强技术，通过预测实体标签和数据增强操作，从社交媒体文本中提取命名实体，并通过重新训练ner模型来改善低资源ner任务的性能；多语言的嵌入语言模型数据增强技术：利用多语言嵌入语言模型生成合成数据，并将其与原始标注数据合并，用于重新训练ner模型，以改善低资源条件下的命名实体识别性能，并减少标签错位的问题。

3、现有技术存在的缺陷：弱标记数据的质量不高，弱标记数据通常来自社交媒体等非结构化文本，其标注质量可能不够准确和完整，导致生成的扩充数据存在噪声和错误；标签噪声的传递，如果初始模型在弱标记数据上产生了错误的预测，这些错误可能会通过数据增强传递到扩充的训练数据集中，进一步影响模型的性能；数据合成的准确性低，在生成合成数据时，将预测的实体标签嵌入到未标注数据中，可能会引入一定的噪声和错误，这可能会影响模型在合成数据上的性能和泛化能力；领域的局限性，melm方法主要针对多语言环境，对于单语言或特定语言的低资源ner任务，可能需要额外的适配和调整。目前在嵌套命名识别(nner)领域的带注释的数据资源有限，嵌套命名实体

技术实现思路

1、本专利技术提供一种面向嵌套命名实体识别的数据增强方法、系统及存储介质，通过引入复合嵌套标签分类、复合嵌套学习和置信度过滤机制，对嵌套实体进行数据增强，解决了嵌套命名识别(nner)方法的带注释资源有限的问题。

2、一方面，本专利技术提供一种面向嵌套命名实体识别的数据增强方法，所述方法包括：

3、s1，利用相似性过滤机制从原始训练集样本的语料库中获取目标句子的相似句子，并提取注意力图，确定与命名实体相关的关键字；

4、s2，使用复合嵌套标签分类方法对目标句子和相似句子进行处理，在每个命名实体之前和之后分别添加标签标记；进行句子分割，得到动态屏蔽选定关键字的目标句子模板以及使用fusion机制将目标句子与相似句子合并后的模板；

5、s3，基于目标句子模板以及合并后的模板，使用cnl模型生成增强数据样本；

6、s4，采用置信度过滤机制对生成的增强数据样本进行过滤，得到高置信度的sliver数据集，与原始训练集样本连接，构建最终的训练数据集。

7、进一步地，所述s1中，利用相似性过滤机制从原始训练集样本的语料库中获取目标句子的相似句子，具体包括：

8、遍历原始训练集样本的语料库中所有句子，使用多语言sentence-bert提取每个句子的嵌入，使用以下方法计算语义相似度：

9、

10、其中，sim(·)代表两个嵌入的余弦相似度，sa表示目标句子a的嵌入，sb表示任一候选句子b的嵌入，a、b∈n，其中a≠b且n是原始训练集样本的大小；

11、基于语义相似度进行排序，确定与目标句子a相似度最高的前n个候选句子，作为相似句子。

12、进一步地，所述s1中，提取注意力图，确定与命名实体相关的关键字，具体包括：

13、利用roberta模型提取的注意力图中提取的注意力分数来评估上下文依赖性；

14、将无命名实体的注意力分数排序中前k％的无命名实体描述为关键字；

15、将停用词、标点符号和其它的非前k％的无命名实体排除在关键字之外，得到最终的关键字集合。

16、进一步地，所述s2中，在每个命名实体之前和之后分别添加标签标记，具体包括：

17、对包含嵌套标签的标签用外部实体对应的标签标记表示；嵌套标签采用内部嵌套实体对应的标签标记表示，这些标签标记用于指示命名实体的开始和结束位置，以及命名实体的类型。

18、进一步地，所述s2中，进行句子分割，得到动态屏蔽选定关键字的目标句子模板以及使用fusion机制将目标句子与相似句子合并后的模板，具体包括：

19、将目标句子和相似句子中的非关键字用掩码令牌替换，然后消除连续的掩码令牌；

20、进行cnlc序列线性化，将标签标记信息纳入微调和增强生成的过程；

21、在cnlc序列线性化后，通过对高斯分布ε的动态掩蔽率进行采样：

22、

23、其中，公式(2)指代的是高斯分布的概率密度函数，f(x)表示概率密度函数的值，μ表示分布的均值，σ表示分布的标准差，σ设置为1/k，x代表cnlc处理模板的关键字索引列表；

24、将目标句子和相似句子分为两部分，其中一部分，目标句子的选定关键字被动态屏蔽，而另一部分则是通过使用fusion机制将目标句子与相似句子合并而得到的。

25、进一步地，所述cnl模型包括双向编码器以及自然回归解码器。

26、另一方面，本专利技术提供一种面向嵌套命名实体识别的数据增强系统，包括面向嵌套命名实体识别的数据增强框架，所述面向嵌套命名实体识别的数据增强框架具体包括：

27、注意力图提取模块，用于利用相似性过滤机制从原始训练集样本的语料库中获取目标句子的相似句子，并提取注意力图，确定与命名实体相关的关键字；

28、复合嵌套标签分类模块，用于使用复合嵌套标签分类方法对目标句子和相似句子进行处理，在每个命名实体之前和之后分别添加标签标记；进行句子分割，得到动态屏蔽选定关键字的目标句子模板以及使用fusion机制将目标句子与相似句子合并后的模板；

29、复合嵌套学习模块，用于基于目标句子模板以及合并后的模板，使用cnl模型生成增强数据样本；

30、置信度过滤模块，用于采用置信度过滤机制对生成的增强数据样本进行过滤，得到高置信度的sliver数据集，与原始训练集样本连接，构建最终的训练数据集。

31、本专利技术还提供一种电子设备，包括：处理器和存储器；

32、所述处理器通过调用所述存储器存储的程序或指令，用于执行上述面向嵌套命名实体识别的数据增强方法。

33、本专利技术还提供一种计算机可读存储介质，所述非暂态计算机可读存储介质存储程序或指令，所述程序或指令使计算机执行如上述面向嵌套命名实体识别的数据增强方法。

34、本专利技术的有益效果为：

35、本专利技术提供的面向嵌套命名实体识别的数据增强方法及系统，通过引入复合嵌套标签分类结构、复合嵌套学习和置信度过滤机制，提出了一种改进的低资源nner数据增强方法，通过相似性过滤、注意力图提取、复合嵌套标签分类和置信度过滤等步骤生成的高质量增强样本，可以用于训练ne本文档来自技高网...

【技术保护点】

1.一种面向嵌套命名实体识别的数据增强方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的面向嵌套命名实体识别的数据增强方法，其特征在于，所述S1中，利用相似性过滤机制从原始训练集样本的语料库中获取目标句子的相似句子，具体包括：

3.根据权利要求1所述的面向嵌套命名实体识别的数据增强方法，其特征在于，所述S1中，提取注意力图，确定与命名实体相关的关键字，具体包括：

4.根据权利要求1所述的面向嵌套命名实体识别的数据增强方法，其特征在于，所述S2中，在每个命名实体之前和之后分别添加标签标记，具体包括：

5.根据权利要求1所述的面向嵌套命名实体识别的数据增强方法，其特征在于，所述S2中，进行句子分割，得到动态屏蔽选定关键字的目标句子模板以及使用FUSION机制将目标句子与相似句子合并后的模板，具体包括：

6.根据权利要求1所述的面向嵌套命名实体识别的数据增强方法，其特征在于，所述CNL模型包括双向编码器以及自然回归解码器。

7.一种面向嵌套命名实体识别的数据增强系统，其特征在于，包括面向嵌套命名实体识别的数

8.一种电子设备，其特征在于，包括：处理器和存储器；

9.一种计算机可读存储介质，其特征在于，所述非暂态计算机可读存储介质存储程序或指令，所述程序或指令使计算机执行如权利要求1至6任一项所述面向嵌套命名实体识别的数据增强方法。

...

【技术特征摘要】

1.一种面向嵌套命名实体识别的数据增强方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的面向嵌套命名实体识别的数据增强方法，其特征在于，所述s1中，利用相似性过滤机制从原始训练集样本的语料库中获取目标句子的相似句子，具体包括：

3.根据权利要求1所述的面向嵌套命名实体识别的数据增强方法，其特征在于，所述s1中，提取注意力图，确定与命名实体相关的关键字，具体包括：

4.根据权利要求1所述的面向嵌套命名实体识别的数据增强方法，其特征在于，所述s2中，在每个命名实体之前和之后分别添加标签标记，具体包括：

5.根据权利要求1所述的面向嵌套命名实体识别的数据增强方法，其特征在于，所述s2中，进行句子分...

【专利技术属性】
技术研发人员：阳爱民，林楠铠，刘伟中，廖兴明，周栋，
申请(专利权)人：广东工业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人