一种基于多特征融合的嵌套命名实体识别方法技术

技术编号：40749057 阅读：2 留言：0更新日期：2024-03-25 20:05

本发明专利技术属于自然语言处理领域，具体涉及一种基于多特征融合的嵌套命名实体识别方法；该方法包括：获取带实体标签的文本数据并对其进行预处理，得到预处理好的数据；将预处理好的数据输入到输入表征层进行处理，得到融合嵌入表示；采用特征提取融合层对融合嵌入表示进行处理，得到融合特征；将融合特征输入到解码层中进行处理，输出实体分类结果即嵌套命名实体识别结果；计算模型总损失并根据模型总损失调整模型参数，得到训练好的嵌套命名实体识别模型；采用训练好的嵌套命名实体识别模型进行嵌套命名实体识别；本发明专利技术提高了命名实体识别精确度，且本发明专利技术具有良好的可解释性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于自然语言处理领域，具体涉及一种基于多特征融合的嵌套命名实体识别方法。

技术介绍

1、命名实体识别是自然语言处理领域的一项关键任务，旨在从文本中识别和分类具有特定意义的命名实体，如人名、地名、组织名、日期、时间等。命名实体识别在信息提取、问答系统、文档分类和语义搜索等领域具有广泛的应用。随着互联网的发展，命名实体识别愈发重要。

2、早期的命名实体识别都是基于规则的，不仅准确率低，过程还很繁琐。近年来，随着深度学习和神经网络的发展，命名实体识别取得了显著的进展，人们在提升命名实体识别任务的精度上做了很多改进；例如，命名实体识别模型通过引入外部词典等方法，不断提升模型识别的性能。然而，通过引入外部词典的方法需要额外的工作量来完成词典的构建，这是非常耗时的且非智能的，同时，该方法不具有模型的迁移性，当模型迁移到小众领域内，还需要重新构建词典。另外，现有的基于序列标注的命名实体识别模型无法实现嵌套实体的识别，容易出现信息缺失的情况。此外，虽然现有模型通过多头注意力机制能够有效捕获更长的上下文信息，但在提取本地特征方面仍存在局限。

技术实现思路

1、针对现有技术存在的不足，本专利技术提出了一种基于多特征融合的嵌套命名实体识别方法，该方法包括：实时获取待识别的文本数据并对其进行预处理，将预处理后的文本数据输入到训练好的嵌套命名实体识别模型中，得到嵌套命名实体识别结果；

2、嵌套命名实体识别模型的训练过程包括：

3、s1：获取带实体标签的文本数据并

4、s2：将预处理好的数据输入到输入表征层进行处理，得到融合嵌入表示；

5、s3：采用特征提取融合层对融合嵌入表示进行处理，得到融合特征；

6、s4：将融合特征输入到解码层中进行处理，输出实体分类结果即嵌套命名实体识别结果；

7、s5：计算模型总损失并根据模型总损失调整模型参数，得到训练好的嵌套命名实体识别模型。

8、优选的，对文本数据进行预处理的过程包括：

9、s11：对文本数据进行分词处理，得到文本的词序列；

10、s12：采用多种不同的词性标注工具对词序列中的词语进行词性标注，得到多种标注结果。

11、进一步的，输入表征层对预处理好的数据进行处理的过程包括：

12、s21：对词序列中的词进行编码，得到文本的词嵌入表示；

13、s22：拼接多种标注结果，对拼接结果进行卷积和池化操作，得到文本的词性嵌入表示；

14、s23：融合文本的词嵌入表示和词性嵌入表示，得到融合嵌入表示。

15、进一步的，融合文本的词嵌入表示和词性嵌入表示的公式为：

16、

17、其中，h表示融合嵌入表示，ew表示文本的词嵌入表示，表示相应位置的元素相加，ep表示文本的词性嵌入表示，w表示融合权重，b表示融合偏置。

18、优选的，特征提取融合层对融合嵌入表示进行处理的过程包括：

19、s31：采用两个定长的滑动窗口分别从正反两个方向对融合嵌入表示进行滑窗，得到左窗口序列和右窗口序列；

20、s32：采用自注意力机制根据左窗口序列和右窗口序列分别计算得到左注意得分矩阵和右注意得分矩阵；

21、s33：采用多层感知器分别对左注意得分矩阵和右注意得分矩阵进行处理，拼接融合嵌入表示和处理后的结果，得到局部特征；

22、s34：采用lstm网络对融合嵌入表示进行处理，得到全局特征；

23、s35：融合局部特征和全局特征，得到融合特征。

24、进一步的，融合局部特征和全局特征的公式为：

25、m＝mlp(concate(hg，hl))

26、x＝softmax(m[hg，hl]t)[hg，hl]

27、其中，x表示融合特征，hg表示全局特征，hl表示局部特征，concate()表示拼接操作，mlp()表示多层感知器，m表示中间参数，softmax表示softmax激活函数。

28、优选的，融合特征在解码层中的处理过程包括：

29、s41：采用条件随机场对融合特征进行处理，得到文本的实体边界信息；

30、s42：根据实体边界信息构建潜在实体，将潜在实体输入到分类器，得到实体分类结果。

31、优选的，计算模型总损失的公式为：

32、

33、其中，l(θ)表示模型总损失，n表示实体位置样本数量，yi表示实体位置标签值，xi表示实体位置预测值，p()表示预测分布；ynested表示嵌套实体标签值，xspan表示嵌套实体预测值，nspan表示嵌套实体样本数量；λ表示可学习参数。

34、本专利技术的有益效果为：本专利技术本专利技术聚焦于词性特征，利用第三方词性标注工具，在丰富表征方面更具通用性和兼容性，能有效地向小众的专业领域进行模型迁移；且通过词性特征为模型提供实体边界信息，帮助模型更有效地识别实体边界；另外，本专利技术先进行实体的边界检测，再拼接潜在实体进行分类，可识别嵌套命名实体；本专利技术提高了命名实体识别精确度，且本专利技术具有良好的可解释性。

本文档来自技高网...

【技术保护点】

1.一种基于多特征融合的嵌套命名实体识别方法，其特征在于，实时获取待识别的文本数据并对其进行预处理，将预处理后的文本数据输入到训练好的嵌套命名实体识别模型中，得到嵌套命名实体识别结果；

2.根据权利要求1所述的一种基于多特征融合的嵌套命名实体识别方法，其特征在于，对文本数据进行预处理的过程包括：

3.根据权利要求2所述的一种基于多特征融合的嵌套命名实体识别方法，其特征在于，输入表征层对预处理好的数据进行处理的过程包括：

4.根据权利要求3所述的一种基于多特征融合的嵌套命名实体识别方法，其特征在于，融合文本的词嵌入表示和词性嵌入表示的公式为：

5.根据权利要求1所述的一种基于多特征融合的嵌套命名实体识别方法，其特征在于，特征提取融合层对融合嵌入表示进行处理的过程包括：

6.根据权利要求5所述的一种基于多特征融合的嵌套命名实体识别方法，其特征在于，融合局部特征和全局特征的公式为：

7.根据权利要求1所述的一种基于多特征融合的嵌套命名实体识别方法，其特征在于，融合特征在解码层中的处理过程包括：

8.根据

...

【技术特征摘要】

2.根据权利要求1所述的一种基于多特征融合的嵌套命名实体识别方法，其特征在于，对文本数据进行预处理的过程包括：

3.根据权利要求2所述的一种基于多特征融合的嵌套命名实体识别方法，其特征在于，输入表征层对预处理好的数据进行处理的过程包括：

4.根据权利要求3所述的一种基于多特征融合的嵌套命名实体识别方法，其特征在于，融合文...

【专利技术属性】
技术研发人员：王献鑫，雷建军，
申请(专利权)人：重庆邮电大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人