一种融合句级和词级特征的中文命名实体识别方法技术

技术编号：40239131 阅读：7 留言：0更新日期：2024-02-02 22:38

本发明专利技术属于命名实体识别技术领域，公开了一种融合句级和词级特征的中文命名实体识别方法，包括：收集领域中文语料，对数据进行预处理，得到训练数据集；将训练数据集通过嵌入层，得到每个句子的字嵌入矩阵；将字嵌入矩阵输入融合句级和词级特征的中文命名实体识别模型中并进行训练；将待识别的中文句子通过嵌入层转换为字嵌入矩阵，然后输入训练好的融合句级和词级特征的中文命名实体识别模型中，得到预测的实体标签结果。本发明专利技术融合了中文文本的整体语义信息和局部词汇信息，提取到的特征更加丰富，能够充分挖掘文本自身潜在的词汇和边界特征，解决传统方法特征提取不充分的问题，可以提高中文命名实体识别的准确率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于命名实体识别，具体的说是涉及一种融合句级和词级特征的中文命名实体识别方法。

技术介绍

1、命名实体识别(named entity recognition，ner)是指从非结构化文本中提取具有特定含义的实体。命名实体识别技术在自然语言处理领域中有着极其广泛的应用，是许多自然语言处理子任务的研究基础，例如知识图谱构建、网络信息检索、机器翻译、自动问答系统等。实体的提取能够更方便地执行各种任务，可以用于执行各种实体之间的语义和情感分析，还可用于改进现有的搜索引擎，为用户或者研究人员提供基于作者姓名、研究问题、领域等的各种高级参数化搜索选项，因此对命名实体识别技术的研究具有重要意义。

2、近年来，深度学习技术得到快速发展，基于深度学习的命名识别方法有效提高了命名实体识别的效果。bilstm-crf由于其处理文本长距离依赖的优势而成为命名实体识别领域的主流架构。但是lstm是顺序处理数据的，其当前结果与前一个结果相关。因此，它并不能充分利用gpu的并行性，这对模型的效率有着很大的影响。

3、此外，与英文命名实体识别相比，中文命名实体识别更具有挑战性，因为中文文本中并没有与空格类似的自然定界符，其基本单位是字符。在中文命名实体识别中应用基于单词的模型之前，需要使用中文分词算法将句子分割成单词。然而中文分词会不可避免地出现错误分割和未登录词的问题，错误的单词分割可能会误导实体的推断并产生错误的传播。为了消除分词错误的影响，基于字符的模型已成为中文命名实体识别的主流方法。然而，基于字符的中文命名实体识别模型

技术实现思路

1、为了解决上述技术问题，本专利技术提供了一种融合句级和词级特征的中文命名实体识别方法，该方法能够提高中文命名实体识别的准确率。

2、为了达到上述目的，本专利技术是通过以下技术方案实现的：

3、本专利技术是一种融合句级和词级特征的中文命名实体识别方法，该方法包括如下步骤：

4、步骤1：收集领域中文语料，对数据进行预处理，得到训练数据集；

5、步骤2：将步骤1得到的训练数据集通过嵌入层，得到训练数据集中每个句子的字嵌入矩阵；

6、步骤3：将步骤2得到的每个句子的字嵌入矩阵输入融合句级和词级特征的中文命名实体识别模型中并进行训练；

7、步骤4：将待识别的中文句子通过嵌入层转换为字嵌入矩阵，然后输入训练好的融合句级和词级特征的中文命名实体识别模型中，得到预测的实体标签结果。

8、本专利技术的进一步改进在于：所述步骤2的嵌入层将训练数据集中的每一个字符通过查找预训练字符向量查找表的方式转换为字向量，则训练数据集中每一个句子都将转换为一个字嵌入矩阵。

9、本专利技术的进一步改进在于：所述步骤3具体包括以下步骤：

10、步骤3.1：将字嵌入矩阵输入到由a层改进后transformer编码器堆叠构成的句级特征提取网络，其中a为正整数；第一层改进后transformer编码器的输入为嵌入层得到的字嵌入矩阵c，其他层的输入为上一层改进后transformer编码器的输出，最后一层的输出为最终提取到的句级特征g；

11、步骤3.2：将字嵌入矩阵输入到由b层局部注意网络堆叠构成的词级特征提取网络，其中b为正整数；每一层局部注意网络提取w大小窗口内的词级特征，通过堆叠能够提取到多尺度的词级特征，第一层局部注意网络的输入为嵌入层输出的字嵌入矩阵c，其他层的输入为其上一层局部注意网络的输出，最后一层局部注意网络的输出即为最终提取到的词级特征l；

12、步骤3.3：将步骤3.1得到的句级特征与步骤3.2得到的词级特征输入到特征融合层，进行特征的提取和融合，得到融合后的特征；

13、步骤3.4：将融合后的特征输入到标签解码层进行标签的预测，并迭代训练融合句级和词级特征的中文命名实体识别模型；

14、步骤3.5：保存训练好的融合句级和词级特征的中文命名实体识别模型。

15、本专利技术的进一步改进在于：步骤3.1所述改进后transformer编码器的计算步骤如下：

16、步骤3.1.1：假设输入字嵌入矩阵为改进后transformer编码器采用全局多头注意力机制，对于每个注意力头，都需要将输入矩阵x映射到不同的空间中，分别得到查询矩阵qh、键矩阵kh和值矩阵vh，计算公式如下：

17、

18、其中都是可学习的矩阵参数，维度都是dk为超参数；

19、步骤3.1.2：然后进行全局注意力机制计算，计算公式如下：

20、

21、

22、headh＝softmax(ah)vh

23、其中，是第t个字符对应的查询向量，表示第j个字符的值向量，都是可学习的向量参数，表示相对位置编码，其中的i的取值范围是[0,dk/2]，表示第t个目标字符与第j个字符之间最终的注意力得分，表示第h个注意力头所得到的输出矩阵；

24、步骤3.1.3：然后将每个注意力头的输出矩阵在最后一维进行拼接得到输出矩阵z，计算公式如下：

25、z＝concatenate(head1,...,headh)

26、其中d＝h*dk，concatenate表示拼接操作，h表示注意力的头数，之后引入残差结构，将z与输入矩阵x相加得到最终的全局多头注意力机制的输出u；

27、步骤3.1.4：全局多头注意力机制的输出u会输入到带有残差结构的前馈网络中进行进一步处理，公式表示如下：

28、y＝(relu(uw1+b1)w2+b2)+u

29、其中都是可学习的参数，df是一个超参数，为一层改进后transformer编码器的最终输出。

30、本专利技术的进一步改进在于：步骤3.2所述局部注意网络的计算步骤如下：

31、步骤3.2.1：对于一层局部注意网络，假设输入网络的字嵌入矩阵为n表示句子长度，d表示每个字符向量的维度，局部注意网络对字嵌入矩阵中的每一个字符向量w窗口范围内的向量进行卷积注意计算，首先需要进行填充，以便能够对每个字符进行卷积注意计算，将i填充后得到其中s＝n+w-1；

32、步骤3.2.2：对于每一个字符窗口，将位置嵌入拼接到字符窗口内的字符本文档来自技高网...

【技术保护点】

1.一种融合句级和词级特征的中文命名实体识别方法，其特征在于：所述中文命名实体识别方法包括以下步骤：

2.根据权利要求1所述的一种融合句级和词级特征的中文命名实体识别方法，其特征在于：所述步骤3具体包括如下步骤：

3.根据权利要求2所述的一种融合句级和词级特征的中文命名实体识别方法，其特征在于：步骤3.1所述改进后Transformer编码器的计算步骤如下：

4.根据权利要求2所述的一种融合句级和词级特征的中文命名实体识别方法，其特征在于：步骤3.2所述局部注意网络的计算步骤如下：

5.根据权利要求2所述的一种融合句级和词级特征的中文命名实体识别方法，其特征在于：步骤3.3具体包括以下步骤：

6.根据权利要求2所述的一种融合句级和词级特征的中文命名实体识别方法，其特征在于：步骤3.4具体包括以下步骤：

7.根据权利要求1-6任一项所述的一种融合句级和词级特征的中文命名实体识别方法，其特征在于：所述步骤2的嵌入层将训练数据集中的每一个字符通过查找预训练字符向量查找表的方式转换为字向量，则训练数据集中每一个句子都将转换为一个字嵌入矩阵。

...

【技术特征摘要】

1.一种融合句级和词级特征的中文命名实体识别方法，其特征在于：所述中文命名实体识别方法包括以下步骤：

2.根据权利要求1所述的一种融合句级和词级特征的中文命名实体识别方法，其特征在于：所述步骤3具体包括如下步骤：

3.根据权利要求2所述的一种融合句级和词级特征的中文命名实体识别方法，其特征在于：步骤3.1所述改进后transformer编码器的计算步骤如下：

4.根据权利要求2所述的一种融合句级和词级特征的中文命名实体识别方法，其特征在于：步骤3.2所述局部注意网络的计...

【专利技术属性】
技术研发人员：章韵，马笑阳，
申请(专利权)人：南京邮电大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人