基于多特征的强化注意力中文命名实体识别系统及其方法技术方案

技术编号：41378835 阅读：8 留言：0更新日期：2024-05-20 10:21

本发明专利技术涉及基于多特征的强化注意力中文命名实体识别系统及方法，文本预处理模块，对训练文本进行停用词清理并对清洗后的文本结合外部词典进行分词，将文本中的文字转换成对应的ID生成字表；字词向量嵌入模块，利用中文预训练语言模型获得字符集别的向量表示，通过分词后词语与外部预训练词向量的映射为每个字提供一对应的词向量；特征提取模块，字词向量嵌入模块生成的向量输入特征提取层获取上下文信息，得到隐藏层向量表示；序列信息解码模块，将特征提取模块中输出带有高级特征的向量表示，利用序列解码器得到隐藏状态序列的概率分布，通过维特比算法获得最优序列标记实现命名实体的识别。减轻特征选择负担，提高长距离信息利用率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及一种基于多特征的强化注意力中文命名实体识别系统及其方法。

技术介绍

1、目前，命名实体识别(named entity recognition)是识别命名实体边界和类型的命名实体识别(ner)技术，是自然语言处理(nature language process)中设计信息图谱(knowledge graph)的重要任务之一，其目的是对非结构化文本中挖掘人名、地点名、组织名等实体信息进行分类。ner对自动问答、关系提取、句法解析等下游nlp任务的性能起重要作用，ner的发展与文本分类、情感分析等众多自然语言处理任务一样大致可分为三个阶段，最初的基于规则的阶段，ner需要很多相关领域的研究者根据数据集去构建字典并且为任务制定一系列复杂的人工规则，然后采用文本与字典和规则相匹配的方式进行实体识别，但规则大多数根据特定领域而定，其可移植性较差，并且随着数据量的增长对字典和规则的维护更新的人工成本较大。随着机器学习的发展，众多研究者采用基于大型语料库的统计概率方法将命名实体识别作为序列标注任务来处理，常用条件随机场(conditionalrandom field)、隐含马尔可夫(hidden markov model)等模型，但仍然需要手工设计特征模板，对于特征提取则耗费大量的人力。深度学习方法的出现有效地解决了前两个阶段可移植性较差、人力成本高的问题。因此，基于深度学习的方法被越来越多的研究者应用到研究之中。

2、近年来，基于深度学习的自然语言处理系统取得了长足的发展。命名实体识别在深度学习中被看作是序列标注任务

3、传统基于神经网络的命名实体识别方法采用bilstm在编码层对文本输入进行特征提取，lstm的一项关键特性是其能够处理长距离的依赖关系。尽管模型在处理一般的长距离依赖关系时效果较好，但其模型的复杂度较高，导致训练速度较慢，并且对一段文本的关注度都是相同的，无法对重点信息进行加强关注。

技术实现思路

1、本专利技术的目的是克服现有技术存在的不足，提供一种基于多特征的强化注意力中文命名实体识别系统及其方法。

2、本专利技术的目的通过以下技术方案来实现：

3、基于多特征的强化注意力中文命名实体识别系统，特点是：包含文本预处理模块、字词向量嵌入模块、特征提取模块和序列信息解码模块，所述文本预处理模块，对训练文本进行停用词清理并对清洗后的文本结合外部词典进行分词，对文本标点符号和停用词清洗，将文本中的文字转换成对应的id生成字表；所述字词向量嵌入模块，利用中文预训练语言模型获得字符集别的向量表示，通过分词后词语与外部预训练词向量的映射为每个字提供一对应的词向量，若分词后词典中无映射向量则利用随机初始化向量表示；所述特征提取模块，将字词向量嵌入模块生成的向量输入特征提取层获取上下文信息，优化特征表示，得到隐藏层向量表示；所述序列信息解码模块，将特征提取模块中输出带有高级特征的向量表示，利用序列解码器得到隐藏状态序列的概率分布，并通过维特比算法获得最优序列标记实现命名实体的识别。

4、进一步地，上述的基于多特征的强化注意力中文命名实体识别系统，其中，所述文本预处理模块包含文本清洗模块和分词模块，所述文本清洗模块，对文本以字符单位遍历，对中文文本数据进行文本清理，移出常见的停用词以及标点符号；所述分词模块，以句子为单位，对每一句话利用分词器进行分词，并将外部词典加入分词器。

5、进一步地，上述的基于多特征的强化注意力中文命名实体识别系统，其中，所述文本清洗模块，以字符为单位遍历文本，移出其中常用的停用词；以字符为单位遍历文本，移出其中标点符号；以字符为单位遍历文本，移出文本数据中包含html标签，提取纯文本内容；

6、所述分词模块，采用分词器，在分词器中加入外部词典，对数据进行分词处理。

7、进一步地，上述的基于多特征的强化注意力中文命名实体识别系统，其中，所述字词向量嵌入模块包含字级别向量模块和词级别向量模块，所述字级别向量模块，用于将输入经过预训练模型后转换成字符级别向量表示，将每个字符映射到一个连续的向量空间，利用预训练好的向量模型生成字向量表示；所述词级别向量模块，针对分词利用外部预训练的词向量对单词进行映射，将每一个分词后的词语利用外部词向量库映射为一个多维度的向量。

8、进一步地，上述的基于多特征的强化注意力中文命名实体识别系统，其中，所述特征提取模块包含双重门控单元模块和注意力强化模块，所述双重门控单元模块，将向量表示输入至其中，利用门控单元对文本双向编码，使模型更好理解文本信息；所述注意力强化模块，将经过双重门控单元模块的信息当作输入并对不同词语的权重进行分配，得到更高级别特征的输出。

9、进一步地，上述的基于多特征的强化注意力中文命名实体识别系统，其中，所述序列信息解码模块，经过特征提取模块编码层后将输入向量结合上下文信息且对词语的注意力权重进行再分配，序列信息解码模块利用序列解码器得到隐藏状态序列的概率分布，并通过维特比算法对最优序列标记的分数进行计算，完成命名实体识别任务。

10、进一步地，上述的基于多特征的强化注意力中文命名实体识别系统，其中，所述序列信息解码模块，利用条件随机场考虑相邻词语之间的关系，在训练过程中引入标签之间的约束，其算法为：

11、首先，通过模型训练使标准score的比重在总体的所有score中比重升高，采用softmax生成序列y的概率公式如下

12、

13、其中，yx为所有可能的标记的集合，y表示真正标签的值；

14、然后，按照以下方式计算概率最大的序列输出标签

15、

16、为最后的标签，x为具体标记。

17、进一步地，上述的基于多特征的强化注意力中文命名实体识别系统，其中，双重门控单元模块，一个用于正向传播，从序列的第一个元素到最后一个元素，另一个用于反向传播，从序列的最后一个元素到第一个元素；同时考虑到序列中每个元素的前后文信息，全面地理解整个序列，由更新门和重置门两种门结构组成，计算如下

18、rt＝σ(ωrct+ωrht-1+br),

19、zt＝σ(ωzct+ωzht-1+bz),

20、hit＝tanh(ωct+ω(rt⊙ht-1)+bh),

21、ht＝(1-zt)⊙ht-1+zt⊙hit,

22、ω均为权重矩阵；ct为本文档来自技高网...

【技术保护点】

1.基于多特征的强化注意力中文命名实体识别系统，其特征在于：包含文本预处理模块(1)、字词向量嵌入模块(2)、特征提取模块(3)和序列信息解码模块(4)，所述文本预处理模块(1)，对训练文本进行停用词清理并对清洗后的文本结合外部词典进行分词，对文本标点符号和停用词清洗，将文本中的文字转换成对应的ID生成字表；所述字词向量嵌入模块(2)，利用中文预训练语言模型获得字符集别的向量表示，通过分词后词语与外部预训练词向量的映射为每个字提供一对应的词向量；所述特征提取模块(3)，将字词向量嵌入模块(2)生成的向量输入特征提取层获取上下文信息，优化特征表示，得到隐藏层向量表示；所述序列信息解码模块(4)，将特征提取模块(3)中输出带有高级特征的向量表示，利用序列解码器得到隐藏状态序列的概率分布，通过维特比算法获得最优序列标记实现命名实体的识别。

2.根据权利要求1所述的基于多特征的强化注意力中文命名实体识别系统，其特征在于：所述文本预处理模块(1)包含文本清洗模块(101)和分词模块(102)，所述文本清洗模块(101)，对文本以字符单位遍历，对中文文本数据进行文本清理，移出常见

3.根据权利要求2所述的基于多特征的强化注意力中文命名实体识别系统，其特征在于：所述文本清洗模块(101)，以字符为单位遍历文本，移出其中常用的停用词；以字符为单位遍历文本，移出其中标点符号；以字符为单位遍历文本，移出文本数据中包含HTML标签，提取纯文本内容；

4.根据权利要求1所述的基于多特征的强化注意力中文命名实体识别系统，其特征在于：所述字词向量嵌入模块(2)包含字级别向量模块(201)和词级别向量模块(202)，所述字级别向量模块(201)，用于将输入经过预训练模型后转换成字符级别向量表示，将每个字符映射到一个连续的向量空间，利用预训练好的向量模型生成字向量表示；所述词级别向量模块(202)，针对分词利用外部预训练的词向量对单词进行映射，将每一个分词后的词语利用外部词向量库映射为一个多维度的向量。

5.根据权利要求1所述的基于多特征的强化注意力中文命名实体识别系统，其特征在于：所述特征提取模块(3)包含双重门控单元模块(301)和注意力强化模块(302)，所述双重门控单元模块(301)，将向量表示输入至其中，利用门控单元对文本双向编码，使模型更好理解文本信息；所述注意力强化模块(302)，将经过双重门控单元模块的信息当作输入并对不同词语的权重进行分配，得到更高级别特征的输出。

6.根据权利要求1所述的基于多特征的强化注意力中文命名实体识别系统，其特征在于：所述序列信息解码模块(4)，经过特征提取模块(3)编码层后将输入向量结合上下文信息且对词语的注意力权重进行再分配，序列信息解码模块(4)利用序列解码器得到隐藏状态序列的概率分布，并通过维特比算法对最优序列标记的分数进行计算，完成命名实体识别任务。

7.根据权利要求1或6所述的基于多特征的强化注意力中文命名实体识别系统，其特征在于：所述序列信息解码模块(4)，利用条件随机场考虑相邻词语之间的关系，在训练过程中引入标签之间的约束，其算法为：

8.根据权利要求5所述的基于多特征的强化注意力中文命名实体识别系统，其特征在于：双重门控单元模块(301)，一个用于正向传播，从序列的第一个元素到最后一个元素，另一个用于反向传播，从序列的最后一个元素到第一个元素；同时考虑到序列中每个元素的前后文信息，全面地理解整个序列，由更新门和重置门两种门结构组成，计算如下

9.利用权利要求1所述的系统实现基于多特征的强化注意力中文命名实体识别方法，其特征在于：包含以下步骤：

10.根据权利要求9所述的基于多特征的强化注意力中文命名实体识别方法，其特征在于：由文本预处理模块(1)，对初始训练文本进行分词以及文本清洗；字词向量嵌入模块(2)，利用预训练中文模型生成字向量，并采用预训练好的外部词向量对于词向量进行映射，两个向量进行拼接；特征提取模块(3)，将处理好的文本表达输入模块通过双向门控单元和注意力强化机制进行特征提取，获取更高级的向量表示；序列信息解码模块(4)，利用条件随机场对序列信息进行解码获得实体的识别。

...

【技术特征摘要】

1.基于多特征的强化注意力中文命名实体识别系统，其特征在于：包含文本预处理模块(1)、字词向量嵌入模块(2)、特征提取模块(3)和序列信息解码模块(4)，所述文本预处理模块(1)，对训练文本进行停用词清理并对清洗后的文本结合外部词典进行分词，对文本标点符号和停用词清洗，将文本中的文字转换成对应的id生成字表；所述字词向量嵌入模块(2)，利用中文预训练语言模型获得字符集别的向量表示，通过分词后词语与外部预训练词向量的映射为每个字提供一对应的词向量；所述特征提取模块(3)，将字词向量嵌入模块(2)生成的向量输入特征提取层获取上下文信息，优化特征表示，得到隐藏层向量表示；所述序列信息解码模块(4)，将特征提取模块(3)中输出带有高级特征的向量表示，利用序列解码器得到隐藏状态序列的概率分布，通过维特比算法获得最优序列标记实现命名实体的识别。

2.根据权利要求1所述的基于多特征的强化注意力中文命名实体识别系统，其特征在于：所述文本预处理模块(1)包含文本清洗模块(101)和分词模块(102)，所述文本清洗模块(101)，对文本以字符单位遍历，对中文文本数据进行文本清理，移出常见的停用词以及标点符号；所述分词模块(102)，以句子为单位，对每一句话利用分词器进行分词，并将外部词典加入分词器。

3.根据权利要求2所述的基于多特征的强化注意力中文命名实体识别系统，其特征在于：所述文本清洗模块(101)，以字符为单位遍历文本，移出其中常用的停用词；以字符为单位遍历文本，移出其中标点符号；以字符为单位遍历文本，移出文本数据中包含html标签，提取纯文本内容；

【专利技术属性】
技术研发人员：奚雪峰，朱华鹏，
申请(专利权)人：苏州科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人