融合多特征和句法引导的中文命名实体识别系统及其方法技术方案

技术编号：40956987 阅读：3 留言：0更新日期：2024-04-18 20:34

本发明专利技术公开了融合多特征和句法引导的中文命名实体识别系统及其方法，特征嵌入模块，用以获得文本中的字、拼音和部首特征；特征提取模块，用以获得文本之间的相互依赖关系；特征融合模块，根据不同模式的特征组合得到一个基于字特征、基于部首特征和基于拼音特征的新特征；特征解码模块，利用CRF建立相应的标签约束，以获取最佳预测序列。加强对文字特征信息的提取，解决缓解中文命名实体识别领域所存在一词多义和实体边界潜在词歧义的问题，对文本中字、拼音和部首特征的提取和融合，减少噪声干扰。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及一种融合多特征和句法引导的中文命名实体识别系统及其方法。

技术介绍

1、命名实体识别是识别实体边界和类型的任务。在自然语言处理中，命名实体识别发挥着基石性的作用，例如知识图构建、文本摘要预训练语言模型等。现阶段中文命名实体识别模型虽然在引入词典后，大量的外部知识使模型获得性能上的提升，然而其所携带的噪声也制约模型的进一步发展，所面临的一词多义和实体边界潜在词歧义的问题仍然是制约模型大规模落地的重要原因。

2、中文命名实体识别的主要技术方法分为：基于规则的方法、基于统计的方法等，基于规则的方法多依赖于词典、模板以及正则表达式，使用存在的词汇进行规则的匹配为主要手段，基于统计的方法多借助于对文本进行概率的统计，倾向于概率较大的词汇；基于深度学习的方法多使用庞大的算力对所有文本进行表示，选择其中最大的概率实体。现有的中文命名实体识别技术存在较多的局限性。

技术实现思路

1、本专利技术的目的是克服现有技术存在的不足，提供一种融合多特征和句法引导的中文命名实体识别系统及其方法。

2、本专利技术的目的通过以下技术方案来实现：

3、融合多特征和句法引导的中文命名实体识别系统，特点是：包含特征嵌入模块、特征提取模块、特征融合模块和特征解码模块；所述特征嵌入模块，用以获得文本中的字、拼音和部首特征；

4、所述特征提取模块，用以获得文本之间的相互依赖关系；

5、所述特征融合模块，根据不同模式的特征组合得到一个基于字特征、基于部首

6、所述特征解码模块，利用crf建立相应的标签约束，以获取最佳预测序列。

7、进一步地，上述的融合多特征和句法引导的中文命名实体识别系统，其中，所述特征嵌入模块，用以利用句法依存树结构信息，为每一个句子构造语法树，增强序列的句法信息，获得字特征；同时通过多层语意提取网络，为每个字符生成对应的拼音和部首特征。

8、进一步地，上述的融合多特征和句法引导的中文命名实体识别系统，其中，所述特征融合模块，根据特征嵌入模块所生成的字，拼音和部首特征，结合bilstm网络，获得文本之间的相互依赖关系。

9、进一步地，上述的融合多特征和句法引导的中文命名实体识别系统，其中，所述特征融合模块，利用协同注意力机制的多模态模型，通过联合学习得到字符各自的注意力权重，在得到特征提取模块获取文字、部首和拼音信息，并将其分别融合为成对的字-部首、字-拼音的双相关性特征向量。

10、进一步地，上述的融合多特征和句法引导的中文命名实体识别系统，其中，所述特征解码模块，通过特征融合模块获得融合特征，利用crf建立相应的标签约束，以获取最佳预测序列；特征嵌入模块与特征提取模块获得文本的文字、部首和拼音特征，特征融合模块获得新特征，特征解码模块不断接收新特征训练，直至结果收敛。

11、进一步地，上述的融合多特征和句法引导的中文命名实体识别系统，其中，特征嵌入模块包括句法依存引导的字特征模块和多层语义特征提取的部首与拼音特征层；特征提取模块包括bilstm网络；特征融合模块采用协同注意力机制网络输出字-部首、字-拼音的双相关性特征向量；特征解码模块，约束特征融合模块的输出结果，获得最佳标记序列。

12、本专利技术融合多特征和句法引导的中文命名实体识别方法，首先，获得文本的文字、部首和拼音特征，找出文本的相互联系；

13、然后，融合文本来自不同维度的特征；

14、最后，不断训练中文命名实体识别器，直至结果收敛。

15、更进一步地，上述的融合多特征和句法引导的中文命名实体识别方法，其中，由特征嵌入模块，对文本中的字、拼音和部首进行特征学习；由特征提取模块，对文本之间的相互依赖关系进行提取；由特征融合模块，对不同模式的特征组合进行一个基于字特征、基于部首特征和基于拼音特征的特征融合；由特征解码模块，对利用crf建立的标签约束，进行最佳预测序列。

16、更进一步地，上述的融合多特征和句法引导的中文命名实体识别方法，其中，由特征嵌入模块，利用句法依存树结构信息，为每一个句子构造语法树，增强序列的句法信息，获得优质的字特征，依存关系如下：

17、给定一个长度为n的句子序列s＝{s1,s2,...,sn}，首先利用句法依存分词工具获取所输入句子的句法依存树，树上节点设置一组掩码向量，掩码向量包括注意力掩码m和语法掩码s(i,j)，为排除无效的词语，标点符号或停用词，公式中的mi表示第i词语是否有效，如有效，则mi＝1，否则为0，语法掩码s(i,j)＝1表示词语si与sj存在依存关系；

18、

19、

20、利用idcnn网络，为每个字符生成对应的拼音和部首特征，计算如下：

21、将部首向量ri，pi分别作为idcnn的输入，表示为宽度为m的第n个膨胀卷积层，则经过第一层卷积运算后得到的部首和拼音结果，计算如下：

22、

23、

24、则经过四层卷积训练后得到的输出结果，计算如下：

25、

26、

27、其中，r为relu激活函数，则idcnn最后一层的输出为：

28、

29、由特征提取模块，对文本之间的相互依赖关系进行提取；

30、由特征融合模块，对不同模式的特征组合进行一个基于字特征、基于部首特征和基于拼音特征的特征融合；

31、由特征解码模块，对利用crf建立的标签约束，进行最佳预测序列；

32、特征嵌入模块与特征提取模块获得文本的文字、部首和拼音特征，特征融合模块融合更全面的新特征，特征解码模块不断接收新特征训练，直至结果收敛。

33、本专利技术与现有技术相比具有显著的优点和有益效果，具体体现在以下方面：

34、①本专利技术融合多特征和句法引导的中文命名实体识别系统及其方法，提取文本中的字、拼音和部首特征，对文本之间的相互依赖关系进行获取，对不同模式的特征组合进行基于字特征、基于部首特征和基于拼音特征的特征融合，最后利用crf建立的标签约束，进行最佳实体预测；加强对文字特征信息的提取，解决缓解中文命名实体识别领域所存在一词多义和实体边界潜在词歧义的问题；

35、②本专利技术融合多特征和句法引导的中文命名实体识别系统及方法，对文本中字、拼音和部首特征的提取和融合，减少噪声干扰，缓解中文命名实体识别领域所存在一词多义和实体边界潜在词歧义的问题；利用字符特征和拼音部首特征结合的方法，取代传统的单纯基于字符和单纯基于拼音部首方法；

36、③本专利技术解决了中文命名实体识别的数据噪声问题，相比于现有技术在通用数据集上有更高的识别准确率；针对具有极高应用价值的中文命名实体识别方法开展实际研究，具有开拓性，显著提高识别成功的准确率。

37、本专利技术的其他特征和优点将在随后的说明书阐述，并且，部分地从说明书中变得显而易见，本文档来自技高网...

【技术保护点】

1.融合多特征和句法引导的中文命名实体识别系统，其特征在于：包含特征嵌入模块(1)、特征提取模块(2)、特征融合模块(3)和特征解码模块(4)；所述特征嵌入模块(1)，用以获得文本中的字、拼音和部首特征；

2.根据权利要求1所述的融合多特征和句法引导的中文命名实体识别系统，其特征在于：所述特征嵌入模块(1)，用以利用句法依存树结构信息，为每一个句子构造语法树，增强序列的句法信息，获得字特征；同时通过多层语意提取网络，为每个字符生成对应的拼音和部首特征。

3.根据权利要求1所述的融合多特征和句法引导的中文命名实体识别系统，其特征在于：所述特征融合模块(2)，根据特征嵌入模块(1)所生成的字，拼音和部首特征，结合BiLSTM网络，获得文本之间的相互依赖关系。

4.根据权利要求1所述的融合多特征和句法引导的中文命名实体识别系统，其特征在于：所述特征融合模块(3)，利用协同注意力机制的多模态模型，通过联合学习得到字符各自的注意力权重，在得到特征提取模块(2)获取文字、部首和拼音信息，并将其分别融合为成对的字-部首、字-拼音的双相关性特征向量。

<p>5.根据权利要求1所述的融合多特征和句法引导的中文命名实体识别系统，其特征在于：所述特征解码模块(4)，通过特征融合模块(3)获得融合特征，利用CRF建立相应的标签约束，以获取最佳预测序列；特征嵌入模块(1)与特征提取模块(2)获得文本的文字、部首和拼音特征，特征融合模块(3)获得新特征，特征解码模块(4)不断接收新特征训练，直至结果收敛。

6.根据权利要求1所述的融合多特征和句法引导的中文命名实体识别系统，其特征在于：特征嵌入模块(1)包括句法依存引导的字特征模块和多层语义特征提取的部首与拼音特征层；特征提取模块(2)包括BiLSTM网络。

7.根据权利要求1所述的融合多特征和句法引导的中文命名实体识别系统，其特征在于：特征融合模块(3)采用协同注意力机制网络输出字-部首、字-拼音的双相关性特征向量；特征解码模块(4)，约束特征融合模块(3)的输出结果，获得最佳标记序列。

8.利用权利要求1所述的系统实现融合多特征和句法引导的中文命名实体识别方法，其特征在于：首先，获得文本的文字、部首和拼音特征，找出文本的相互联系；

9.根据权利要求8所述的融合多特征和句法引导的中文命名实体识别方法，其特征在于：由特征嵌入模块(1)，对文本中的字、拼音和部首进行特征学习；由特征提取模块(2)，对文本之间的相互依赖关系进行提取；由特征融合模块(3)，对不同模式的特征组合进行一个基于字特征、基于部首特征和基于拼音特征的特征融合；由特征解码模块(4)，对利用CRF建立的标签约束，进行最佳预测序列。

10.根据权利要求9所述的融合多特征和句法引导的中文命名实体识别方法，其特征在于：由特征嵌入模块(1)，利用句法依存树结构信息，为每一个句子构造语法树，增强序列的句法信息，获得优质的字特征，依存关系如下：

...

【技术特征摘要】

3.根据权利要求1所述的融合多特征和句法引导的中文命名实体识别系统，其特征在于：所述特征融合模块(2)，根据特征嵌入模块(1)所生成的字，拼音和部首特征，结合bilstm网络，获得文本之间的相互依赖关系。

5.根据权利要求1所述的融合多特征和句法引导的中文命名实体识别系统，其特征在于：所述特征解码模块(4)，通过特征融合模块(3)获得融合特征，利用crf建立相应的标签约束，以获取最佳预测序列；特征嵌入模块(1)与特征提取模块(2)获得文本的文字、部首和拼音特征，特征融合模块(3)获得新...

【专利技术属性】
技术研发人员：奚雪峰，李莉，毛文月，顾黎明，盛胜利，崔志明，
申请(专利权)人：苏州科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人