基于多特征嵌入的中文命名实体识别方法及系统技术方案

技术编号：39745535 阅读：23 留言：0更新日期：2023-12-17 23:44

本发明专利技术公开了一种基于多特征嵌入的中文命名实体识别方法，包括：使用

全部详细技术资料下载

【技术实现步骤摘要】
基于多特征嵌入的中文命名实体识别方法及系统

[0001]本专利技术涉及命名实体识别
，特别是一种基于多特征嵌入的中文命名实体识别方法及系统
。

技术介绍

[0002]命名实体识别是自然语言处理领域中的重要子任务之一，它可以从非结构化或结构化文本中提取有用信息
。
命名实体包括人名
、
地名
、
机构名等等，这些实体对于其他自然语言处理任务具有重要价值，例如关系抽取
、
实体链接
、
知识图谱
、
智能问答等等
。
然而，中文命名实体识别起步较晚，且中文与英文的差异性导致英文命名实体识别的方法难以迁移到中文研究中，这主要体现在以下几个方面
。
第一，中文文本中没有像英文文本那样的空格作为分隔符，因此确定分词边界比较困难
。
例如，“南京市长江大桥”这个实体既可以理解为南京市市长的名字叫江大桥，也可以理解为南京市的长江大桥
。
第二，汉字的语义会随时间和场合等发生变化，这增加了中文命名实体识别的复杂性
。
例如，“张三现在在中国建设银行”文本中的实体“中国建设银行”在描述张三所在位置时应该标记为地点
(LOC)
，但在描述张三在职情况时应该标记为组织机构
(ORG)。
第三，随着互联网的快速发展，网络文本大量涌现，汉字使用更加个性化和随意化，这也增加了中文命名实体识别的难度
。
针对这些...

【技术保护点】

【技术特征摘要】
1.
一种基于多特征嵌入的中文命名实体识别方法，其特征在于，包括以下步骤：步骤
1、
使用
BERT
模型提取包含丰富上下文信息的字向量，处理得到词根嵌入向量和字形嵌入向量；步骤
2、
利用双向长短期记忆网络
BiLSTM
提取字形嵌入向量和词根嵌入向量的特征，同时通过迭代膨胀卷积神经网络
IDCNN
对字形嵌入向量进行特征提取，接着将这三个特征向量拼接；步骤
3、
将拼接的这三个特征向量输入多头自注意力机制层，对拼接得到的向量进行动态融合，提取关键特征；步骤
4、
使用条件随机场
CRF
对序列进行标注解码
。2.
根据权利要求1所述的基于多特征嵌入的中文命名实体识别方法，其特征在于，还包括以下步骤：步骤
5、
根据知识蒸馏方法，设置教师模型和学生模型为同一模型，用教师模型的输出概率分布指导学生模型的训练
。3.
根据权利要求1或2所述的基于多特征嵌入的中文命名实体识别方法，其特征在于，在步骤1中，处理得到词根嵌入向量具体如下：通过爬取得到多个汉字
‑
词根映射，并保存了这些字对应的图片；对于词根信息的编码，首先遍历汉字
‑
词根表中的每个汉字对应的词根集，为每个词根分配一个唯一的索引
ID
，并构建一个词根表；如果文本中的字符在多个汉字中，则根据汉字
‑
词根表找到对应的词根集，遍历词根集中的每一个词根，在词根表中找到对应的索引
ID
，构建词根向量；设置每个字符的词根向量长度为9，并设置补齐标签，如果字符的词根不足9个或者没找到汉字，则用补齐标签对应的索引
ID
补齐词根向量
。4.
根据权利要求3所述的基于多特征嵌入的中文命名实体识别方法，其特征在于，在步骤1中，所述
BERT
模型模型采用双向
Transformer
编码器，由多层
Transformers Encoder
堆叠而成，在处理文本时同时考虑了上下文中的所有单词信息，能够捕捉到更加细致的语义信息；
BERT
模型采用掩码语言模型和下一句预测任务，在掩码语言模型任务中，
BERT
模型随机遮蔽文本中的一些词汇，然后通过上下文预测这些被遮蔽的词汇；在下一句预测任务中，
BERT
模型预测两个句子是否是相邻的
。5.
根据权利要求4所述的基于多特征嵌入的中文命名实体识别方法，其特征在于，所述双向长短期记忆网络
BiLSTM
包括两个方向的长短时记忆网络
LSTM
，分别对序列的正向和反向进行建模，获取序列中每个位置的上下文信息，并将两个方向的输出合并起来，得到一个更全面的特征表示；所述长短时记忆网络
LSTM
利用输入门
、
遗忘门和输出门来控制信息的流动和保存，输入门控制当前输入信息对记忆单元的影响程度，遗忘门控制历史信息对记忆单元的影响程度，输出门控制记忆单元对当前输出的影响程度；输入门
、
遗忘门
、
输出门和记忆单元的更新方式如下：
i
t
＝
σ
(W
i
[x
t
,h
t
‑1]+b
i
)f
t
＝
σ
(W
f
[x
t
,h
t
‑1]+b
f
)o
t
＝
σ
(W
o
[x
t
,h
t
‑1]+b
o
)c
t
＝
f
t
*c
t
‑1+i
t
*tanh(W
c
[x
t
,h
t
‑1]+b
c
)
h
t
＝
o
t
*tanh(c
t
)
其中，
i
t
、f
t
、o
t
、c
t
分别表示
t
时刻输入门
、
遗忘门
、
输出门和记忆单元的状态，
h

【专利技术属性】
技术研发人员：胡为，刘伟，蔡思涵，李小智，陶家俊，
申请(专利权)人：湖南中医药大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人