当前位置: 首页 > 专利查询>淮阴工学院专利>正文

基于词汇增强和深度学习的中文命名实体识别方法及系统技术方案

技术编号:37395633 阅读:44 留言:0更新日期:2023-04-27 07:33
本发明专利技术公开了一种基于词汇增强和深度学习的中文命名实体识别方法及系统,通过结合词典信息的输入序列匹配方法以及基于统计的静态加权方法进行中文文本序列的输入向量表示,使用基于双向长短时记忆网络和多头注意力机制结合的序列建模方法,使用条件随机场针对实体标签之间的相互依赖关系进行实体标签预测,使得完全保留先验词典中的词汇信息,在实现词汇增强的同时解决了传递过程中的词汇信息损失问题,提高识别精准度。提高识别精准度。提高识别精准度。

【技术实现步骤摘要】
基于词汇增强和深度学习的中文命名实体识别方法及系统


[0001]本专利技术涉及中文自然语言处理
,尤其是基于词汇增强和深度学习的中文命名实体识别方法及系统。

技术介绍

[0002]在中文命名实体识别的研究方面,传统的深度学习NER模型可分为基于词粒度和基于字符粒度两大类,但由于中文自然语言表达的多样性以及语法的复杂性,基于词粒度模型依赖的常用分词工具无法精准识别实体边界,由此产生的分词错误会延续到上层模型的预测;基于字粒度的模型解决了分词错误的问题,但无法利用到句中的词语信息,中文本文中的相同字符在不同词中可能有不同的涵义,例如“灯光”和“争光”中的“光”字分别代表了“光线”和“荣誉”的含义。
[0003]为了解决上述问题,将词汇信息引入字符粒度的特征表示成为了近年来的主流方法,这种在NER任务中引入词汇信息的方法又称词汇增强。现阶段的词汇增强方法可以分为两类,第一类是动态改变结构的方法,通过对序列建模层进行设计和改进,从而引入词典,提升模型的识别效果。例如Lattice LSTM,成功将词典和词向量信息同时引入模型的序列建模层,本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于词汇增强和深度学习的中文命名实体识别方法,其特征在于,包含以下步骤:S1、将输入的文本序列进行词典匹配,获得文本序列中每个字符在词典内所对应的匹配词语集合;S2、将匹配词语集合中的词语进行加权归一化处理,得到词向量表示,将该词向量表示与对应字符的字向量表示拼接,完成词汇增强处理并获得文本序列向量表示;S3、将文本序列向量表示输入至序列建模层进行特征提取,得到特征提取结果向量;S4、将特征提取结果向量输入至CRF解码器,得到最优的实体识别标签序列。2.根据权利要求1所述的基于词汇增强和深度学习的中文命名实体识别方法,其特征在于,步骤S1中,具体包含以下步骤:S1.1、对于输入的文本序列X={c1,c2,

,c
n
}中的每一个字符c
k
,均从词典中获得与该字符相关的所有词W
i,j
;S1.2、根据位置信息不同,将该字符相关的所有词W
i,j
组成的词语集合划分为BIOES五个匹配词语集合,该五个匹配词语集合的构造方法如下:个匹配词语集合,该五个匹配词语集合的构造方法如下:个匹配词语集合,该五个匹配词语集合的构造方法如下:个匹配词语集合,该五个匹配词语集合的构造方法如下:个匹配词语集合,该五个匹配词语集合的构造方法如下:其中L指模型使用的lexicon词典,B(c
i
)表示以字符c
i
为开头的匹配词语集合,I(c
i
)表示以字符c
i
为中间的匹配词语集合,E(c
i
)表示以字符c
i
为结尾的匹配词语集合,S(c
i
)表示以字符c
i
单独构成的匹配词语集合,O(c
i
)表示没有与字符c
i
匹配的词语,用“NONE”表示该集合,n表示文本序列长度。3.根据权利要求2所述的基于词汇增强和深度学习的中文命名实体识别方法,其特征在于,步骤S2中,具体包含以下步骤:S2.1、使用基于统计的静态加权方法为匹配词语集合中每一个匹配的词语分配权重,进行正则化计算,将匹配到的大小不同的词语集合压缩为相同长度的特征向量,对每个词出现的词频进行计算,得到匹配词语集合中每一个词语的加权归一化后的词向量表示,计算过程如下:z(w)=λz
m
(w)+(1

λ)z
n
(w)式中,v
s
()表示加权归一化后的词向量表示,S表示BIOES五个匹配词语集合,z(w)表示词语w在给定的静态数据中的频率,λ表示词语w对应的权重,Z表示静态数据中所有词的出
现频率总和,z
m
(w)表示第m个词语,z
n
(w)表示第n个词语,e
w
(w)表示对应的词嵌入向量,β表示引入的惩罚项;S2.2、将五个词向量表示v
s
(B)、v
s
(I)、v
s
(O)、v
s
(E)、v
s
(S)与对应字符的字向量表示拼接,得到文本序列向量表示,计算过程如下:e
s
(B,I,O,E,S)=[v
s
(B);v
s
(I);v
s
(O);v
s
(E);v
s
(S)]x
c
=[x
c
;e
s
(B,I,O,E,S)]式中,e
s
(B,I,O,E,S)代表字符c匹配的词语集合经加权归一化后的向量表示,x
c
代表字符c的字向量与词语集合向量拼接后得到的文本序列向量表示。4.根据权利要求3所述的基于词汇增强和深度学习的中文命名实体识别方法,其特征在于,步骤S3中,具体包含以下步骤:S3.1、将文本序列向量表示输入至序列建模层的BiLSTM层进行计算,得到特征向量,其具体计算过程如下:具体计算过程如下:h
t
=o
t

tanh(c
t
)式中,i
t
代表更新门,f
t
代表遗忘门,o
t
代表输出门,c
t
表示t时刻的细胞状态,表示c
t
的等价计算,σ表示sigmoid激活函数,tanh表示双曲正切激活函数,W表示权重矩阵,表示将前一时刻的输出值h
t
‑1与当前时刻的输入值结合,b表示设置的偏置项,

表示点积,h
t
表示当前时刻输出值;S3.2、将特征向量输入至多头自注意力层,自注意力机制使用scale

dot

Product注意力进行计算,得到特征结果向量,具体计算过程如下:式中,Query、Key、Value均表示待处理的矩阵,通过状态矩阵与对应的权重矩阵进行矩阵乘法运算得到,d
k
表示文本词向量的维度,使用softmax函数执行归一化。5.根据权利要求4所述的基于词汇增强和深度学习的中文命名实体识别方法,其特征在于,步骤S4中,具体包含以下步骤:S4.1、将特征提取结果向量输入至CRF解码器,对于给定的输入序列X,预测序列为y,定义标签序列的打分函数如下:式中,A表示转移概率矩阵,表示从y
i
标签到y
i+1
标签的得分,P表示经过序列建模层输出的字符标签分数矩阵,表示第i个字符作为标签y
i
的分数;S4.2、在训练过程中,对正确标签序列进行最大似然概率估计,计算公式如下:
式中,Y
X
表示输入序列X中所有可能的标注序列,表示y的等价计算;S4.3、在解码阶段,利用动态规划算法,得到最高的条件概率标签序列y
*
,即得分函数取得最大值时对应的序列,该序列即为最优的实体识别标签序列,计算公式如下:6.一种基于词汇增强和深度学习的中文命名实体识别系统,其特征在于,包含匹配模块、增强模块、特征提取模块、解...

【专利技术属性】
技术研发人员:陈剑洪刘津铭陈天赐王洪亚陈礼青魏太林
申请(专利权)人:淮阴工学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1