一种适用于多领域的中文命名实体识别方法技术

技术编号:32339417 阅读:18 留言:0更新日期:2022-02-16 18:47
本发明专利技术属于命名实体识别领域,具体涉及一种适用于多领域的中文命名实体识别方法,该方法包括:对中文命名实体数据集进行特定的领域分类;采用样本学习法对领域分类后的数据进行采样,得到数据集,将数据集输入到模型的共享编码表示层;通过域分类器,得到数据的所属领域概率分布,各领域专家层提取领域独有特征,公共专家层根据所属领域概率分布综合各领域专家的特征,将各专家层提取的特征输入到对应的CRF层,得到实体识别结果;本发明专利技术将多任务学习技术应用到中文命名实体识别领域中,不同域的数据被单独视为一个训练任务并设计特定的多专家模型结构来提取域独有特征和域共有特征,使不同域之间相互辅助,提升识别效果。提升识别效果。提升识别效果。

【技术实现步骤摘要】
一种适用于多领域的中文命名实体识别方法


[0001]本专利技术属于深度学习、迁移学习、自然语言处理、命名实体识别领域,具体涉及一种适用于多领域的中文命名实体识别方法。

技术介绍

[0002]命名实体识别技术是自然语言处理领域中一项关键的技术,是其他自然语言处理应用的基础,旨在从文本中抽取人们所关注的实体片段,例如人名、机构名、地名等。目前,针对单领域的中文命名实体识别已经取得较好的性能。
[0003]随着自然语言处理技术的深入应用,以及社会各行业的发展。文本的种类也越来越多,比如广播对话、电视新闻、网络博客等。在不同的领域所定义的命名实体也不尽相同。然而,目前存在的问题有:单领域命名实体识别需要大量的标注数据,多数领域需要专业人员的标注,标注代价昂贵;当训练集测试集发生域转移时,性能会大幅下降;为了得到可用的效果需要花费大量时间重新训练模型。因此,如何充分利用已有领域数据提高命名实体模型的泛化能力是目前亟待解决的问题。

技术实现思路

[0004]为解决以上现有技术存在的问题,本专利技术提出了一种适用于多领域的中文命名实体识别方法,该方法包括:获取待识别的实体数据;将待识别的实体数据输入到中文命名实体识别模型中,得到识别的结果,对识别的结果进行标记;
[0005]对中文命名实体识别模型进行训练的过程包括:
[0006]S1:获取原始中文命名实体数据集,对该数据集中的数据进行领域分类处理;
[0007]S2:采用样本学习法对领域分类后的数据进行采样,得到训练集;
[0008]S3:将训练集中的数据输入到模型的共享编码表示层,得到输入数据中每个词的向量表示;
[0009]S4:将每个词向量表示输入到域分类器中,得到该数据的所属领域的概率分布;
[0010]S5:采用领域专家层提取每个词的向量表示的领域独有特征;公共专家层根据概率分布和词向量表示的领域独有特征提取词向量的公有领域特征;
[0011]S6:将领域独有特征和公有领域特征分别输入到对应的CRF层,得到实体命名结果;
[0012]S7:计算模型的损失函数,将训练集中的数据依次输入到模型中,不断调整模型的参数,当损失函数值最小时完成模型的训练。
[0013]优选的,对该数据集中的数据进行领域分类处理的过程包括:根据数据集中的数据来源将各个数据划分到不同的领域中,对每个领域设置命名实体标签空间和数据标签;对于数据集中的中尉数据进行特定的处理,该特定的处理包括删除所有非中文、非英文和非正常标点的特殊符号,将删掉特殊符号的数据过滤停用词和噪声,并根据实体库进行分词处理;采用BIO标注法对数据集中的标签进行编码处理,使得样本中的每一个字符对应一
个标签。
[0014]优选的,采用共享编码表示层对输入数据进行向量表示的过程包括:共享编码表示层为双向门控循环单元,将该单元作为上下文语义的编码器;将输入数据的样本进行向量表示为X=(x1,x2,...,x
m
),将输入样本输入到编码器中进行编码处理,得到每个词的向量表示。
[0015]进一步的,编码器对输入样本向量进行处理的公式为:
[0016]z
l
=σU
z
x
l
+R
z
h
l
‑1+b
z
[0017]r
l
=σU
r
x
l
+R
r
h
l
‑1+b
r
[0018]n
l
=tanh U
h
x
l
+R
h
r
l
*h
l
‑1+b
h
[0019]h
l
=z
l
*h
l
‑1+1

z
l
*n
l
[0020]其中,z
l
表示更新门向量,σ表示激活函数Sigmoid,x
l
表示第l步输入,r
l
表示复位门向量,U,R,b分别表示编码器随机初始化的可学习的参数,n
l
表示新的门向量,tanh表示双曲正切函数,h
l
表示l时间步的隐藏状态。
[0021]优选的,采用域分类器对词向量表示进行处理的过程包括:
[0022]S41:将隐藏层向量h输入到多层感知机MLP中提取域分类特征;得到域分类特征的公式为:
[0023]C=MLP(relu(h))
[0024]S42:将域分类特征输入到Softmax层中,得到所属领域概率分布Y
d
,公式为:
[0025][0026]其中,relu表示分段线性函数,MLP表示多层感知机网络,表示属于第n个领域的概率值,softmax表示归一化函数。
[0027]优选的,采用领域专家层提取每个词的向量表示的领域独有特征的公式为:
[0028]F
i
=Expert
i
(h)
[0029]其中,F
i
表示词向量表示的领域独有特征,Expert
i
表示特征抽取网络,即包括但不限于CNN、MLP,h表示隐藏层向量。
[0030]优选的,公共专家层根据概率分布和词向量表示的领域独有特征提取词向量的公有领域特征的公式为:
[0031][0032]其中,F
public
表示词向量的公有领域特征,n表示已知数据中领域的数量,F
i
表示词向量表示的领域独有特征,表示词向量表示所属领域的概率分布。
[0033]优选的,将领域独有特征和公有领域特征分别输入到对应的CRF层进行处理的过程包括:
[0034]S61:将领域独有特征和公有领域特征输出矩阵当作字符的标签分类概率P,,其中P的大小为m
×
k,m表示字的个数,k表示标签个数;
[0035]S62:根据训练集各领域标签空间中的标签依赖关系学习转移矩阵A,根据转移矩阵得到转移得分;
[0036]S63:根据转移得分和标签分类概率计算每条候选预测序列的得分:
[0037][0038]其中,表示在标签空间中第i个标签到第i+1个标签的转移得分,P
j
表示第j个字符的标签分类概率;
[0039]S64:使用Viterbi算法对每条候选预测序列的得分进行解码,将分数最大的预测序列作为预测结果。
[0040]优选的,模型的损失函数为:
[0041][0042]其中,n表示已知数据中领域的数量,S
Di
表示第i个领域的得分,F
i
表示词向量表示的领域独有特征,L
i
表示第i个领域的标签空间,表示公有领域的得分,F...

【技术保护点】

【技术特征摘要】
1.一种适用于多领域的中文命名实体识别方法,其特征在于,包括:获取待识别的实体数据;将待识别的实体数据输入到中文命名实体识别模型中,得到识别的结果,对识别的结果进行标记;对中文命名实体识别模型进行训练的过程包括:S1:获取原始中文命名实体数据集,对该数据集中的数据进行领域分类处理;S2:采用样本学习法对领域分类后的数据进行采样,得到训练集;S3:将训练集中的数据输入到模型的共享编码表示层,得到输入数据中每个词的向量表示;S4:将每个词向量表示输入到域分类器中,得到该数据的所属领域的概率分布;S5:采用领域专家层提取每个词的向量表示的领域独有特征;公共专家层根据概率分布和词向量表示的领域独有特征提取词向量的公有领域特征;S6:将领域独有特征和公有领域特征分别输入到对应的CRF层,得到实体命名结果;S7:计算模型的损失函数,将训练集中的数据依次输入到模型中,不断调整模型的参数,当损失函数值最小时完成模型的训练。2.根据权利要求1所述的一种适用于多领域的中文命名实体识别方法,其特征在于,对该数据集中的数据进行领域分类处理的过程包括:根据数据集中的数据来源将各个数据划分到不同的领域中,对每个领域设置命名实体标签空间和数据标签;对于数据集中的中尉数据进行特定的处理,该特定的处理包括删除所有非中文、非英文和非正常标点的特殊符号,将删掉特殊符号的数据过滤停用词和噪声,并根据实体库进行分词处理;采用BIO标注法对数据集中的标签进行编码处理,使得样本中的每一个字符对应一个标签。3.根据权利要求1所述的一种适用于多领域的中文命名实体识别方法,其特征在于,采用共享编码表示层对输入数据进行向量表示的过程包括:共享编码表示层为双向门控循环单元,将该单元作为上下文语义的编码器;将输入数据的样本进行向量表示为X=(x1,x2,...,x
m
),将输入样本输入到编码器中进行编码处理,得到每个词的向量表示。4.根据权利要求3所述的一种适用于多领域的中文命名实体识别方法,其特征在于,编码器对输入样本向量进行处理的公式为:z
l
=σU
z
x
l
+R
z
h
l
‑1+b
z
r
l
=σU
r
x
l
+R
r
h
l
‑1+b
r
n
l
=tanh U
h
x
l
+R
h r
l
*h
l
‑1+b
h
h
l
=z
l
*h
l
‑1+1

z
l
*n
l
其中,z
l
表示更新门向量,σ表示激活函数Sigmoid,x
l
表示第l步输入,r
l
...

【专利技术属性】
技术研发人员:王进林兴王猛旗何晓莲陈乔松杜雨露胡珂
申请(专利权)人:重庆邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1