一种适用于多领域的中文命名实体识别方法技术

技术编号：32339417 阅读：18 留言：0更新日期：2022-02-16 18:47

本发明专利技术属于命名实体识别领域，具体涉及一种适用于多领域的中文命名实体识别方法，该方法包括：对中文命名实体数据集进行特定的领域分类；采用样本学习法对领域分类后的数据进行采样，得到数据集，将数据集输入到模型的共享编码表示层；通过域分类器，得到数据的所属领域概率分布，各领域专家层提取领域独有特征，公共专家层根据所属领域概率分布综合各领域专家的特征，将各专家层提取的特征输入到对应的CRF层，得到实体识别结果；本发明专利技术将多任务学习技术应用到中文命名实体识别领域中，不同域的数据被单独视为一个训练任务并设计特定的多专家模型结构来提取域独有特征和域共有特征，使不同域之间相互辅助，提升识别效果。提升识别效果。提升识别效果。

全部详细技术资料下载

【技术实现步骤摘要】
一种适用于多领域的中文命名实体识别方法

[0001]本专利技术属于深度学习、迁移学习、自然语言处理、命名实体识别领域，具体涉及一种适用于多领域的中文命名实体识别方法。

技术介绍

[0002]命名实体识别技术是自然语言处理领域中一项关键的技术，是其他自然语言处理应用的基础，旨在从文本中抽取人们所关注的实体片段，例如人名、机构名、地名等。目前，针对单领域的中文命名实体识别已经取得较好的性能。
[0003]随着自然语言处理技术的深入应用，以及社会各行业的发展。文本的种类也越来越多，比如广播对话、电视新闻、网络博客等。在不同的领域所定义的命名实体也不尽相同。然而，目前存在的问题有：单领域命名实体识别需要大量的标注数据，多数领域需要专业人员的标注，标注代价昂贵；当训练集测试集发生域转移时，性能会大幅下降；为了得到可用的效果需要花费大量时间重新训练模型。因此，如何充分利用已有领域数据提高命名实体模型的泛化能力是目前亟待解决的问题。

技术实现思路

[0004]为解决以上现有技术存在的问题，本专利技术提出了一种适用于多领域的中文命名实体识别方法，该方法包括：获取待识别的实体数据；将待识别的实体数据输入到中文命名实体识别模型中，得到识别的结果，对识别的结果进行标记；
[0005]对中文命名实体识别模型进行训练的过程包括：
[0006]S1：获取原始中文命名实体数据集，对该数据集中的数据进行领域分类处理；
[0007]S2：采用样本学习法对领域分类后的数据进行采样，得到训练集；
[

【技术保护点】

【技术特征摘要】
1.一种适用于多领域的中文命名实体识别方法，其特征在于，包括：获取待识别的实体数据；将待识别的实体数据输入到中文命名实体识别模型中，得到识别的结果，对识别的结果进行标记；对中文命名实体识别模型进行训练的过程包括：S1：获取原始中文命名实体数据集，对该数据集中的数据进行领域分类处理；S2：采用样本学习法对领域分类后的数据进行采样，得到训练集；S3：将训练集中的数据输入到模型的共享编码表示层，得到输入数据中每个词的向量表示；S4：将每个词向量表示输入到域分类器中，得到该数据的所属领域的概率分布；S5：采用领域专家层提取每个词的向量表示的领域独有特征；公共专家层根据概率分布和词向量表示的领域独有特征提取词向量的公有领域特征；S6：将领域独有特征和公有领域特征分别输入到对应的CRF层，得到实体命名结果；S7：计算模型的损失函数，将训练集中的数据依次输入到模型中，不断调整模型的参数，当损失函数值最小时完成模型的训练。2.根据权利要求1所述的一种适用于多领域的中文命名实体识别方法，其特征在于，对该数据集中的数据进行领域分类处理的过程包括：根据数据集中的数据来源将各个数据划分到不同的领域中，对每个领域设置命名实体标签空间和数据标签；对于数据集中的中尉数据进行特定的处理，该特定的处理包括删除所有非中文、非英文和非正常标点的特殊符号，将删掉特殊符号的数据过滤停用词和噪声，并根据实体库进行分词处理；采用BIO标注法对数据集中的标签进行编码处理，使得样本中的每一个字符对应一个标签。3.根据权利要求1所述的一种适用于多领域的中文命名实体识别方法，其特征在于，采用共享编码表示层对输入数据进行向量表示的过程包括：共享编码表示层为双向门控循环单元，将该单元作为上下文语义的编码器；将输入数据的样本进行向量表示为X＝(x1,x2,...,x
m
)，将输入样本输入到编码器中进行编码处理，得到每个词的向量表示。4.根据权利要求3所述的一种适用于多领域的中文命名实体识别方法，其特征在于，编码器对输入样本向量进行处理的公式为：z
l
＝σU
z
x
l
+R
z
h
l
‑1+b
z
r
l
＝σU
r
x
l
+R
r
h
l
‑1+b
r
n
l
＝tanh U
h
x
l
+R
h r
l
*h
l
‑1+b
h
h
l
=z
l
*h
l
‑1+1
‑
z
l
*n
l
其中，z
l
表示更新门向量，σ表示激活函数Sigmoid，x
l
表示第l步输入，r
l
...

【专利技术属性】
技术研发人员：王进，林兴，王猛旗，何晓莲，陈乔松，杜雨露，胡珂，
申请(专利权)人：重庆邮电大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人