一种基于深度学习的命名实体识别方法技术

技术编号:31702991 阅读:25 留言:0更新日期:2022-01-01 11:04
本发明专利技术公开了一种基于深度学习的命名实体识别方法,步骤包括:1)构建一对一的同义词词典;2)选择数据集,定义实体类集合;3)对BERT模型进行对比学习预训练;4)进行命名实体识别任务的微调训练,得到编码器和分类器;5)将测试集中剩余待处理的句子统称为句子S1;6)将句子S1输入编码器,得到字嵌入向量集合和句向量u;7)在句子S1中基于跨度选择文段,构造文段的词嵌入向量;8)利用同义词词典替换步骤7在句子S1中所选中的文段,得到句子S2;9)利用编码器处理句子S2,得到句向量v;10)计算得到span_em,再通过分类器分类得到实体集C。本发明专利技术的方法,识别准确率高。识别准确率高。识别准确率高。

【技术实现步骤摘要】
一种基于深度学习的命名实体识别方法


[0001]本专利技术属于计算机自然语言处理
,涉及一种基于深度学习的命名实体识别方法。

技术介绍

[0002]命名实体识别的目的是识别文本中具有某种特定意义、类别或词性的实体,例如人名、国家、情绪词、学科专有名词、电话号码等。随着大数据技术兴起,命名实体识别在知识图谱、数据分析、智能化数据处理等领域取得了越来越广泛地应用。
[0003]早期的命名实体识别方法一般基于规则进行,在深度学习取得阶段性进展后,近年来也出现了许多基于深度学习的命名实体识别方法。然而,目前基于深度学习的命名实体识别方法对嵌套实体等模糊实体难以识别,准确率还有待改进,只有在高度语义化的层面上处理文本才能获得更好的效果。

技术实现思路

[0004]本专利技术的目的是提供一种基于深度学习的命名实体识别方法,解决了现有技术中,利用实体关系抽取方法难以识别嵌套实体,导致实体分类不准确的问题。
[0005]本专利技术所采用的技术方案是,一种基于深度学习的命名实体识别方法,按照以下步骤实施:
[0006本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度学习的命名实体识别方法,其特征在于,按照以下步骤实施:步骤1,按照大词林构建一对一的同义词词典D;步骤2,选择数据集,将实体类别定义为实体类集合E;步骤3,利用步骤2得到的数据集中的训练集对已完成领域预训练的BERT模型进行对比学习预训练,得到的Pre_Train_BERT;步骤4,对于步骤3得到的Pre_Train_BERT,利用步骤2中选择的数据集对深度学习模型进行命名实体识别任务的微调训练,得到Fine_Tuning_BERT编码器和经过训练的softmax分类器;步骤5,将测试集中剩余待处理的句子统称为句子S1;步骤6,将句子S1输入步骤4中得到的Fine_Tuning_BERT编码器进行编码,得到句子S1的字嵌入向量集合S1_em和句向量CLS1,将CLS1作为句向量u;步骤7,在句子S1中基于跨度选择文段,利用步骤6得到的字嵌入向量集合S1_em构造文段的词嵌入向量token;步骤8,利用步骤1中构造的同义词词典D,替换步骤7在句子S1中所选中的文段,得到句子S2;若不存在同义词则令句子S2等于句子S1;步骤9,利用步骤4得到的Fine_Tuning_BERT编码器处理步骤8得到的句子S2,得到句子S2的句向量v;若步骤8中不存在同义词则将句向量v置零;步骤10,联接句向量u、词嵌入向量token、|u

v|、句向量v,得到span_em,将span_em通过softmax分类器进行分类,得到实体集C,即成。2.根据权利要求1所述的基于深度学习的命名实体识别方法,其特征在于:在步骤3中,利用步骤1中构造的同义词词典D进行同义词替换从而构造正样本,且训练集的句子互为负样本,在此基础上进行对比学习预训练,得到经过预训练的Pre_Train_BERT,具体过程为:3.1)正样本构造及BERT模型的预训练,包括如下小步骤:3.1.1)在步骤2中得到的数据集的训练集中选择一段句子A1;3.1.2)在句子A1所标记的实体中随机选择一个实体,按照步骤1得到的同义词词典D将该实体替换为其同义词,得到正样本句子A2;若选择的实体不存在同义词,则回溯至3.1.1)重新选择;3.1.3)分别将句子A1与其正样本句子A2输入BERT模型,得到字嵌入向量集合A1_em与A2_em,再分别将A1_em与A2_em进行平均池化,得到向量AR1与AR2;3.1.4)计算向量AR1与AR2的欧氏距离d,将该欧氏距离d作为损失Loss沿着池化层与BERT反向传递,以梯度下降法更新BERT的权值,得到更新后的Pre_Train_BERT;3.2)负样本...

【专利技术属性】
技术研发人员:黑新宏李育璠朱磊王一川姬文江彭伟董林靖
申请(专利权)人:西安理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1