一种基于对抗训练的命名实体识别方法技术

技术编号:24252001 阅读:35 留言:0更新日期:2020-05-22 23:48
本发明专利技术公开了一种基于对抗训练的命名实体识别方法,分别通过RoBERTa模型训练和Bi‑LSTM的训练获得司法领域文字之间关联性特征;然后将两种关联性特征拼接在一起,利用条件随机场模型对训练样本进行预测获得预测的结果;本发明专利技术能够引入不同维度的外部词向量与字向量与不同维度的司法领域文本字词混合向量相结合,并且针对司法领域文本中混合词向量进行对抗扰动,增加模型识别的准确率。

A named entity recognition method based on confrontation training

【技术实现步骤摘要】
一种基于对抗训练的命名实体识别方法
本专利技术属于命名实体识别的
,具体涉及一种基于对抗训练的命名实体识别方法。
技术介绍
命名实体识别在各个领域已经有了广泛的应用,各领域也针对命名实体识别进行了不同程度的优化,在传统的命名实体识别中需要耗费大量的人员针对特定的领域进行特征提取,并利用概率图模型进行命名实体识别,随着近几年深度学习的兴起,各领域已经利用深度学习的方法对命名实体识别进行了大量的探索,目前在金融,医疗,法律领域已经有大量的探索与实践,减少了大量的人工成本,并提高了准确率,如何利用这些信息尤为关键,在利用命名实体识别技术,对某些特定领域中具有特定意义的实体,比如在司法文本中(嫌疑人,被告,原告等),通过这些实体的识别可以为之后信息提取、问答系统、句法分析、知识推理,构建知识图谱等重要任务打下来重要的基础。目前,命名实体识别在司法领域中的主要方法分为三大类:第一类基于概率图模型,该方法主要使用条件随机场(CRF)模型,是给定一组输入序列条件下另一组输出序列的条件概率分布模型,通过输入带标签特定领域数据,人工提取出相应的特征与设定相应的规则,从而对未标注的文本进行识别。第二类基于深度学习的方法,该方法主要使用双向长短时记忆网络(Bi-LSTM)模型,利用词向量嵌入信息,通过输入带标签特定领域数据到Bi-LSTM中从而大大的减少了人工的工作,并且可以得到更高的准确率。第三类基于深度学习与传统的方法相结合,该方法利用词向量训练方法(Word2Vec)或者(GloVe)技术给定特定领域文本,特定领域词表,在特定领域文本中我们通过文本来构建语言模型,通过P(w1,w2,…wn)=P(w1)P(w2|w1)P(wn|w1,…,wn-1),把联合概率转化为条件概连乘,并利用马尔科夫假设大大减少了参数,而在词表中的每一个词都对应着一个连续的特征向量,往一个概率模型中,输入一段词向量,输出文本的联合概率,从而去学习词向量权重,构建一个简单的神经网络f(wt-n+1…,wt)f(wt-n+1…,wt)来拟合条件概率P(wt|w1,…,wt-1),模型中输入词向量到线性的嵌入层(Embedding)层,利用可训练的参数矩阵C通过设置不同的滑动窗口贯穿整个特定领域文本,来获取到特定领域文本的词向量,从而得到相应的词向量(wordvector),这里有两种方法分别为跳字模型(Skip-gram)或连续词袋子模型(CBOW)两个模型去进行训练,当得到相应的词向量后,通过输入Bi-LSTM层,在Bi-LSTM层中词向量的输入经过每一个时间点的隐藏状态,这样可以得到上下文的表示,最后的特征通过CRF层利用周围的信息从而有效的得到相应的标签,模型如图1。现有的特定领域的命名实体模型利用Bi-LSTM跟CRF模型相结合的方式,但模型提取特征的能力不够强大,而Bi-LSTM中的建模只是简单的从左到右,或者从右到左进行建模,并把隐状态拼接在一起,但是这样做的缺点是只能利用上文或者下文的信息,不能同时利用上文和下文的信息。并且,在特定领域中文本的数量与个数有限,没有大量的数据进行模型性能的提升。随着BERT模型的出现,在各领域中已经逐步进行应用,但是在特定领域中却没有得到相应的应用,而BERT及后续的模型RoBERTa所带来单词之间相互独立,微调时会带来模型性能的损失等缺点,数据的规模很大,模型的准确率基本无法提升。
技术实现思路
有鉴于此,本专利技术提供了一种基于对抗训练的命名实体识别方法,能够引入不同维度的外部词向量与字向量与不同维度的司法领域文本字词混合向量相结合,并且针对司法领域文本中混合词向量进行对抗扰动,增加模型识别的准确率。实现本专利技术的技术方案如下:一种基于对抗训练的命名实体识别方法,包括以下步骤:步骤一、将司法领域的裁判文书切分为单个文字作为训练样本,通过RoBERTa模型训练获得司法领域文字之间关联性特征;将司法领域的裁判文书切分为单个文字和词组,利用Word2Vec方法将词组转换为词向量,利用Fasttext方法将单个文字转换为基于字的词向量;引入司法领域之外的利用Word2Vec方法得到的词向量,引入司法领域之外的利用Fasttext方法得到的基于字的词向量;将所有词向量混合;步骤二、对混合的词向量矩阵进行扰动,通过损失函数的最大值来找到最坏情况的扰动,利用外部经验风险的最小化来得到模型的最佳鲁棒参数,从而得到对抗扰动优化后的词向量;步骤三、利用长度为a的滑动窗口将步骤二获得的词向量输入Bi-LSTM,经过Bi-LSTM的训练,获得司法领域字词之间的关联性特征;步骤四、将步骤一和步骤三得到的两个关联性特征拼接在一起,然后利用条件随机场模型对训练样本进行预测获得预测的结果。进一步地,1000<a<2000。有益效果:1.本专利技术引入不同维度的外部词向量与字向量与不同维度的司法领域文本字词混合向量相结合,丰富了司法领域命名实体识别的训练样本。2.本专利技术利用RoBERTa提取出司法领域文本的特征后与不同维度的词向量融合过后与Bi-LSTM特征相结合得到相应特征在通过CRF得到结果。3.本专利技术针对司法领域文本中混合词向量进行对抗扰动,增加模型的泛化能力与鲁棒性。附图说明图1为Bi-LSTM架构示意图。图2为RoBERTa模型架构示意图。图3为本专利技术词向量模型示意图。图4为本专利技术命名实体识别模型架构图。具体实施方式下面结合附图并举实施例,对本专利技术进行详细描述。本专利技术提供了一种基于对抗训练的命名实体识别方法,如图4所示,具体过程如下:步骤一、本专利技术引入了RoBERTa模型在司法领域,首先对每个司法领域文本进行相应的分词,按照字的形式输入到RoBERTa中,通过自注意力机制(self-attention)对不同的词分配不同的权重,即假设输入矩阵为X,最大的词嵌入向量为512,通过不同的权重矩阵Wq,Wk,Wv,最终经过softmax得到自注意力矩阵Z,经过多头机制,得到注意力层的多个表示子空间,最后拼接不同的矩阵Z,通过动态的对部分词的掩码,提取出相应的特征C,如图2所示:在司法领域中,相应的司法领域文本规模没那么大,只有有限的数据,而在有限的数据中通常得不到更好的模型效果,本专利技术引入基于字的Fasttext与基于词的Word2Vec,通过构造Embedding层,把司法领域文本构造成N-1个one-hot词向量,把所有的one-hot向量经过N×V的矩阵,N为自己设定的维度,V是词典的大小,得到向量相加求平均并乘以输出的权重矩阵而得到相应的概率分布,而其中的N×V矩阵即为字与词向量矩阵W1与W2,这里指定了不同的字向量与词向量维度,基于字的词向量矩阵弥补了司法领域中专业词汇较少的特点,而基于词的的词向量矩阵因为是司法领域的词,所以能提供更精确的先验知识,通过引入外部较大的通用字向量矩阵W3,与词向量矩阵W4,本文档来自技高网
...

【技术保护点】
1.一种基于对抗训练的命名实体识别方法,其特征在于,包括以下步骤:/n步骤一、将司法领域的裁判文书切分为单个文字作为训练样本,通过RoBERTa模型训练获得司法领域文字之间关联性特征;/n将司法领域的裁判文书切分为单个文字和词组,利用Word2Vec方法将词组转换为词向量,利用Fasttext方法将单个文字转换为基于字的词向量;引入司法领域之外的利用Word2Vec方法得到的词向量,引入司法领域之外的利用Fasttext方法得到的基于字的词向量;将所有词向量混合;/n步骤二、对混合的词向量矩阵进行扰动,通过损失函数的最大值来找到最坏情况的扰动,利用外部经验风险的最小化来得到模型的最佳鲁棒参数,从而得到对抗扰动优化后的词向量;/n步骤三、利用长度为a的滑动窗口将步骤二获得的词向量输入Bi-LSTM,经过Bi-LSTM的训练,获得司法领域字词之间的关联性特征;/n步骤四、将步骤一和步骤三得到的两个关联性特征拼接在一起,然后利用条件随机场模型对训练样本进行预测获得预测的结果。/n

【技术特征摘要】
1.一种基于对抗训练的命名实体识别方法,其特征在于,包括以下步骤:
步骤一、将司法领域的裁判文书切分为单个文字作为训练样本,通过RoBERTa模型训练获得司法领域文字之间关联性特征;
将司法领域的裁判文书切分为单个文字和词组,利用Word2Vec方法将词组转换为词向量,利用Fasttext方法将单个文字转换为基于字的词向量;引入司法领域之外的利用Word2Vec方法得到的词向量,引入司法领域之外的利用Fasttext方法得到的基于字的词向量;将所有词向量混合;
步骤二、对混合的词向量矩阵进行扰...

【专利技术属性】
技术研发人员:袁超逸刘忠麟王立才张起闻罗琪彬郝韫宏李孟书
申请(专利权)人:中国电子科技集团公司第十五研究所
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1