一种基于深度学习的序列标注方法技术

技术编号:34471528 阅读:56 留言:0更新日期:2022-08-10 08:45
本发明专利技术提供一种基于深度学习的序列标注方法,属于自然语言处理领域,包括:文本预处理,文本表征向量选择即改变直接对BERT提取CLS维特征向量进行线性分类器处理的方式;文本特征向量选择,增加LSTM捕获特征向量,线性分类器对每个词向量节点分类;提高准确率的同时完成序列标注分类任务。时完成序列标注分类任务。时完成序列标注分类任务。

【技术实现步骤摘要】
一种基于深度学习的序列标注方法


[0001]本专利技术涉及自然语言处理领域,尤其涉及一种基于深度学习的序列标注方法。

技术介绍

[0002]序列标注问题是自然语言中最常见的问题,包括自然语言处理中的分词,词性标注,命名实体识别,关键词抽取,词义角色标注等等。我们只要在做序列标注时给定特定的标签集合,就可以进行序列标注。在深度学习起来之前,常见的序列标注问题的解决方案都是借助于HMM模型,最大熵模型,CRF模型。尤其是CRF,是解决序列标注问题的主流方法。随着深度学习的发展,RNN在序列标注问题中取得了巨大的成果。而且深度学习中的end

to

end,也让序列标注问题变得更简单了。
[0003]循环神经网络(Recurrent Neural Network,RNN)是一种用于处理序列数据的神经网络。相比一般的神经网络来说,他能够处理序列变化的数据。比如某个单词的意思会因为上文提到的内容不同而有不同的含义,RNN就能够很好地解决这类问题。
[0004]长短期记忆(Long short
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度学习的序列标注方法,其特征在于,包括:文本预处理,文本表征向量选择即改变直接对BERT提取CLS维特征向量进行线性分类器处理的方式;文本特征向量选择,增加LSTM捕获特征向量,线性分类器对每个词向量节点分类;步骤如下:1)、数据预处理:将文本语句(seq_vec)和标签(label)作为输入项;将文本语句转化的向量(wi)和标签化的向量(label_vec)作为输出项;2)、BERT语义表征:将数据预处理的文本向量wi和标签向量label_vec作为输入项,输出关于文本的特征向量即作为LSTM输入的向量信息;3)、提取LSTM特征向量:将BERT的输出的向量信息作为输入项,输出关于文本词的特征向量信息;4)、FC及分类:将LSTM输出的特征向量作为输入,完成对所有文本词的分类标注,输出每个文本词的分类结果;5)、使用模型进行序列标注:进行文本序列标注的工作,输入文本语句,通过上述各个步骤,输出每个文本词的标注结果。2.根据权利要求1所述的方法,其特征在于,1)、数据预处理具体如下:1.1)、自定义预处理函数,使用正则表达式,将不想要的字符去除;1.2)、如果输入是一个句子,句子的头部需要添加标识符CLS,尾部添加标识符SEP;如果输入的是一个以上的句子,则需要使用分隔符号SEP隔开以作区分;1.3)、语句末尾添加SEP;1.4)、把词转成index(word to index),把原文都变成数值。3.根据权利要求1所述的方法,其特征在于,2)、BERT语义表征具体如下:2.1)、构建基于BERT的词嵌入网络向量表征信息;(2.11)构建基于每个词的词语向量;(2.22)构建基于每个语句的段向量;(2.23)构建基于每个词的位置向量;(2.24)三个向量叠加,就形成了BERT的输入;同时,添加Layer_normalizer层和dropout层作为输入文本向量输出为embeded_vec;其中CLS是每个输入句子的第一个标记,最终对应的输出可理解为句子整体含义,用于下游的分类任务,SEP是用来分隔两个句子的;2.2)、BERT网络提取文本的表征信息;(2.21)基于文本训练的BERT预训练模型,BERT预训练模型特征为:m维向量,a头,b层;(2.22)对0表征token进行mask后,使用BERT预训练模型提取文本向量表征信息;(2.23)经过BERT模型中的神经元Trm提取的文本信息作为的输出向量e_vec(维度:lxm)。
4.根据权利要求1所述的方法,其特征在于,3)LSTM提取特征向量:具体如下:LSTM单元包括贡献门、遗忘门、输入门和输出门,贡献门根据上一时刻的细胞状态ct

1、隐藏状态ht

1以及当前时刻的输入信息来产生与输入向量xt具有相同维度的注意力向量at,将注意力向量at与xt结合,得到优化的输入向量xt

,作为遗忘门、输入门和输出门的输入;a
t
=σ
a
(W
a
x
t
+...

【专利技术属性】
技术研发人员:赵振修张烈帅李明明
申请(专利权)人:浪潮云信息技术股份公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1