融合注意力机制的RoBERTa-BiLSTM-CRF语音对话文本命名实体识别系统技术方案

技术编号:39312794 阅读:24 留言:0更新日期:2023-11-12 15:57
本发明专利技术公开了融合注意力机制的RoBERTa

【技术实现步骤摘要】
融合注意力机制的RoBERTa

BiLSTM

CRF语音对话文本命名实体识别系统


[0001]本专利技术涉及实体关系抽取
,尤其涉及融合注意力机制的RoBERTa

BiLSTM

CRF语音对话文本命名实体识别系统及方法。

技术介绍

[0002]在互联网技术高速发展时代,实体关系抽取作为开放域中大量无规则非结构型数据中文本挖掘和信息抽取的核心研究方向,一直是研究热点。实体关系抽取是将海量非结构化数据抽取或转化为结构化的数据,为构建知识图谱、自动问答、机器翻译、大规模获取文本摘要等提供数据样本。
[0003]目前市面上常见的传统的实体关系抽取方法基于模板匹配或传统机器学习,虽然有一定的可解释性,但需要根据语料人工构造匹配模板或者设计特征,十分耗费时间和人力,且通用性较差。此外,经典的基于深度学习的实体关系抽取模型都是使用Word2Vec等预训练词向量对文本进行映射,再设计基于CNN、RNN等的复杂上层网络提取特征,而这类词向量无法很好地表达上下文语义信息。且当前模型较少研究语言学相关知识的引入,对实体的语义信息提取不足,无法生成与实体更相关的上下文信息,有一定的局限性。为了解决上述问题,本专利技术提出了融合注意力机制的RoBERTa

BiLSTM

CRF语音对话文本命名实体识别系统及方法。

技术实现思路

[0004]本专利技术的目的在于解决现有技术对实体的语义信息提取不足,无法生成与实体更相关的上下文信息,具有局限性的问题而提出的融合注意力机制的RoBERTa

BiLSTM

CRF语音对话文本命名实体识别系统及方法。
[0005]为了实现上述目的,本专利技术采用了如下技术方案:
[0006]融合注意力机制的RoBERTa

BiLSTM

CRF语音对话文本命名实体识别系统,包括有:
[0007]输入层,用以对原始文本中的句子和实体进行预处理,将其转化为适合文本编码层的输入;
[0008]RoBERTa层,包括有RoBERTa预处理模型,使用RoBERTa预处理模型参数进行初始化,所述模型包括堆叠12层的Transformer编码器模块,每层隐状态768维,多头注意力机制中的头数为12;
[0009]BiLSTM层,包括有BiLSTM模型,用以提取文本命名实体识别的关键特征;所述BiLSTM模型由前向层LSTM和后向层LSTM组成;
[0010]注意力层,用以挖掘文本之间的潜在语义特征;
[0011]CRF层,用以标记全局最优序列。
[0012]一种融合注意力机制的RoBERTa

BiLSTM

CRF语音对话文本命名实体识别识别方
法,具体包括以下步骤:
[0013]S1、通过输入层标示出原始文本中的实体并将文本转化为适合RoBERTa输入的格式;
[0014]S2、基于RoBERTa层的文本编码层对文本进行编码,抽取上下文语义特征;
[0015]S3、使用BiLSTM层的前向层LSTM获得上文的语义特征,使用后向层LSTM获得下文的语义特征,再将两者结合获取最终的特征;
[0016]S4、利用注意力层对不同的上下文信息给予不同的关注程度,为其分配不同的权重,捕捉文本之间的潜在语义特征;
[0017]S5、通过CRF层对S4的输出结果进行解码标注,同时根据句子的上下文表达对实体关系标签进行预测。
[0018]优选地,所述S2具体包括以下内容:
[0019]S2.1、在输入堆叠的多层Transformer中抽取特征之前,将输入层输出的token序列表达为向量的形式,由token嵌入、分句嵌入和位置嵌入组成,其本质上等同于静态的词嵌入层,由嵌入矩阵负责执行基于索引的查表工对于处理后的token序列中第i个token,其向量表示如下式:
[0020]e
i
=w
token
(t
i
)+w
seg
(seg
i
)+w
pos
(i)
[0021]其中,w
token
为token嵌入矩阵,将token映射为768维的向量;w
seg
为分句嵌入矩阵,用于建模token所在分句;w
pos
为位置嵌入矩阵,用于建模每个token的位置以解决Transformer;
[0022]S2.2、将句子的向量化表示输入到堆叠的Transformer结构中进行文本语义编码,并取最后一层的输出作为对输入句子文本编码的结果:
[0023]H=RoBERTa(E)
[0024]其中,RoBERTa()表示由RoBERTa预训练模型参数初始化的堆叠Transformer;
[0025]S2.3、对于由多个词组成的实体,将其文本表示向量取平均作为实体的语义表示:
[0026][0027]其中,start和end分别表示实体预处理后在序列中的起始位置和结束位置;i表示句中的实体;H表示最终文本编码层输出整个句子的表示向量;表示句子实体的表示向量。
[0028]优选地,所述S3具体包括以下内容:
[0029]S3.1、计算遗忘门,选择要遗忘的信息;输入为当前模块的文本数据和前一模块的文本数据的输出h
t
‑1,将前一个神经元细胞状态映射到0~1,0表示完全删除,1表示完全保留;遗忘门的计算如下式所示:
[0030]f
t
=σ(W
f
*[h
t
‑1,x
t
]+b
f
)
[0031]S3.2、计算记忆门,选择要记忆的信息;输入为当前模块的文本数据和前一模块的文本数据的输出h
t
‑1,通过输入层Sigmoid激活函数决定需要更新的值i
t
,用tanh函数创建新的候选值向量并将其加入神经元状态中,对神经元状态进行更新得到C
t
;记忆门的计
算如下式所示:
[0032]i
t
=σ(W
i
*[h
t
‑1,x
t
]+b
i
)
[0033][0034][0035]S3.3、计算输出门和当前时刻隐藏层状态,选择输出的值;通过输出层的Sigmoid激活函数决定输出神经元状态的部分O
t
,将神经元状态通过tanh函数处理,并和Sigmoid门的输出相乘,得到最终输出的部分h
t
;计算如下式所示:
[0036]O
t
=σ(W
o
*[h
t
‑1本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.融合注意力机制的RoBERTa

BiLSTM

CRF语音对话文本命名实体识别系统,其特征在于,包括有:输入层,用以对原始文本中的句子和实体进行预处理,将其转化为适合文本编码层的输入;RoBERTa层,包括有RoBERTa预处理模型,使用RoBERTa预处理模型参数进行初始化,所述模型包括堆叠12层的Transformer编码器模块,每层隐状态768维,多头注意力机制中的头数为12;BiLSTM层,包括有BiLSTM模型,用以提取文本命名实体识别的关键特征;所述BiLSTM模型由前向层LSTM和后向层LSTM组成;注意力层,用以挖掘文本之间的潜在语义特征;CRF层,用以标记全局最优序列。2.如权利要求1所述的融合注意力机制的RoBERTa

BiLSTM

CRF语音对话文本命名实体识别系统所应用的识别方法,其特征在于,具体包括以下步骤:S1、通过输入层标示出原始文本中的实体并将文本转化为适合RoBERTa输入的格式;S2、基于RoBERTa层的文本编码层对文本进行编码,抽取上下文语义特征;S3、使用BiLSTM层的前向层LSTM获得上文的语义特征,使用后向层LSTM获得下文的语义特征,再将两者结合获取最终的特征;S4、利用注意力层对不同的上下文信息给予不同的关注程度,为其分配不同的权重,捕捉文本之间的潜在语义特征;S5、通过CRF层对S4的输出结果进行解码标注,同时根据句子的上下文表达对实体关系标签进行预测。3.根据权利要求2所述的融合注意力机制的RoBERTa

BiLSTM

CRF语音对话文本命名实体识别方法,其特征在于,所述S2具体包括以下内容:S2.1、在输入堆叠的多层Transformer中抽取特征之前,将输入层输出的token序列表达为向量的形式,由token嵌入、分句嵌入和位置嵌入组成,其本质上等同于静态的词嵌入层,由嵌入矩阵负责执行基于索引的查表工对于处理后的token序列中第i个token,其向量表示如下式:e
i
=w
token
(t
i
)+w
seg
(seg
i
)+w
pos
(i)其中,w
token
为token嵌入矩阵,将token映射为768维的向量;w
seg
为分句嵌入矩阵,用于建模token所在分句;w
pos
为位置嵌入矩阵,用于建模每个token的位置以解决Transformer;S2.2、将句子的向量化表示输入到堆叠的Transformer结构中进行文本语义编码,并取最后一层的输出作为对输入句子文本编码的结果:H=RoBERTa(E)其中,RoBERTa()表示由RoBERTa预训练模型参数初始化的堆叠Transformer;S2.3、对于由多个词组成的实体,将其文本表示向量取平均作为实体的语义表示:其中,start和end分别表示实体预处理后在序列中的起始位置和结束位置;i表示句中
的实体;H表示最终文本编码层输出整个句子的表示向量;表示句子实体的表示向量。4.根据权利要求2所述的融合注意力机制的RoBERTa

BiLSTM

CRF语音对话文本命名实体识别方法,其特征在于,所述S3具体包括以下内容:S3.1、计算遗忘门,选择要遗忘的信息;输入为当前模块的文本数据和前一模块的文本数据的输出h
t
‑1,将前一个神经元细胞状态映射到0~1,0表示完全删除,1表示完全保留;遗忘门的计...

【专利技术属性】
技术研发人员:李晓群王殊李艳艳盛平虞云飞居强严佳梅张德凯袁西尧陈轩
申请(专利权)人:国家电网有限公司客户服务中心南方分中心
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1