一种基于BART的多任务语义解析模型制造技术

技术编号:35520832 阅读:21 留言:0更新日期:2022-11-09 14:40
本发明专利技术提供了一种基于BART的多任务语义解析模型,属于自然语言处理技术领域,模型包括词嵌入层、BART编码层、领域分类器、BART解码层、概率解码器、SPARQL解码器和语法检查器,本发明专利技术通过这七部分的配合,并基于Transformer的Encoder

【技术实现步骤摘要】
一种基于BART的多任务语义解析模型


[0001]本专利技术属于自然语言处理
,尤其涉及一种基于BART的多任务语义解析模型。

技术介绍

[0002]传统的知识图谱问答中语义解析算法采用多步骤流水线的方式,首先识别用户的意图与问题的类型,再进行实体关系抽取,最后根据预先定义的查询模板进行槽位填充,组成完整的SPARQL查询语句检索数据库,返回用户答案。多步骤流水线的语义解析方式将任务划分为不同的阶段,对任务进行分解,操作灵活、可解释性强,但是任务的级联分解会导致错误的累积和放大;当设计多种实体与关系或者推理问答时,模型表现较差,从而影响问答任务的性能。

技术实现思路

[0003]针对上述问题,本专利技术第一方面提供了一种基于BART的多任务语义解析模型,所述模型包括词嵌入层、BART编码层、领域分类器、BART解码层、概率解码器、SPARQL解码器和语法检查器;所述词嵌入层将输入问题中每个字符转化为向量表示,并输入BART编码层;所述BART编码层学习字符向量深层的语义信息并进行编码,将最后一层编码的隐含层向量表示分别输入领域分类器和BART解码层;所述领域分类器对最后一层隐含层向量进行文本分类,以求得该问题所属领域;所述BART解码层根据问题编码信息和上文解码信息,通过语言模型产生完整的解码信息;所述概率解码器模块对BART解码器最后一层输出的向量进行语义信息增强解码,并将解码信息输入SPARQL解码器模块;所述SPARQL解码器模块根据解码策略和领域信息,循环生成SPARQL查询语句,并将语句输入语法检查器模块;所述语法检查器用于检查SPARQL查询语句的语法错误。
[0004]在一种可能的设计中,所述词嵌入层将输入问题中每个字符转化为向量表示,具体为:
[0005]通过[CLS]、问句、[SEP]字符拼接组成输入数据,数据最大长度为512个字符,长则截断,短则通过[PAD]字符填充;
[0006]在字典表中添加特殊字符“?x”、“?y”和SPARQL语法中的特殊字符;
[0007]通过词语嵌入与位置嵌入相加得到每个输入字符的向量表示,计算公式如下所示:
[0008]E
embedding
=E
word
+E
position
ꢀꢀꢀ
(1)
[0009]其中,E
word
为字符的词嵌入向量,E
position
为位置嵌入向量,E
embedding
为输入字符的向量表示。
[0010]在一种可能的设计中,所述BART使用标准的Transformer模型,包含6层Transformer编码器和6层Transformer解码器,所述BART编码层通过双向多头注意力机制综合学习不同子空间中的特征,捕捉更深层次的语义信息,具体为:
[0011]Transformer编码器的多头注意力子层采用自注意力机制,为每个单词创建Query、Key和Value三个向量来计算自注意力得分,计算公式如下所示:
[0012][0013]head_i=Attention(QW
iQ
,KW
iK
,VW
iV
)
ꢀꢀꢀ
(3)
[0014]Multihead(Q,K,V)=Concat(head1,head2,

,head
h
)W
O
ꢀꢀꢀ
(4)
[0015]其中,Softmax为逻辑回归函数,Attention函数用Softmax函数计算自注意力,通过不同的QW
iQ
,KW
iK
,VW
iV
组合计算多组自注意力head_i,Multihead(Q,K,V)通过Concat函数将多组自注意力进行连接,组合成为多头注意力;
[0016]执行Transformer编码器的层归一化,防止出现协方差偏移问题,并通过残差连接以防止梯度消失,计算公式如下所示;
[0017]SubLayer=Layer_Normalization(x+(sublayer(x)))
ꢀꢀꢀ
(5)
[0018]x为当前层双头注意力运算结果,Sublayer(x)为下一层的双头注意力运算结果,两个运算结果直接相加即进行残差链接,并通过Layer_Normalization进行层归一化;
[0019]通过前馈网络层与非线性激活函数ReLU,提高网络的非线性拟合效果;
[0020]将计算结果输入下一层Transformer编码器,共执行6层Transformer编码器,各层之间不会共享权值。
[0021]在一种可能的设计中,所述领域分类器将BART编码层最后一层的隐含层向量表示作为该层的输入,通过文本分类输出问题所属领域。
[0022]在一种可能的设计中,所述BART编码层根据问题编码信息和上文解码信息,通过语言模型实现SPARQL从左至右自回归文本生成,具体为:
[0023]Transformer解码器的多头注意力子层采用自注意力机制,为每个字符的向量创建Query、Key和Value三个向量来计算自注意力得分,计算公式如上述公式(2)、公式(3)和公式(4)所示;
[0024]使用上三角MASK矩阵,屏蔽下文信息,使得每个词语只能关注上文信息,防止在训练时模型使用未来输入的单词;
[0025]执行Transformer解码器的层归一化,防止出现协方差偏移问题,并通过残差连接以防止梯度消失,计算公式如公式(5)所示;
[0026]根据问题编码信息和上文解码信息,通过语言模型实现SPARQL从左至右自回归文本生成,语言模型计算如下所示:
[0027]p(y1,y2,y3,...,y
n
)=p(y1|E
o
)p(y2|E
o
,y1)p(y3|E
o
,y1,y2)...p(y
n
|E
o
,y1,...,y
n
‑1)
ꢀꢀꢀ
(6)
[0028]上述公式为马尔可夫模型计算公式,E
o
表示起始字符,公式从第1字符开始计算后续字符出现的概率,p(y
i
|E
o
,y1,...,y
i
‑1)表示在E
o
、y
i
至y
i
‑1出现时,下一个字符为y
i
的概率为多少。
[0029]在一种可能的设计中,所述概率解码器将BART编码层最后一层输出的向量融合BART编码层最后一层的分类标签[CLS]向量,实现语义信息增强解码,并运算得到词表中每一个单词的概率。
Model for BART,MSP

BART)本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于BART的多任务语义解析模型,其特征在于:所述模型包括词嵌入层、BART编码层、领域分类器、BART解码层、概率解码器、SPARQL解码器和语法检查器;所述词嵌入层将输入问题中每个字符转化为向量表示,并输入BART编码层;所述BART编码层学习字符向量深层的语义信息并进行编码,将最后一层编码的隐含层向量表示分别输入领域分类器和BART解码层;所述领域分类器对最后一层隐含层向量进行文本分类,以求得该问题所属领域;所述BART解码层根据问题编码信息和上文解码信息,通过语言模型产生完整的解码信息;所述概率解码器对BART解码器最后一层输出的向量进行语义信息增强解码,并将解码信息输入SPARQL解码器模块;所述SPARQL解码器模块根据解码策略和领域信息,循环生成SPARQL查询语句,并将语句输入语法检查器模块;所述语法检查器用于检查SPARQL查询语句的语法错误。2.如权利要求1所述的一种基于BART的多任务语义解析模型,其特征在于:所述词嵌入层将输入问题中每个字符转化为向量表示,具体为:通过[CLS]、问句、[SEP]字符拼接组成输入数据,数据最大长度为512个字符,长则截断,短则通过[PAD]字符填充;在字典表中添加特殊字符“?x”、“?y”和SPARQL语法中的特殊字符;通过词语嵌入与位置嵌入相加得到每个输入字符的向量表示,计算公式如下所示:E
embedding
=E
word
+E
position
(1)其中,E
word
为字符的词嵌入向量,E
position
为位置嵌入向量,E
embedding
为输入字符的向量表示。3.如权利要求1所述的一种基于BART的多任务语义解析模型,其特征在于:所述BART使用标准的Transformer模型,包含6层Transformer编码器和6层Transformer解码器,所述BART编码层通过双向多头注意力机制综合学习不同子空间中的特征,捕捉更深层次的语义信息,具体为:Transformer编码器的多头注意力子层采用自注意力机制,为每个单词创建Query、Key和Value三个向量来计算自注意力得分,计算公式如下所示:和Value三个向量来计算自注意力得分,计算公式如下所示:Multihead(Q,K,V)=Concat(head1,head2,...,head
h
)W
O
(4)其中,Softmax为逻辑回归函数,Attention函数用Softmax函数计算自注意力,通过不同的组合计算多组自注意力head_i,Multihead(Q,K,V)通过Concat函数将多组自注意力进行连接,组合成为多头注意力;执行Transformer编码器的层归一化,防止出现协方差偏移问题,并通过残差连接以防
止梯度消失,计算公式如下所示;SubLayer=Layer_Normalization(x+(sublayer(x)))(5)x为当前层双头注意力运算结果,Sublayer(x)为下一层的双头注意力运算结果,两个运算结果直接相加即进行残差链接,并通过Layer_Normalization进行层归一化;通过前馈网络层与非线性激活函数ReLU,...

【专利技术属性】
技术研发人员:张卫山王振琦侯召祥孙晨瑜陈涛
申请(专利权)人:中国石油大学华东
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1