一种基于两阶段注意力的多特征融合问题生成方法及系统技术方案

技术编号:39589897 阅读:12 留言:0更新日期:2023-12-03 19:42
一种基于两阶段注意力的多特征融合问题生成方法及系统,多特征融合问题生成方法包括将上下文输入多特征编码器,由多特征编码器嵌入特征向量,并采用两阶段注意力编码;将上下文输入问题类型编码器,预测得到问题类型并且编码;将所述多特征编码器以及所述问题类型编码器得到的两种编码,采用交叉注意力机制融合输入到问题解码器,由所述问题解码器输出生成的问题

【技术实现步骤摘要】
一种基于两阶段注意力的多特征融合问题生成方法及系统


[0001]本专利技术属于计算机文本处理
,具体涉及一种基于两阶段注意力的多特征融合问题生成方法及系统


技术介绍

[0002]问题生成是自然语言处理领域中的一个重要研究方向,其主要目的是自动对一段文本进行提问,生成与上下文相关且具有可回答性的问题

问题生成在教育领域有着广泛的应用前景,它可以帮助教师创造更多的教学问题来提高学生的学习效果

同时,它也可以帮助学生更好的理解课程内容,促进他们在知识领域中的深入思考和研究

[0003]除此之外,问题生成还对数据的深度使用有着积极的促进作用,如用于数据增强,从而缓解问答语料库不足的现实问题,对话任务的应用等等

虽然,现有的问题生成模型已经可以生成一定质量的问题,但是对复杂的语言表达以及长文本段落的处理问题仍未被完全解决

因此,需要进一步提高问题生成技术的准确性和流畅度,以更好地推进智能教育领域的发展,提高自然语言推理能力,并为问答任务等其他技术研究提供支持


技术实现思路

[0004]本专利技术的目的在于针对上述现有技术中的问题,提供一种基于两阶段注意力的多特征融合问题生成方法及系统,利用软注意力和自注意力机制分别对段落

答案和段落间数据进行处理,并整合多种特征以增强语义表示,提高生成问题的准确性和流畅性

[0005]为了实现上述目的,本专利技术有如下的技术方案:
[0006]一种基于两阶段注意力的多特征融合问题生成方法,包括:
[0007]将上下文输入多特征编码器,由多特征编码器嵌入特征向量,并采用两阶段注意力编码;
[0008]将上下文输入问题类型编码器,预测得到问题类型并且编码;
[0009]将所述多特征编码器以及所述问题类型编码器得到的两种编码,采用交叉注意力机制融合输入到问题解码器,由所述问题解码器输出生成的问题

[0010]作为一种优选的方案,所述多特征编码器

问题类型编码器以及解码器基于
Seq2Seq
模型的编

解码架构建立

[0011]作为一种优选的方案,所述由多特征编码器嵌入特征向量的步骤中,将上下文语句中的单词转换成相应的预训练词向量,并将预训练词向量输入到多特征编码器中,同时考虑语言特征以及情感特征

语义角色标注特征和依存句法特征,所述语言特征包括命名实体

词性和大小写特征

[0012]作为一种优选的方案,所述多特征编码器的输入包括单词嵌入

答案标记特征

词性特征

命名实体特征以及答案所在句子特征;其中,单词嵌入:采用预先训练的
GloVe
嵌入表示,利用全局共现统计信息来学习词向量,在文本中每个单词都通过
GloVe
得到所对应的词嵌入向量特征;
[0013]答案标记特征:对段落文本中的每次单词进行标记,采用
BIO
标签方式,标签
B
表示答案的开始,标签
I
表示为答案连续的一部分,标签
O
标记不构成答案一部分的单词;
[0014]词性特征:是指在自然语言处理任务中,用于描述单词的语法功能的属性,对词性特征使用
One

Hot
独热编码,再通过编码器进行特征提取;
[0015]命名实体特征:是指在自然语言处理任务中,用于描述文本中具有特定实体名称的单词或短语的属性,对于命名实体同样使用
One

Hot
独热编码;
[0016]答案所在句子特征:描述文本中包含正确答案的句子,如果段落中的某个句子包含有答案片段,则把对应句子上的所有单词给予标记1,其他不包含答案的句子中的单词标记为
0。
[0017]作为一种优选的方案,所述多特征编码器采用
Bi

LSTM
模型进行编码,基于
RNN
结构由两个
LSTM
层组成,一个从开始到结束处理输入序列,另一个从结束到开始处理输入序列;两个方向的输出在每个时间被连接起来形成
Bi

LSTM
模型的最终输出;
[0018]Bi

LSTM
模型接收的输入包括答案
a、
答案所属的段落
P
以及上文提到的多个特征组合;所述答案
a、
答案所属的段落
P
得到的嵌入向量分别为
[0019][0020][0021]式中,
w
i
为词向量特征;
n
i
为命名实体向量特征;
p
i
为词性特征向量;
as
i
为答案所在句子特征;
a
i
答案标记向量特征;符号;表示串联方式的拼接操作;为答案的嵌入表示;为答案所属的段落
P
的嵌入表示;
i
表示文本中第
i
个单词;
[0022]将答案
a、
答案所属的段落
P
得到的嵌入向量分别传递到共享的
Bi

LSTM
层,经过编码得到每个时间
t
时刻的状态向量表示
[0023][0024][0025]式中,
h
t
‑1为前一时刻状态表示;
[0026]经
Bi

LSTM
层的每个时间
t
均产生两个隐藏向量序列,分别为前向序列和后向序列,则每个时间
t
时刻的隐藏向量序列表示为
h
i

[0027][0028]式中,分别表示为每个时间
t
时刻前向和后向序列的隐藏向量表示;
h
t
为前后序列的串联拼接操作得到的每个时间
t
时刻的最终隐藏向量表示;
[0029][0030][0031]式中,
H
A
、H
P
为最后得到的状态表示矩阵

[0032]作为一种优选的方案,所述两阶段注意力编码中第一阶段注意力文本采用软注意力匹配矩阵,通过计算答案表示与上下文表示之间的相互联系,得到段落上下文对于答案
的注意力矩阵:
[0033][0034]式中,是段落中第
i
个单词向量表示;是答案中第
j
个单词向量表示;
M
ij
是注意力矩阵中本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种基于两阶段注意力的多特征融合问题生成方法,其特征在于,包括:将上下文输入多特征编码器,由多特征编码器嵌入特征向量,并采用两阶段注意力编码;将上下文输入问题类型编码器,预测得到问题类型并且编码;将所述多特征编码器以及所述问题类型编码器得到的两种编码,采用交叉注意力机制融合输入到问题解码器,由所述问题解码器输出生成的问题
。2.
根据权利要求1所述基于两阶段注意力的多特征融合问题生成方法,其特征在于,所述多特征编码器

问题类型编码器以及解码器基于
Seq2Seq
模型的编

解码架构建立
。3.
根据权利要求1所述基于两阶段注意力的多特征融合问题生成方法,其特征在于,所述由多特征编码器嵌入特征向量的步骤中,将上下文语句中的单词转换成相应的预训练词向量,并将预训练词向量输入到多特征编码器中,同时考虑语言特征以及情感特征

语义角色标注特征和依存句法特征,所述语言特征包括命名实体

词性和大小写特征
。4.
根据权利要求1所述基于两阶段注意力的多特征融合问题生成方法,其特征在于,所述多特征编码器的输入包括单词嵌入

答案标记特征

词性特征

命名实体特征以及答案所在句子特征;其中,单词嵌入:采用预先训练的
GloVe
嵌入表示,利用全局共现统计信息来学习词向量,在文本中每个单词都通过
GloVe
得到所对应的词嵌入向量特征;答案标记特征:对段落文本中的每次单词进行标记,采用
BIO
标签方式,标签
B
表示答案的开始,标签
I
表示为答案连续的一部分,标签
O
标记不构成答案一部分的单词;词性特征:是指在自然语言处理任务中,用于描述单词的语法功能的属性,对词性特征使用
One

Hot
独热编码,再通过编码器进行特征提取;命名实体特征:是指在自然语言处理任务中,用于描述文本中具有特定实体名称的单词或短语的属性,对于命名实体同样使用
One

Hot
独热编码;答案所在句子特征:描述文本中包含正确答案的句子,如果段落中的某个句子包含有答案片段,则把对应句子上的所有单词给予标记1,其他不包含答案的句子中的单词标记为
0。5.
根据权利要求1所述基于两阶段注意力的多特征融合问题生成方法,其特征在于,所述多特征编码器采用
Bi

LSTM
模型进行编码,基于
RNN
结构由两个
LSTM
层组成,一个从开始到结束处理输入序列,另一个从结束到开始处理输入序列;两个方向的输出在每个时间被连接起来形成
Bi

LSTM
模型的最终输出;
Bi

LSTM
模型接收的输入包括答案
a、
答案所属的段落
P
以及上文提到的多个特征组合;所述答案
a、
答案所属的段落
P
得到的嵌入向量分别为得到的嵌入向量分别为得到的嵌入向量分别为式中,
w
i
为词向量特征;
n
i
为命名实体向量特征;
p
i
为词性特征向量;
as
i
为答案所在句子特征;
a
i
答案标记向量特征;符号;表示串联方式的拼接操作;为答案的嵌入表示;为答案所属的段落
P
的嵌入表示;
i
表示文本中第
i
个单词;将答案
a、
答案所属的段落
P
得到的嵌入向量分别传递到共享的
Bi

LSTM
层,经过
编码得到每个时间
t
时刻的状态向量表示时刻的状态向量表示时刻的状态向量表示式中,
h
t
‑1为前一时刻状态表示;经
Bi

LSTM
层的每个时间
t
均产生两个隐藏向量序列,分别为前向序列和后向序列,则每个时间
t
时刻的隐藏向量序列表示为
h
i
:式中,分别表示为每个时间
t
时刻前向和后向序列的隐藏向量表示;
h
t
为前后序列的串联拼接操作得到的每个时间
t
时刻的最终隐藏向量表示;时刻的最终隐藏向量表示;式中,
H
A
、H
P
为最后得到的状态表示矩阵
。6.
根据权利要求5所述基于两阶段注意力的多特征融合问题生成方法,其特征在于,所述两阶段注意力编码中第一阶段注意力文本采用软注意力匹配矩阵,通过计算答案表示与上下文表示之间的相互联系,得到段落上下文对于答案的注意力矩阵:式中,是段落中第
i
个单词向量表示;是答案中第
j
个单词向量表示;
M
ij
是注意力矩阵中的一个结果元素;
F(x)

σ
(Wx+b)
式中,
F(
·
)
是标准的非线性变换函数,
σ

Sigmoid
函数;
W
为参数矩阵;采用矩阵
M
列方向的最大池化操作,生成一个注意力向量:
a1=
softmax(max(M))
式中,
a1为得到的注意力权重分数;
M
为软注意力匹配矩阵;每个元素是基于段落
P
中的第
i
个单词与答案
A
的最大相关性来捕捉其与答案
A
的关联度;将注意力分数应用于
H
P
,得到拥有相关权重系数的段落表示
C

C

H
p

a1式中,

表示逐个元素的乘法,
C
为经过第一阶段注意力的向量表示,其中与答案直接相关的词被放大时注意力分数高,而不相关的词被过滤掉时注意力分数低
。7.
根据权利要求6所述基于两阶段注意力的多特征融合问题生成方法,其特征在于,所述两阶段注意力编码中第二阶段的注意力机制采用门控自注意力融合的方法;将一阶段注意力得到的向量表示
C
作为输入,并对输入自身进行注意力匹配计算得到自匹配表示,每个时间
t
时刻状态向量的注意力分数按下式计算:式中,
c
t
为每个时间
t
时刻经过一阶段注意力的状态表示;
W
S
为参数矩阵;将计算得到的注意力分数
a2与一阶段注意力得到的向量表示
C
相乘,得到二阶段注意力后状态表示:
式中,
s
t
为每个时间
t
时刻通过注意力权重计算得到的当前状态表示;为最终得到的自匹配表示矩阵;将每个时间
t
时刻通过注意力权重计算得到的当前状态表示
s
t
与每个时间
t
时刻经过一阶段注意力的状态表示
c
t
相结合,得到新的自匹配增强表示
f
t

g
t
为一个可学习的门向量表示,由
f
t

g
t
决定最终的状态表示计算表达式如下:
f
t
=...

【专利技术属性】
技术研发人员:刘均张泽民魏笔凡张玲玲关海山郑庆华仉珂岳浩
申请(专利权)人:西安交通大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1