【技术实现步骤摘要】
一种基于ERNIE
‑
GEN神经网络的阅读理解优化模型
[0001]本专利技术涉及人工智能中的自然语言识别处理领域,具体是一种基于ERNIE
‑
GEN神经网络的阅读理解优化模型,可广泛应用于各个领域的机器阅读理解任务中。
技术介绍
[0002]如今对阅读理解的问题研究主要方法通常使用大规模无标签文本语料库进行预训练,并对下游任务进行微调,GPT、BERT和XLNe等自监督表示模型在NLU(Natural Language Understanding,NLU)方面取得了显著改善。与BERT这样的纯编码器预训练或GPT这样的纯解码器预训练不同,自然语言生成(Natural Language Generation,NLG)依赖于序列到序列生成框架(Sequence
‑
to
‑
Sequence,seq2seq),该框架由双向编码器和单向解码器组成,在预训练过程中使用双向编码器极易导致模型产生过度依赖,影响单向解码器性能。
[0003]一方面,目前在NLG ...
【技术保护点】
【技术特征摘要】
1.一种基于ERNIE
‑
GEN神经网络的阅读理解优化模型,其特征在于:首先,在ERNIE
‑
GEN神经网络模型的预训练阶段,将原始ERNIE
‑
GEN神经网络单一的左序预训练模式,扩展为多语序预训练模式,迫使ERNIE
‑
GEN神经网络编码器适应多种输入语序,达到增强编码器适应能力的目的;其次,在阅读理解任务微调阶段,通过门控机制,将上下文解码状态与问题解码状态进行融合,达到突出关键语义的目的;所述ERNIE
‑
GEN神经网络是指百度公司Xiao等人提出的一种用于自然语言生成的增强的多流预训练和微调框架。2.根据权利要求1所述的基于ERNIE
‑
GEN神经网络的阅读理解优化模型,其特征在于:所述在ERNIE
‑
GEN神经网络模型的预训练阶段,将原始ERNIE
‑
GEN神经网络单一的左序预训练模式,扩展为多语序预训练模式,具体包括:(1)右序预训练模式,包括右序逐字生成流的更新机制与右序跨度生成流的更新机制,其中:所述右序逐字生成流的更新机制,具体过程为:设预训练样本的上下文S={s1,
…
,s
n
},{s1,
…
,s
n
}为S中的token字序列,n为S中token字的数量,T={t1,
…
,t
m
}∈S为S中有噪声的token字掩码序列,m为T中token字掩码的数量,A={a1,
…
,a
m
}为ERNIE
‑
GEN神经网络在解码器中插入的与T相对应的用于收集历史上下文的人工符号序列,并通过A来预测T的目标,则右序逐字生成流是指从T中的右侧t
m
开始向左逐一生成token字掩码的目标,且在生成第i个掩码t
i
的目标时,其上下文为S中t
i
右侧的token字序列,t
i
对应的人工符号a
i
从ERNIE
‑
GEN神经网络模型的第l层到l+1层的更新机制为:其中,所述噪声是指将掩码的目标随机替换为词汇表中的任意单词,所述逐字生成流是指掩码为一个token字的ERNIE
‑
GEN生成流,上标(l)、(l+1)分别表示元素位于ERNIE
‑
GEN神经网络模型的第l层、第l+1层中,分别表示与t
i
相对应的人工符号a
i
在ERNIE
‑
GEN模型第l层与第l+1层的隐藏表示,函数MH_Attn(
·
)为ERNIE
‑
GEN神经网络中共享参数的Transformer,Q、K、V分别表示MH_Attn(
·
)中查询、键与值三个参数,[
·
,
·
]表示连接操作,表示位于ERNIE
‑
GEN模型第l层的S中t
i
右侧的token字序列的隐藏表示,从ERNIE
‑
GEN模型的第l层到l+1层的更新过程为:所述右序跨度生成流的更新机制,具体过程为:设对于S中有噪声的跨度掩码序列T
′
={t
′1,
…
,t
′
m
′
}∈S,具有跨度边界列表B={b1,
…
,b
m
′
},m
′
为T
′
中跨度掩码的数量,则右序跨度生成流是指从T
′
中的右侧t
′
m
′
开始向左逐一生成跨度掩码的目标,且在生成第i个跨度掩码t
′
i
中第j位置的token字掩码的目标时,其上下文为S中t
′
i
右侧的token字序列,对应的人工符号从ERNIE
‑
GEN神经网络模型的第l层到l+1层的更新机制为:
其中,所述跨度掩码是指针对连续token字的掩码,所述跨度边界是指跨度掩码生成目标在S中的开始位置,所述跨度生成流是指掩码为一个连续的token字区间的ERNIE
‑
GEN生成流,j∈[b
i
,b
i+1
),b
i
、b
i+1
分别表示第i个和第i+1个跨度掩码生成目标t
′
i
与t
′
i+1
在S中的开始位置,表示S中第j位置token字掩码对应的人工符号,表示位于ERNIE
‑
GEN模型第l层的S中t
′
i
右侧的上下文序列的隐藏表示,从ERNIE
‑
GEN模型的第l层到l+1层的更新过程为:(2)双向预训练模式,包括双向逐字生成流的更新机制与双向跨度生成流的更新机制,其中:所述双向逐字生成流的更新机制,具体过程为:所述双向逐字生成流是指按T中token字掩码的顺序,从左向右逐一生成token字掩码的目标,且在生成第i个掩码t
i
的目标时,其上下文为S中除t
i
之外的所有token字,t
i
对应的人工符号a
i
从ERNIE
‑
GEN神经网络模型的第l层到l+1层的更新机制为:其中,表示位于ERNIE
‑
GEN模型第l层的S中除t
i
之外的所有token字的隐藏表示,从ERNIE
‑
GEN模型的第l层到l+1层的更新过程为:所述双向跨度生成流的更新机制,具体过程为:所述双向跨度生成流是指按T
′
中跨度掩码的顺序,从左向右逐一生成跨度掩码的目标,且在生成第i个跨度掩码t
′
i
中的第j位置的token字掩码的目标时,其上下文为S中除跨度掩码t
′
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。