【技术实现步骤摘要】
基于ALBERT
‑
Coref模型的对话文本生成方法
[0001]本申请涉及数据处理
,特别是涉及一种基于ALBERT
‑
Coref模型的对话文本生成方法、计算机设备和存储介质。
技术介绍
[0002]循环神经网络(Recurrent neural network,RNN)具有记忆性、参数共享并且图灵完备,对序列的非线性特征进行学习时具有一定优势,因此传统的基于序列到序列模型的对话系统将注意力机制与RNN结合起来,利用强大的编码序列文本信息的能力实现对话上下文信息的编码和解码或者将对话历史和候选回复一起建模,从而实现基本的对话功能,然而,RNN容易出现梯度消失的问题,无法支持长时间序列,更无法提取深层的语义信息,导致序列到序列模型的表现变差。随后,有人提出了Transformer架构,基于Transformer的序列到序列模型开始被广泛用于对话生成领域,Transformer利用自注意机制和编码解码器来实现局部依赖和全局依赖并通过并行化来加速模型训练,显著的改善了基于RNN的序列到序 ...
【技术保护点】
【技术特征摘要】
1.一种基于ALBERT
‑
Coref模型的对话文本生成方法,其特征在于,所述方法包括:获取对话生成任务;所述对话生成任务包括用户本轮对话内容;构建ALBERT
‑
Coref模型;所述ALBERT
‑
Coref模型包括共指消解模块、语义编码模块、回复生成模块和迁移学习模块;根据所述共指消解模块对自注意力机制进行改进,得到改进后的自注意力机制;根据所述改进后的自注意力机制对所述语义编码模块进行优化,得到优化后的语义编码模块,利用优化后的语义编码模块对所述用户本轮对话内容进行编码,得到对话内容的特征向量、K矩阵和V矩阵;根据所述回复生成模块对Q矩阵、K矩阵和V矩阵进行交互后共同输入到多头注意力模块、前馈神经网络以及规范化层得到解码矩阵;利用所述解码矩阵和掩码矩阵以自回归方式生成回复文本;根据所述迁移学习模块将所述对话生成任务分解为意图识别任务和文本生成任务,构建总的损失函数,利用所述总的损失函数和自适应动量的Adam算法对ALBERT
‑
Coref模型的所有模块进行优化,得到优化后的回复生成模块;利用所述优化后的回复生成模块生成用户本轮的回复文本。2.根据权利要求1所述的方法,其特征在于,所述共指消解模块包括字节对编码算法和自然语言处理工具Spacy;根据所述共指消解模块对自注意力机制进行改进,得到改进后的自注意力机制,包括:根据字节对编码算法和自然语言处理工具Spacy对所述用户本轮对话内容进行处理,得到共指关系矩阵,利用所述共指关系矩阵对自注意力机制进行改进,得到改进后的自注意力机制。3.根据权利要求2所述的方法,其特征在于,根据字节对编码算法和自然语言处理工具Spacy对所述用户本轮对话内容进行转换和识别,得到实体和指称,包括:根据自下而上的字节对编码算法将用户本轮对话内容转换成词序列,再利用自然语言处理工具Spacy识别所述词序列当中的实体和指称;根据实体和指称之间的共指关系构造共指关系矩阵为其中,a表示可训练的参数,表示第i个词和第j个词存在共指关系,表示第i个词和第j个词不存在共指关系。4.根据权利要求3所述的方法,其特征在于,利用所述共指关系矩阵对自注意力机制进行改进,得到改进后的自...
【专利技术属性】
技术研发人员:谭周兴,刘德培,唐铁军,何浩,刘治国,熊婕,
申请(专利权)人:湖南君安科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。