不完整语句的重写及模型的训练方法、装置和相关设备制造方法及图纸

技术编号:34135811 阅读:43 留言:0更新日期:2022-07-14 16:35
本申请涉及人工智能技术,提出一种不完整语句的重写及模型的训练方法、装置和相关设备,该方法包括:将多轮对话文本分词后输入至已训练的语句重写模型,利用已训练的语句重写模型将各个分词转换为向量表示;基于已训练的语句重写模型的自注意力机制,根据向量表示捕捉各个分词之间的相关性,得到多个目标自注意力矩阵;对目标自注意力矩阵进行调整得到对应的目标分词关系矩阵;基于已训练的语句重写模型的语义分割机制,根据所有目标分词关系矩阵得到目标词编辑矩阵;基于目标词编辑矩阵,对不完整语句执行对应编辑类型的编辑操作得到重写语句。本申请利用自注意力矩阵简化且解决了不完整话语重写中的省略补全和指代消解问题。题。题。

【技术实现步骤摘要】
不完整语句的重写及模型的训练方法、装置和相关设备


[0001]本申请涉及人工智能
,尤其涉及一种不完整语句的重写及模型的训练方法、装置和相关设备。

技术介绍

[0002]近年来,因为不完整语句的重写在对话机器人领域巨大的潜在商业价值,吸引了学术界和工业界越来越多的关注。不完整话语重写的目标在于解决多轮对话中的指代消解和省略补全问题,让句子在脱离上下文语境时也可以完整的表达含义。现有技术中的方法通常将不完整语句重写任务转换为机器翻译任务或文本生成任务,并采用具有复制机制的生成模型,且需要一些额外的辅助技巧如加入词性标记、复制机制、两段式编辑等。整体的建模过程比较复杂,同时模型的开销较大,不利于工业级的应用落地。

技术实现思路

[0003]为了解决现有技术中不完整语句重写过程中建模复杂计算开销大的技术问题。本申请提供了一种不完整语句的重写及模型的训练方法、装置和相关设备,其主要目的在于简化不完整语句的重写。
[0004]为实现上述目的,本申请提供了一种不完整语句的重写方法,该方法包括:
[0005]将多轮对话文本分词后输入至已训练的语句重写模型,利用已训练的语句重写模型将各个分词转换为对应的向量表示;
[0006]基于已训练的语句重写模型的自注意力机制,根据向量表示捕捉各个分词之间的相关性,得到自注意力层对应的多个目标自注意力矩阵;
[0007]对目标自注意力矩阵进行调整,得到对应的目标分词关系矩阵,其中,目标分词关系矩阵表征多轮对话文本中不完整语句所包含的每个第一分词与多轮对话文本中每个第二分词的相关性,第二分词为多轮对话文本所包含的所有分词中除第一分词之外的分词;
[0008]基于已训练的语句重写模型的语义分割机制,根据所有目标分词关系矩阵得到目标词编辑矩阵,其中,目标词编辑矩阵用于表征每个第一分词与每个第二分词对应的编辑类型;
[0009]基于目标词编辑矩阵,对不完整语句执行对应编辑类型的编辑操作,得到重写语句。
[0010]为实现上述目的,本申请提供了一种语句重写模型的训练方法,该方法包括:
[0011]获取训练集,训练集包括多个训练样本,每个训练样本包括对话文本样本,对话文本样本包括对应的不完整语句样本,训练样本的样本标签为不完整语句样本中的第三分词与对应的对话文本样本的第四分词之间的编辑类型关系,第四分词为对话文本样本中除第三分词之外的分词;
[0012]利用训练集对预训练的语句重写模型所包含的Bert模型和语义分割模型进行训练,根据输出结果及对应的样本标签计算损失函数和梯度,根据梯度更新Bert模型和语义
分割模型的模型参数,直到达到收敛条件,其中,语义分割模型连接于Bert模型之后。
[0013]此外,为实现上述目的,本申请还提供了一种不完整语句的重写装置,该装置包括:
[0014]向量表示模块,用于将多轮对话文本分词后输入至已训练的语句重写模型,利用已训练的语句重写模型将各个分词转换为对应的向量表示;
[0015]第一计算模块,用于基于已训练的语句重写模型的自注意力机制,根据向量表示捕捉各个分词之间的相关性,得到自注意力层对应的多个目标自注意力矩阵;
[0016]调整模块,用于对目标自注意力矩阵进行调整,得到对应的目标分词关系矩阵,其中,目标分词关系矩阵表征多轮对话文本中不完整语句所包含的每个第一分词与多轮对话文本中每个第二分词的相关性,第二分词为多轮对话文本所包含的所有分词中除第一分词之外的分词;
[0017]语义分割模块,用于基于已训练的语句重写模型的语义分割机制,根据所有目标分词关系矩阵得到目标词编辑矩阵,其中,目标词编辑矩阵用于表征每个第一分词与每个第二分词对应的编辑类型;
[0018]语句重写模块,用于基于目标词编辑矩阵,对不完整语句执行对应编辑类型的编辑操作,得到重写语句。
[0019]为实现上述目的,本申请还提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机可读指令,处理器执行计算机可读指令时执行如前面任一项的不完整语句的重写方法的步骤,和/或,执行如前面任一项的语句重写模型的训练方法的步骤。
[0020]为实现上述目的,本申请还提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机可读指令,计算机可读指令被处理器执行时,使得处理器执行如前面任一项的不完整语句的重写方法的步骤,和/或,执行如前面任一项的语句重写模型的训练方法的步骤。
[0021]本申请提出的不完整语句的重写及模型的训练方法、装置和相关设备,通过自注意力机制获取词与词之间的相关性得到自注意力矩阵,对自注意力矩阵进行调整得到作为语义分割输入的特征图矩阵,通过语义分割机制建立不完整语句中每个第一分词与其他第二分词之间的编辑类型的映射关系进而得到目标词编辑矩阵。再通过目标词编辑矩阵中的编辑类型来对不完整语句执行编辑操作进而得到重写后的重写语句。
[0022]本申请将不完整语句重写任务转换为语义分割任务,引入了基于词的编辑操作,并将问题重新定型为词编辑矩阵的预测。这种方法能够捕获本地和全局信息,在多个公共数据集上实现了最优性能。且,本实施例巧妙地使用Bert模型中自注意力机制生成的自注意力矩阵来获取特征图矩阵作为语义分割的输入,简化了现有技术中对特征图矩阵的复杂计算,整个过程自然而简单。同时巧妙的利用了计算机视觉中的语义分割卷积网络作为分类器,可以并行的把上下文话语和不完整话语之间token2token(词与词)之间的相关性做一个到编辑类型的映射,巧妙地利用了Transformer中自注意力矩阵作为特征解决了不完整话语重写中的省略补全和指代消解问题,且极大地提高了模型的推理速度并使得在工业界进行落地成为可能。
附图说明
[0023]图1为本申请一实施例中不完整语句的重写方法的流程示意图;
[0024]图2为本申请一实施例中语句重写模型的结构框图;
[0025]图3为本申请一实施例中不完整语句的重写装置的结构框图;
[0026]图4为本申请一实施例中计算机设备的内部结构框图。
[0027]本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
[0028]为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
[0029]本申请提供的不完整语句的重写方法,可应用在服务器或终端设备等计算机设备上,例如,个人电脑、笔记本电脑等。
[0030]图1为本申请一实施例中不完整语句的重写方法的流程示意图。参考图1,该不完整语句的重写包本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种不完整语句的重写方法,其特征在于,所述方法包括:将多轮对话文本分词后输入至已训练的语句重写模型,利用所述已训练的语句重写模型将各个分词转换为对应的向量表示;基于所述已训练的语句重写模型的自注意力机制,根据所述向量表示捕捉各个所述分词之间的相关性,得到自注意力层对应的多个目标自注意力矩阵;对所述目标自注意力矩阵进行调整,得到对应的目标分词关系矩阵,其中,所述目标分词关系矩阵表征所述多轮对话文本中不完整语句所包含的每个第一分词与所述多轮对话文本中每个第二分词的相关性,所述第二分词为所述多轮对话文本所包含的所有分词中除第一分词之外的分词;基于所述已训练的语句重写模型的语义分割机制,根据所有目标分词关系矩阵得到目标词编辑矩阵,其中,所述目标词编辑矩阵用于表征每个所述第一分词与每个所述第二分词对应的编辑类型;基于所述目标词编辑矩阵,对所述不完整语句执行对应编辑类型的编辑操作,得到重写语句。2.根据权利要求1所述的方法,其特征在于,所述基于所述已训练的语句重写模型的语义分割机制,根据所有目标分词关系矩阵得到目标词编辑矩阵,包括:将所有目标分词关系矩阵作为多通道输入输入至所述已训练的语句重写模型所包含的语义分割模型;利用所述语义分割模型对所有目标分词关系矩阵进行下采样和上采样,以对每个分类通道所对应的通道矩阵中每个单元格的编辑类型进行预测得到分类概率,将分类概率最高的编辑类型作为对应单元格最终确定的编辑类型,将所有单元格最终确定的编辑类型输出为所述目标词编辑矩阵,其中所述编辑类型包括插入、替换和空。3.根据权利要求1所述的方法,其特征在于,所述对所述目标自注意力矩阵进行调整,得到对应的目标分词关系矩阵,包括:从所述目标自注意力矩阵中提取出表征所述第一分词与所述第二分词相关性的子矩阵,对所有子矩阵进行调整,得到对应的目标分词关系矩阵。4.根据权利要求3所述的方法,其特征在于,所述从所述目标自注意力矩阵中提取出表征所述第一分词与所述第二分词相关性的子矩阵,对所有子矩阵进行调整,得到对应的目标分词关系矩阵,包括:从所述目标自注意力矩阵中提取出第一子矩阵和第二子矩阵,其中,所述第一子矩阵表征每个所述第一分词对每个所述第二分词的相关性,所述第二子矩阵表征每个所述第二分词对每个所述第一分词的相关性;将所述第一子矩阵与所述第二子矩阵进行融合,得到对应的目标分词关系矩阵。5.根据权利要求1所述的方法,其特征在于,在所述将多轮对话文本分词后输入至已训练的语句重写模型之前,所述方法还包括:获取训练集,所述训练集包括多个训练样本,每个所述训练样本包括对话文本样本,所述对话文本样本包括对应的不完整语句样本,所述训练样本的样本标签为所述不完整语句样本中的第三分词与对应的对话文本样本的第四分词之间的编辑类型关系,所述第四分词为所述对话文本样本中除第三分词之外的分词;
利用所述训练集对预训练的语句重写模型所包含的Bert模型和语义分割模型进行训练,根据输出结果及对应的样本标签计算损失函数和梯度,根据所述梯度更新Bert模型和语义分割模型的模型参数,直到达到收敛条件,其中,所述语义分割模型连接于所述Bert模型之后。6.根据权利要求1所述的方法,其特征在于,所述基于所述已训练...

【专利技术属性】
技术研发人员:张镛王健宗李志韬
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1