不完整语句的重写及模型的训练方法、装置和相关设备制造方法及图纸

技术编号：34135811 阅读：43 留言：0更新日期：2022-07-14 16:35

本申请涉及人工智能技术，提出一种不完整语句的重写及模型的训练方法、装置和相关设备，该方法包括：将多轮对话文本分词后输入至已训练的语句重写模型，利用已训练的语句重写模型将各个分词转换为向量表示；基于已训练的语句重写模型的自注意力机制，根据向量表示捕捉各个分词之间的相关性，得到多个目标自注意力矩阵；对目标自注意力矩阵进行调整得到对应的目标分词关系矩阵；基于已训练的语句重写模型的语义分割机制，根据所有目标分词关系矩阵得到目标词编辑矩阵；基于目标词编辑矩阵，对不完整语句执行对应编辑类型的编辑操作得到重写语句。本申请利用自注意力矩阵简化且解决了不完整话语重写中的省略补全和指代消解问题。题。题。

全部详细技术资料下载

【技术实现步骤摘要】
不完整语句的重写及模型的训练方法、装置和相关设备

[0001]本申请涉及人工智能
，尤其涉及一种不完整语句的重写及模型的训练方法、装置和相关设备。

技术介绍

[0002]近年来，因为不完整语句的重写在对话机器人领域巨大的潜在商业价值，吸引了学术界和工业界越来越多的关注。不完整话语重写的目标在于解决多轮对话中的指代消解和省略补全问题，让句子在脱离上下文语境时也可以完整的表达含义。现有技术中的方法通常将不完整语句重写任务转换为机器翻译任务或文本生成任务，并采用具有复制机制的生成模型，且需要一些额外的辅助技巧如加入词性标记、复制机制、两段式编辑等。整体的建模过程比较复杂，同时模型的开销较大，不利于工业级的应用落地。

技术实现思路

[0003]为了解决现有技术中不完整语句重写过程中建模复杂计算开销大的技术问题。本申请提供了一种不完整语句的重写及模型的训练方法、装置和相关设备，其主要目的在于简化不完整语句的重写。
[0004]为实现上述目的，本申请提供了一种不完整语句的重写方法，该方法包括：
[0005]将多轮对话文本分词后输入至已训练的语句重写模型，利用已训练的语句重写模型将各个分词转换为对应的向量表示；
[0006]基于已训练的语句重写模型的自注意力机制，根据向量表示捕捉各个分词之间的相关性，得到自注意力层对应的多个目标自注意力矩阵；
[0007]对目标自注意力矩阵进行调整，得到对应的目标分词关系矩阵，其中，目标分词关系矩阵表征多轮对话文本中不完整语句所包含的每个第一分...

【技术保护点】

【技术特征摘要】
1.一种不完整语句的重写方法，其特征在于，所述方法包括：将多轮对话文本分词后输入至已训练的语句重写模型，利用所述已训练的语句重写模型将各个分词转换为对应的向量表示；基于所述已训练的语句重写模型的自注意力机制，根据所述向量表示捕捉各个所述分词之间的相关性，得到自注意力层对应的多个目标自注意力矩阵；对所述目标自注意力矩阵进行调整，得到对应的目标分词关系矩阵，其中，所述目标分词关系矩阵表征所述多轮对话文本中不完整语句所包含的每个第一分词与所述多轮对话文本中每个第二分词的相关性，所述第二分词为所述多轮对话文本所包含的所有分词中除第一分词之外的分词；基于所述已训练的语句重写模型的语义分割机制，根据所有目标分词关系矩阵得到目标词编辑矩阵，其中，所述目标词编辑矩阵用于表征每个所述第一分词与每个所述第二分词对应的编辑类型；基于所述目标词编辑矩阵，对所述不完整语句执行对应编辑类型的编辑操作，得到重写语句。2.根据权利要求1所述的方法，其特征在于，所述基于所述已训练的语句重写模型的语义分割机制，根据所有目标分词关系矩阵得到目标词编辑矩阵，包括：将所有目标分词关系矩阵作为多通道输入输入至所述已训练的语句重写模型所包含的语义分割模型；利用所述语义分割模型对所有目标分词关系矩阵进行下采样和上采样，以对每个分类通道所对应的通道矩阵中每个单元格的编辑类型进行预测得到分类概率，将分类概率最高的编辑类型作为对应单元格最终确定的编辑类型，将所有单元格最终确定的编辑类型输出为所述目标词编辑矩阵，其中所述编辑类型包括插入、替换和空。3.根据权利要求1所述的方法，其特征在于，所述对所述目标自注意力矩阵进行调整，得到对应的目标分词关系矩阵，包括：从所述目标自注意力矩阵中提取出表征所述第一分词与所述第二分词相关性的子矩阵，对所有子矩阵进行调整，得到对应的目标分词关系矩阵。4.根据权利要求3所述的方法，其特征在于，所述从所述目标自注意力矩阵中提取出表征所述第一分词与所述第二分词相关性的子矩阵，对所有子矩阵进行调整，得到对应的目标分词关系矩阵，包括：从所述目标自注意力矩阵中提取出第一子矩阵和第二子矩阵，其中，所述第一子矩阵表征每个所述第一分词对每个所述第二分词的相关性，所述第二子矩阵表征每个所述第二分词对每个所述第一分词的相关性；将所述第一子矩阵与所述第二子矩阵进行融合，得到对应的目标分词关系矩阵。5.根据权利要求1所述的方法，其特征在于，在所述将多轮对话文本分词后输入至已训练的语句重写模型之前，所述方法还包括：获取训练集，所述训练集包括多个训练样本，每个所述训练样本包括对话文本样本，所述对话文本样本包括对应的不完整语句样本，所述训练样本的样本标签为所述不完整语句样本中的第三分词与对应的对话文本样本的第四分词之间的编辑类型关系，所述第四分词为所述对话文本样本中除第三分词之外的分词；
利用所述训练集对预训练的语句重写模型所包含的Bert模型和语义分割模型进行训练，根据输出结果及对应的样本标签计算损失函数和梯度，根据所述梯度更新Bert模型和语义分割模型的模型参数，直到达到收敛条件，其中，所述语义分割模型连接于所述Bert模型之后。6.根据权利要求1所述的方法，其特征在于，所述基于所述已训练...

【专利技术属性】
技术研发人员：张镛，王健宗，李志韬，
申请(专利权)人：平安科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人