预训练语言模型的方法和装置制造方法及图纸

技术编号:26730665 阅读:13 留言:0更新日期:2020-12-15 14:31
本说明书实施例提供一种预训练语言模型的方法和装置,方法包括:获取历史对话记录中的第一角色的第一语句,以及第二角色的第二语句;历史对话记录包括多轮对话中各轮对话的语句;将第一语句和第二语句拼接成第一样本;将第一样本中预设比例的字进行遮蔽,得到第二样本;对第二样本中任意一个字的字嵌入向量、字类型嵌入向量、位置嵌入向量和附加嵌入向量进行叠加,得到该字的初始字表达向量;将第二样本中各个字的初始字表达向量输入语言模型,基于包括第一任务在内的至少一项预训练任务对语言模型进行预训练,第一任务用于预测第二样本中被遮蔽的字。能够在预训练语言模型后,使得该语言模型更适用于对话领域的语言表征。

【技术实现步骤摘要】
预训练语言模型的方法和装置
本说明书一个或多个实施例涉及计算机领域,尤其涉及预训练语言模型的方法和装置。
技术介绍
随着人工智能的发展,出现了采用机器人代替人工与用户进行对话的方式,这种对话常常需要进行多轮,简称多轮对话。在机器人与用户的多轮对话过程中,通过意图识别模型识别用户的语句所表达的意图,来针对该意图给出相应的机器人应答语句,通过这种不断交互的方式来完成既定的业务目标,例如,解答用户问题,或者促使用户进行预定用户行为。意图识别模型是一种分类模型,以语言模型得到的语言表征为基础,确定用户的语句所表达的意图。其中,现有的语言模型是在公开的百科语料上训练的通用的模型,无法很好的表征对话领域的语句,相应地,意图识别模型无法准确的识别用户的语句所表达的意图,进而无法完成既定的业务目标。因此,希望能有改进的方案,能够在预训练语言模型后,使得该语言模型更适用于对话领域的语言表征。
技术实现思路
本说明书一个或多个实施例描述了一种预训练语言模型的方法和装置,能够在预训练语言模型后,使得该语言模型更适用于对话领域的语言表征。第一方面,提供了一种预训练语言模型的方法,所述语言模型用于对话领域中的语言表征,方法包括:获取对话领域的历史对话记录中的第一角色的第一语句,以及所述历史对话记录中的第二角色的第二语句;其中,所述历史对话记录包括所述第一角色和所述第二角色的多轮对话中各轮对话的语句;将所述第一语句和所述第二语句拼接成第一样本;将所述第一样本中预设比例的字用预设字进行遮蔽,得到第二样本;对所述第二样本中任意一个字的字嵌入向量、该字的字类型嵌入向量、该字的位置嵌入向量和该字对应的附加嵌入向量进行叠加,得到该字的初始字表达向量;所述附加嵌入向量包括该字对应的语句所属轮次的轮次嵌入向量、该字对应的语句所属角色的角色嵌入向量、该字对应的拼音的拼音嵌入向量中的至少一种;将所述第二样本中各个字的初始字表达向量输入所述语言模型,基于包括第一任务在内的至少一项预训练任务对所述语言模型进行预训练,所述第一任务用于预测所述第二样本中被遮蔽的字。在一种可能的实施方式中,所述第二样本中被遮蔽的字作为样本标签,用于确定所述第一任务的预测损失。在一种可能的实施方式中,所述预训练任务还包括第二任务,所述第二任务用于预测所述第一语句和所述第二语句是否为顺次相连的两个语句。进一步地,所述第一样本对应于所述第二任务的正样本,所述第一语句和所述第二语句为顺次相连的两个语句;或者,所述第一样本对应于所述第二任务的负样本,所述第一语句和所述第二语句不为顺次相连的两个语句。在一种可能的实施方式中,所述预训练任务还包括第三任务,所述第三任务用于预测所述第二样本中被遮蔽的字的拼音。进一步地,所述第二样本中被遮蔽的字的拼音作为样本标签,用于确定所述第三任务的预测损失。在一种可能的实施方式中,所述附加嵌入向量包括该字对应的语句所属角色的角色嵌入向量、该字对应的拼音的拼音嵌入向量中的至少一种;所述预训练任务还包括第四任务,所述第四任务用于预测所述第一语句和所述第二语句是否为同一轮次的两个语句。进一步地,所述第一样本对应于所述第四任务的正样本,所述第一语句和所述第二语句为同一轮次的两个语句;或者,所述第一样本对应于所述第四任务的负样本,所述第一语句和所述第二语句不为同一轮次的两个语句。在一种可能的实施方式中,所述基于包括第一任务在内的至少一项预训练任务对所述语言模型进行预训练之后,所述方法还包括:获取历史对话记录中的第一角色的第三语句和第二角色的第四语句;所述第三语句和所述第四语句属于同一轮次;将所述第三语句和所述第四语句拼接成第三样本;将所述第三样本中各个字的初始字表达向量输入预训练之后的所述语言模型,得到所述第三样本的语言表征向量;将所述第三样本的语言表征向量输入意图识别模型,得到所述第三样本对应的预测意图类别;根据所述第三样本对应的实际意图类别和预测意图类别,对所述语言模型进行微调。进一步地,所述对所述语言模型进行微调之后,所述方法还包括:获取当前对话中的第一角色的第五语句和第二角色的第六语句;所述第五语句和所述第六语句属于同一轮次;将所述第五语句和所述第六语句拼接成第四样本;将所述第四样本输入微调之后的所述语言模型,得到所述第四样本的语言表征向量;将所述第四样本的语言表征向量输入所述意图识别模型,得到所述第四样本对应的预测意图类别。第二方面,提供了一种预训练语言模型的装置,所述语言模型用于对话领域中的语言表征,装置包括:第一获取单元,用于获取对话领域的历史对话记录中的第一角色的第一语句,以及所述历史对话记录中的第二角色的第二语句;其中,所述历史对话记录包括所述第一角色和所述第二角色的多轮对话中各轮对话的语句;第一样本生成单元,将所述第一获取单元获取的所述第一语句和所述第二语句拼接成第一样本;将所述第一样本中预设比例的字用预设字进行遮蔽,得到第二样本;初始表达单元,用于对所述第一样本生成单元得到的第二样本中任意一个字的字嵌入向量、该字的字类型嵌入向量、该字的位置嵌入向量和该字对应的附加嵌入向量进行叠加,得到该字的初始字表达向量;所述附加嵌入向量包括该字对应的语句所属轮次的轮次嵌入向量、该字对应的语句所属角色的角色嵌入向量、该字对应的拼音的拼音嵌入向量中的至少一种;预训练单元,用于将所述初始表达单元得到的所述第二样本中各个字的初始字表达向量输入所述语言模型,基于包括第一任务在内的至少一项预训练任务对所述语言模型进行预训练,所述第一任务用于预测所述第二样本中被遮蔽的字。第三方面,提供了一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行第一方面的方法。第四方面,提供了一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现第一方面的方法。通过本说明书实施例提供的方法和装置,首先获取对话领域的历史对话记录中的第一角色的第一语句,以及所述历史对话记录中的第二角色的第二语句;其中,所述历史对话记录包括所述第一角色和所述第二角色的多轮对话中各轮对话的语句;然后将所述第一语句和所述第二语句拼接成第一样本;将所述第一样本中预设比例的字用预设字进行遮蔽,得到第二样本;接着对所述第二样本中任意一个字的字嵌入向量、该字的字类型嵌入向量、该字的位置嵌入向量和该字对应的附加嵌入向量进行叠加,得到该字的初始字表达向量;所述附加嵌入向量包括该字对应的语句所属轮次的轮次嵌入向量、该字对应的语句所属角色的角色嵌入向量、该字对应的拼音的拼音嵌入向量中的至少一种;最后将所述第二样本中各个字的初始字表达向量输入所述语言模型,基于包括第一任务在内的至少一项预训练任务对所述语言模型进行预训练,所述第一任务用于预测所述第二样本中被遮蔽的字。由上可见,本说明书实施例,基于对话领域的历史对本文档来自技高网...

【技术保护点】
1.一种预训练语言模型的方法,所述语言模型用于对话领域中的语言表征,所述方法包括:/n获取对话领域的历史对话记录中的第一角色的第一语句,以及所述历史对话记录中的第二角色的第二语句;其中,所述历史对话记录包括所述第一角色和所述第二角色的多轮对话中各轮对话的语句;/n将所述第一语句和所述第二语句拼接成第一样本;将所述第一样本中预设比例的字用预设字进行遮蔽,得到第二样本;/n对所述第二样本中任意一个字的字嵌入向量、该字的字类型嵌入向量、该字的位置嵌入向量和该字对应的附加嵌入向量进行叠加,得到该字的初始字表达向量;所述附加嵌入向量包括该字对应的语句所属轮次的轮次嵌入向量、该字对应的语句所属角色的角色嵌入向量、该字对应的拼音的拼音嵌入向量中的至少一种;/n将所述第二样本中各个字的初始字表达向量输入所述语言模型,基于包括第一任务在内的至少一项预训练任务对所述语言模型进行预训练,所述第一任务用于预测所述第二样本中被遮蔽的字。/n

【技术特征摘要】
1.一种预训练语言模型的方法,所述语言模型用于对话领域中的语言表征,所述方法包括:
获取对话领域的历史对话记录中的第一角色的第一语句,以及所述历史对话记录中的第二角色的第二语句;其中,所述历史对话记录包括所述第一角色和所述第二角色的多轮对话中各轮对话的语句;
将所述第一语句和所述第二语句拼接成第一样本;将所述第一样本中预设比例的字用预设字进行遮蔽,得到第二样本;
对所述第二样本中任意一个字的字嵌入向量、该字的字类型嵌入向量、该字的位置嵌入向量和该字对应的附加嵌入向量进行叠加,得到该字的初始字表达向量;所述附加嵌入向量包括该字对应的语句所属轮次的轮次嵌入向量、该字对应的语句所属角色的角色嵌入向量、该字对应的拼音的拼音嵌入向量中的至少一种;
将所述第二样本中各个字的初始字表达向量输入所述语言模型,基于包括第一任务在内的至少一项预训练任务对所述语言模型进行预训练,所述第一任务用于预测所述第二样本中被遮蔽的字。


2.如权利要求1所述的方法,其中,所述第二样本中被遮蔽的字作为样本标签,用于确定所述第一任务的预测损失。


3.如权利要求1所述的方法,其中,所述预训练任务还包括第二任务,所述第二任务用于预测所述第一语句和所述第二语句是否为顺次相连的两个语句。


4.如权利要求3所述的方法,其中,所述第一样本对应于所述第二任务的正样本,所述第一语句和所述第二语句为顺次相连的两个语句;或者,所述第一样本对应于所述第二任务的负样本,所述第一语句和所述第二语句不为顺次相连的两个语句。


5.如权利要求1所述的方法,其中,所述预训练任务还包括第三任务,所述第三任务用于预测所述第二样本中被遮蔽的字的拼音。


6.如权利要求5所述的方法,其中,所述第二样本中被遮蔽的字的拼音作为样本标签,用于确定所述第三任务的预测损失。


7.如权利要求1所述的方法,其中,所述附加嵌入向量包括该字对应的语句所属角色的角色嵌入向量、该字对应的拼音的拼音嵌入向量中的至少一种;
所述预训练任务还包括第四任务,所述第四任务用于预测所述第一语句和所述第二语句是否为同一轮次的两个语句。


8.如权利要求7所述的方法,其中,所述第一样本对应于所述第四任务的正样本,所述第一语句和所述第二语句为同一轮次的两个语句;或者,所述第一样本对应于所述第四任务的负样本,所述第一语句和所述第二语句不为同一轮次的两个语句。


9.如权利要求1所述的方法,其中,所述基于包括第一任务在内的至少一项预训练任务对所述语言模型进行预训练之后,所述方法还包括:
获取历史对话记录中的第一角色的第三语句和第二角色的第四语句;所述第三语句和所述第四语句属于同一轮次;
将所述第三语句和所述第四语句拼接成第三样本;
将所述第三样本中各个字的初始字表达向量输入预训练之后的所述语言模型,得到所述第三样本的语言表征向量;
将所述第三样本的语言表征向量输入意图识别模型,得到所述第三样本对应的预测意图类别;
根据所述第三样本对应的实际意图类别和预测意图类别,对所述语言模型进行微调。


10.如权利要求9所述的方法,其中,所述对所述语言模型进行微调之后,所述方法还包括:
获取当前对话中的第一角色的第五语句和第二角色的第六语句;所述第五语句和所述第六语句属于同一轮次;
将所述第五语句和所述第六语句拼接成第四样本;
将所述第四样本输入微调之后的所述语言模型,得到所述第四样本的语言表征向量;
将所述第四样本的语言表征向量输入所述意图识别模型,得到所述第四样本对应的预测意图类别。


11.一种预训练语言模型的装置,所述语言模型用于对话领域中的语言表征,所述装置包括:
第一获取单元,用于获取对话领域的历史对话记录中的第一角色的第一语句,以及所述历史对话记录中的第二角色的第二语句;其中,所述历史对话记录包括所述第一角色和所述第二角色的多轮对话中各轮对话的语句;
第一样本生成单元,将所述第一获取单元获取的所述第一语句和所述第二语句拼接成第一样本;将所述第一样本中预设比例的字用预...

【专利技术属性】
技术研发人员:王福东
申请(专利权)人:支付宝杭州信息技术有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1