【技术实现步骤摘要】
预训练语言模型的方法和装置
本说明书一个或多个实施例涉及计算机领域,尤其涉及预训练语言模型的方法和装置。
技术介绍
随着人工智能的发展,出现了采用机器人代替人工与用户进行对话的方式,这种对话常常需要进行多轮,简称多轮对话。在机器人与用户的多轮对话过程中,通过意图识别模型识别用户的语句所表达的意图,来针对该意图给出相应的机器人应答语句,通过这种不断交互的方式来完成既定的业务目标,例如,解答用户问题,或者促使用户进行预定用户行为。意图识别模型是一种分类模型,以语言模型得到的语言表征为基础,确定用户的语句所表达的意图。其中,现有的语言模型是在公开的百科语料上训练的通用的模型,无法很好的表征对话领域的语句,相应地,意图识别模型无法准确的识别用户的语句所表达的意图,进而无法完成既定的业务目标。因此,希望能有改进的方案,能够在预训练语言模型后,使得该语言模型更适用于对话领域的语言表征。
技术实现思路
本说明书一个或多个实施例描述了一种预训练语言模型的方法和装置,能够在预训练语言模型后,使得该语言模型更适用于对话领域的语言表征。第一方面,提供了一种预训练语言模型的方法,所述语言模型用于对话领域中的语言表征,方法包括:获取对话领域的历史对话记录中的第一角色的第一语句,以及所述历史对话记录中的第二角色的第二语句;其中,所述历史对话记录包括所述第一角色和所述第二角色的多轮对话中各轮对话的语句;将所述第一语句和所述第二语句拼接成第一样本;将所述第一样本中预设比例的字用预设字进行遮 ...
【技术保护点】
1.一种预训练语言模型的方法,所述语言模型用于对话领域中的语言表征,所述方法包括:/n获取对话领域的历史对话记录中的第一角色的第一语句,以及所述历史对话记录中的第二角色的第二语句;其中,所述历史对话记录包括所述第一角色和所述第二角色的多轮对话中各轮对话的语句;/n将所述第一语句和所述第二语句拼接成第一样本;将所述第一样本中预设比例的字用预设字进行遮蔽,得到第二样本;/n对所述第二样本中任意一个字的字嵌入向量、该字的字类型嵌入向量、该字的位置嵌入向量和该字对应的附加嵌入向量进行叠加,得到该字的初始字表达向量;所述附加嵌入向量包括该字对应的语句所属轮次的轮次嵌入向量、该字对应的语句所属角色的角色嵌入向量、该字对应的拼音的拼音嵌入向量中的至少一种;/n将所述第二样本中各个字的初始字表达向量输入所述语言模型,基于包括第一任务在内的至少一项预训练任务对所述语言模型进行预训练,所述第一任务用于预测所述第二样本中被遮蔽的字。/n
【技术特征摘要】
1.一种预训练语言模型的方法,所述语言模型用于对话领域中的语言表征,所述方法包括:
获取对话领域的历史对话记录中的第一角色的第一语句,以及所述历史对话记录中的第二角色的第二语句;其中,所述历史对话记录包括所述第一角色和所述第二角色的多轮对话中各轮对话的语句;
将所述第一语句和所述第二语句拼接成第一样本;将所述第一样本中预设比例的字用预设字进行遮蔽,得到第二样本;
对所述第二样本中任意一个字的字嵌入向量、该字的字类型嵌入向量、该字的位置嵌入向量和该字对应的附加嵌入向量进行叠加,得到该字的初始字表达向量;所述附加嵌入向量包括该字对应的语句所属轮次的轮次嵌入向量、该字对应的语句所属角色的角色嵌入向量、该字对应的拼音的拼音嵌入向量中的至少一种;
将所述第二样本中各个字的初始字表达向量输入所述语言模型,基于包括第一任务在内的至少一项预训练任务对所述语言模型进行预训练,所述第一任务用于预测所述第二样本中被遮蔽的字。
2.如权利要求1所述的方法,其中,所述第二样本中被遮蔽的字作为样本标签,用于确定所述第一任务的预测损失。
3.如权利要求1所述的方法,其中,所述预训练任务还包括第二任务,所述第二任务用于预测所述第一语句和所述第二语句是否为顺次相连的两个语句。
4.如权利要求3所述的方法,其中,所述第一样本对应于所述第二任务的正样本,所述第一语句和所述第二语句为顺次相连的两个语句;或者,所述第一样本对应于所述第二任务的负样本,所述第一语句和所述第二语句不为顺次相连的两个语句。
5.如权利要求1所述的方法,其中,所述预训练任务还包括第三任务,所述第三任务用于预测所述第二样本中被遮蔽的字的拼音。
6.如权利要求5所述的方法,其中,所述第二样本中被遮蔽的字的拼音作为样本标签,用于确定所述第三任务的预测损失。
7.如权利要求1所述的方法,其中,所述附加嵌入向量包括该字对应的语句所属角色的角色嵌入向量、该字对应的拼音的拼音嵌入向量中的至少一种;
所述预训练任务还包括第四任务,所述第四任务用于预测所述第一语句和所述第二语句是否为同一轮次的两个语句。
8.如权利要求7所述的方法,其中,所述第一样本对应于所述第四任务的正样本,所述第一语句和所述第二语句为同一轮次的两个语句;或者,所述第一样本对应于所述第四任务的负样本,所述第一语句和所述第二语句不为同一轮次的两个语句。
9.如权利要求1所述的方法,其中,所述基于包括第一任务在内的至少一项预训练任务对所述语言模型进行预训练之后,所述方法还包括:
获取历史对话记录中的第一角色的第三语句和第二角色的第四语句;所述第三语句和所述第四语句属于同一轮次;
将所述第三语句和所述第四语句拼接成第三样本;
将所述第三样本中各个字的初始字表达向量输入预训练之后的所述语言模型,得到所述第三样本的语言表征向量;
将所述第三样本的语言表征向量输入意图识别模型,得到所述第三样本对应的预测意图类别;
根据所述第三样本对应的实际意图类别和预测意图类别,对所述语言模型进行微调。
10.如权利要求9所述的方法,其中,所述对所述语言模型进行微调之后,所述方法还包括:
获取当前对话中的第一角色的第五语句和第二角色的第六语句;所述第五语句和所述第六语句属于同一轮次;
将所述第五语句和所述第六语句拼接成第四样本;
将所述第四样本输入微调之后的所述语言模型,得到所述第四样本的语言表征向量;
将所述第四样本的语言表征向量输入所述意图识别模型,得到所述第四样本对应的预测意图类别。
11.一种预训练语言模型的装置,所述语言模型用于对话领域中的语言表征,所述装置包括:
第一获取单元,用于获取对话领域的历史对话记录中的第一角色的第一语句,以及所述历史对话记录中的第二角色的第二语句;其中,所述历史对话记录包括所述第一角色和所述第二角色的多轮对话中各轮对话的语句;
第一样本生成单元,将所述第一获取单元获取的所述第一语句和所述第二语句拼接成第一样本;将所述第一样本中预设比例的字用预...
【专利技术属性】
技术研发人员:王福东,
申请(专利权)人:支付宝杭州信息技术有限公司,
类型:发明
国别省市:浙江;33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。