模型训练方法、装置、电子设备和存储介质制造方法及图纸

技术编号:33990848 阅读:19 留言:0更新日期:2022-07-02 09:39
本发明专利技术实施例提供一种模型训练方法、装置、电子设备和存储介质,该方法包括:获取并滤除第一问答集合中的冗余语句,以得到第二问答集合。第二问答集合中的任一问答对由在语义上关联的目标问题语句和目标应答语句构成,即是正样本。还可以将第二问答集合中的目标问题语句和非目标应答语句构成第三问答集合,即是负样本。最终,根据第二问答集合和第三问答集合训练语言模型。上述方案中,通过冗余语句滤除,保证第二问答集合中的问答语句在语义上对应,第三问答集合中的问答语句在语义上不对应,使得正负样本的划分更加准确。使用准确划分的正负样本进行训练可以使语言模型学习到问题语句与应答语句之间的语义联系,保证模型训练效果。果。果。

【技术实现步骤摘要】
模型训练方法、装置、电子设备和存储介质


[0001]本专利技术涉及计算机
,尤其涉及一种模型训练方法、装置、电子设备和存储介质。

技术介绍

[0002]随着人工智能技术的发展,各种智能机器人越来越多地进入人们的生活,比如服务机器人、自移动售货机器人等商用机器人。为了方便用户的使用,智能机器人通常都支持多种人机交互方式,比如基于触摸操作的人机交互方式以及基于语音的交互方式等等。
[0003]在实际应用中,智能机器人在接收到用户输入的对话内容后,通常会先确定出对话内容的语义,再根据语义得到与对话内容对应的应答内容,从而实现人机交互。

技术实现思路

[0004]本专利技术实施例提供一种模型训练方法、装置、电子设备和存储介质,用以保证人机对话的流畅性。
[0005]本专利技术实施例提供一种模型训练方法,包括:
[0006]获取第一问答集合;
[0007]滤除所述第一问答集合中的冗余语句,以得到第二问答集合,所述第二问答集合中的任一问答对包含目标问题语句和目标应答语句;
[0008]根据所述第二问答集合中的目标问题语句和非目标应答语句,确定第三问答集合;
[0009]根据所述第二问答集合和所述第三问答集合,训练语言模型。
[0010]本专利技术实施例提供一种模型训练装置,包括:
[0011]获取模块,用于获取第一问答集合;
[0012]滤除模块,用于滤除所述第一问答集合中的冗余语句,以得到第二问答集合,所述第二问答集合中的任一问答对包含目标问题语句和目标应答语句;
[0013]集合确定模块,用于根据所述第二问答集合中的目标问题语句和非目标应答语句,确定第三问答集合;
[0014]训练模块,用于根据所述第二问答集合和所述第三问答集合,训练语言模型。
[0015]本专利技术实施例提供一种电子设备,包括:处理器和存储器;其中,所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行时实现:
[0016]获取第一问答集合;
[0017]滤除所述第一问答集合中的冗余语句,以得到第二问答集合,所述第二问答集合中的任一问答对包含目标问题语句和目标应答语句;
[0018]根据所述第二问答集合中的目标问题语句和非目标应答语句,确定第三问答集合;
[0019]根据所述第二问答集合和所述第三问答集合,训练语言模型。
[0020]本专利技术实施例提供了一种存储计算机指令的计算机可读存储介质,当所述计算机指令被一个或多个处理器执行时,致使所述一个或多个处理器至少执行以下的动作:
[0021]获取第一问答集合;
[0022]滤除所述第一问答集合中的冗余语句,以得到第二问答集合,所述第二问答集合中的任一问答对包含目标问题语句和目标应答语句;
[0023]根据所述第二问答集合中的目标问题语句和非目标应答语句,确定第三问答集合;
[0024]根据所述第二问答集合和所述第三问答集合,训练语言模型。
[0025]专利技术本提供的模型训练方法,获取第一问答集合,滤除第一问答集合中的冗余语句,以得到第二问答集合。第二问答集合中的任一问答对都可以由目标问题语句和目标应答语句构成,二者在语义上是关联的,可以认为是正样本。此时,还可以将第二问答集合中的目标问题语句和非目标应答语句构成第三问答集合。第三问答集合中的问答对在语义上没有关联,可以认为是负样本。最终,根据第二问答集合和第三问答集合实现语言模型的训练。
[0026]在实际应用中,在第一问答集合中,有可能存在多个语义相同或相似的问题语句和应答语句,因此,容易出现一个问题语句与多个应答语句在语义上关联,或者一个应答语句与多个问题语句在语义上关联的情况。这种问题语句和应答语句在语义上不一一对应的情况,会影响语言模型的训练效果。而在本方案中通过冗余语句滤除,能够保证第二问答集合中问题语句和应答语句在语义上严格的一一对应,保证第三问答集合中问题语句和应答语句在语义上不对应,使得正负样本的划分更加准确、唯一。使用划分准确的正负样本进行训练可以使语言模型学习到问题语句与应答语句之间的内在联系,这种联系既包括语义的关联也包括语义的不关联,从而保证模型训练效果,进一步保证人机对话的流畅性。
附图说明
[0027]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0028]图1为本专利技术实施例提供的对话系统的结构示意图;
[0029]图2为本专利技术实施例提供的一种模型训练方法的流程图;
[0030]图3为本专利技术实施例提供的另一种模型训练方法的流程图;
[0031]图4为本专利技术实施例提供的一种语言模型及其训练过程的示意图;
[0032]图5a为本专利技术实施例提供的模型训练方法应用在银行场景下的一种示意图;
[0033]图5b为本专利技术实施例提供的模型训练方法应用在银行场景下的另一种示意图;
[0034]图5c为本专利技术实施例提供的模型训练方法应用在银行场景下的又一种示意图;
[0035]图6为本专利技术实施例提供的一种模型训练装置的结构示意图;
[0036]图7为与图6所示实施例提供的模型训练装置对应的电子设备的结构示意图。
具体实施方式
[0037]为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0038]在本专利技术实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本专利技术。在本专利技术实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式。除非上下文清楚地表示其他含义,“多个”一般包含至少两个。
[0039]取决于语境,如在此所使用的词语“如果”、“若”可以被解释成为“在
……
时”或“当
……
时”或“响应于确定”或“响应于检测”。类似地,取决于语境,短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。
[0040]还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的商品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种商品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种模型训练方法,其特征在于,包括:获取第一问答集合;滤除所述第一问答集合中的冗余语句,以得到第二问答集合,所述第二问答集合中的任一问答对包含目标问题语句和目标应答语句;根据所述第二问答集合中的目标问题语句和非目标应答语句,确定第三问答集合;根据所述第二问答集合和所述第三问答集合,训练语言模型。2.根据权利要求1所述的方法,其特征在于,所述第一问答集合中的任一问答集合包含目标问题语句和目标应答语句;所述滤除所述第一问答集合中的冗余语句,以得到第二问答集合之前,所述方法还包括:根据所述第一问答集合中的目标问题语句和非目标应答语句,确定第四问答集合;根据所述第一问答集合和所述第四问答集合进行模型训练,以得到第一语言模型;所述根据所述第二问答集合和所述第三问答集合,训练语言模型,包括:根据所述第二问答集合和所述第三问答集合训练所述第一语言模型,以得到第二语言模型。3.根据权利要求2所述的方法,其特征在于,所述滤除所述第一问答集合中的冗余语句,以得到第二问答集合,包括:根据所述第一问答集合中问题语句之间的第一相似度,滤除所述第一问答集合中冗余的问题语句;根据所述第一问答集合中应答语句之间的第二相似度,滤除所述第一问答集合中冗余的应答语句;根据所述第一问答集合中剩余语句的问答关系标识,集合所述剩余语句进行滤除处理,以得到第二问答集合。4.根据权利要求3所述的方法,其特征在于,所述方法还包括:将所述第一问答集合输入所述第一语言模型,以由所述第一语言模型将所述第一问答集合中的问题语句和应答语句分别转化为句向量;根据所述问题语句各自对应的句向量,确定所述第一相似度;根据所述应答语句各自对应的句向量,确定所述第二相似度。5.根据权利要求4所述的方法,其特征在于,所述由所述第一语言模型将所述第一问答集合中的问题语句和应答语句分别转化为句向量,包括:由所述第一语言模型中的第一转换网络对所述问题语句进行向量转换;由所述第一语言模型中的第二转换网络对所述应答语句进行向量转换。6.根据权利要求4或5所述的方法,其特征在于,所述根据所述第一问答集合中剩余语句的问答关系标识,对所述剩余语句进行滤除处理,包括:根据所述问答关系标识,在所述剩余语句中确定具有预设问答关系的目标问答对;将所述目标问答对输入所述第一语言模型,以由所述第一语言模型中的分类网络对所述目标问答对具有的预设问答关系是否成立进行分类;根据所述分类网络输出的分类结果的置信度,滤除预设问答关系不成立的目标问答对。
7...

【专利技术属性】
技术研发人员:秦昌博谢韬高倩邵长东
申请(专利权)人:科沃斯商用机器人有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1