文本生成模型的训练方法、装置、设备及存储介质制造方法及图纸

技术编号:39256920 阅读:18 留言:0更新日期:2023-10-30 12:08
本申请提供一种文本生成模型的训练方法、装置、设备及存储介质,该方法包括:获取第一文本及第二文本;基于文本生成模型的编码器,对第一文本和第二文本进行向量编码处理,得到第一文本对应的第一向量及第二文本对应的第二向量;基于预设的对比损失函数,根据第一向量和第二向量确定第一损失值;基于文本生成模型的向量处理网络,根据输入的目标条件向量及第一向量确定目标输出文本;基于预设的训练损失函数,根据目标输出文本及第一文本确定第二损失值;根据第一损失值及第二损失值对文本生成模型的参数进行调整,得到训练好的文本生成模型。能够提升对文本生成模型的训练效果,从而提升训练好的文本生成模型在进行文本生成时的准确性。的准确性。的准确性。

【技术实现步骤摘要】
文本生成模型的训练方法、装置、设备及存储介质


[0001]本申请涉及深度学习
,尤其涉及一种文本生成模型的训练方法、装置、设备及存储介质。

技术介绍

[0002]在现今的自然语言处理中,例如通过一些文本生成模型来生成符合用户使用需求的文本,例如通过条件变分自编码器来生成文本,在医疗问诊过程的场景中,医生可以通过输入一些较少的信息及数据至条件变分自编码器中,以得到病历文本或开药单,但当前大多对条件变分自编码器的训练方法中,并没有考虑训练样本之间的相关信息,从而导致在输入不同标签的时候,例如医生输入病灶及病因时,生成的文本可能会较为相似甚至相同,模型生成的文本的精确性不足。

技术实现思路

[0003]本申请的提供一种文本生成模型的训练方法、装置、设备及存储介质,旨在通过对文本生成模型进行训练,提高文本生成模型生成的文本的精确性。
[0004]第一方面,本申请提供一种文本生成模型的训练方法,所述文本生成模型的训练方法包括以下步骤:
[0005]获取第一文本及第二文本,所述第一文本与所述第二文本的文本相似度小于或等于预设的文本相似度阈值;
[0006]基于文本生成模型的编码器,对所述第一文本和所述第二文本进行向量编码处理,得到所述第一文本对应的第一向量及所述第二文本对应的第二向量;
[0007]基于预设的对比损失函数,根据所述第一向量和所述第二向量确定第一损失值;
[0008]基于所述文本生成模型的向量处理网络,根据输入的目标条件向量及所述第一向量确定目标输出文本
[0009]基于预设的训练损失函数,根据所述目标输出文本及所述第一文本确定第二损失值;
[0010]根据所述第一损失值及所述第二损失值对所述文本生成模型的参数进行调整,得到训练好的文本生成模型。
[0011]第二方面,本申请还提供一种文本生成模型的训练装置,所述文本生成模型的训练装置包括:
[0012]文本获取模块,用于获取第一文本及第二文本,所述第一文本与所述第二文本的文本相似度小于或等于预设的文本相似度阈值;
[0013]向量编码模块,用于基于文本生成模型的编码器,对所述第一文本和所述第二文本进行向量编码处理,得到所述第一文本对应的第一向量及所述第二文本对应的第二向量;
[0014]第一损失计算模块,用于基于预设的对比损失函数,根据所述第一向量和所述第
二向量确定第一损失值;
[0015]向量处理模块,用于基于所述文本生成模型的向量处理网络,根据输入的目标条件向量及所述第一向量确定目标输出文本;
[0016]第二损失计算模块,用于基于预设的训练损失函数,根据所述目标输出文本及所述第一文本确定第二损失值;
[0017]参数调整模块,用于根据所述第一损失值及所述第二损失值对所述文本生成模型的参数进行调整,得到训练好的文本生成模型。
[0018]第三方面,本申请还提供一种计算机设备,所述计算机设备包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的计算机程序,其中所述计算机程序被所述处理器执行时,实现如上述的文本生成模型的训练方法的步骤。
[0019]第四方面,本申请还提供一种存储介质,所述存储介质上存储有计算机程序,其中所述计算机程序被处理器执行时,实现如上述的文本生成模型的训练方法的步骤。
[0020]本申请提供一种文本生成模型的训练方法、装置、设备及存储介质,本申请通过获取第一文本及第二文本,所述第一文本与所述第二文本的文本相似度小于或等于预设的文本相似度阈值;基于文本生成模型的编码器,对所述第一文本和所述第二文本进行向量编码处理,得到所述第一文本对应的第一向量及所述第二文本对应的第二向量;基于预设的对比损失函数,根据所述第一向量和所述第二向量确定第一损失值;基于所述文本生成模型的向量处理网络,根据输入的目标条件向量及所述第一向量确定目标输出文本;基于预设的训练损失函数,根据所述目标输出文本及所述第一文本确定第二损失值;根据所述第一损失值及所述第二损失值对所述文本生成模型的参数进行调整,得到训练好的文本生成模型。通过根据第一文本对应的第一向量及第二文本对应的第二向量计算第一损失值,实现对比式学习,在训练过程中将样本间的相关信息进行考虑及计算,使得训练好的模型能够进一步地区分不同标签生成的文本的差异性,从而提升训练好的文本生成模型在文本生成准确性。
附图说明
[0021]为了更清楚地说明本申请实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0022]图1为本申请的实施例提供的一种文本生成模型的训练方法的流程示意图;
[0023]图2为本申请实施文本生成模型的训练方法的一场景图;
[0024]图3为本申请一实施例提供的文本生成模型的训练装置的示意性框图;
[0025]图4为本申请一实施例涉及的计算机设备的结构示意框图。
具体实施方式
[0026]下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0027]附图中所示的流程图仅是示例说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解、组合或部分合并,因此实际执行的顺序有可能根据实际情况改变。
[0028]本申请实施例提供一种文本生成模型的训练方法、装置、计算机设备及存储介质。其中,该文本生成模型的训练方法可应用于终端设备中,该终端设备可以是平板电脑、笔记本电脑、台式电脑等电子设备。也可以应用于服务器中,该服务器可以是单独的服务器,也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。
[0029]下面结合附图,对本申请的一些实施方式作详细说明。在不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。
[0030]请参照图1,图1为本申请的实施例提供的一种文本生成模型的训练方法的流程示意图。
[0031]如图1所示,该文本生成模型的训练方法包括步骤S101至步骤S106。
[0032]步骤S101、获取第一文本及第二文本,所述第一文本与所述第二文本的文本相似度小于或等于预设的文本相似度阈值。
[0033]示例性的,第一文本及第二文本均为训练文本数据,其中,第一文本与第二文本为不相似的语句,因此,第一文本与第二文本的文本相似度小于或等于预设的文本相似度阈值,以使得文本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本生成模型的训练方法,其特征在于,包括:获取第一文本及第二文本,所述第一文本与所述第二文本的文本相似度小于或等于预设的文本相似度阈值;基于文本生成模型的编码器,对所述第一文本和所述第二文本进行向量编码处理,得到所述第一文本对应的第一向量及所述第二文本对应的第二向量;基于预设的对比损失函数,根据所述第一向量和所述第二向量确定第一损失值;基于所述文本生成模型的向量处理网络,根据输入的目标条件向量及所述第一向量确定目标输出文本;基于预设的训练损失函数,根据所述目标输出文本及所述第一文本确定第二损失值;根据所述第一损失值及所述第二损失值对所述文本生成模型的参数进行调整,得到训练好的文本生成模型。2.如权利要求1所述的文本生成模型的训练方法,其特征在于,所述基于所述文本生成模型的向量处理网络,根据预设的条件向量及所述第一向量确定目标输出文本,包括:基于所述向量处理网络的采样子网络,对所述目标条件向量及所述第一向量进行采样处理;基于所述向量处理网络的解码器,根据采样处理后的目标条件向量及采样处理后的第一向量进行解码处理,得到目标输出文本。3.如权利要求1或2所述的文本生成模型的训练方法,其特征在于,所述基于文本生成模型的编码器,对所述第一文本和所述第二文本进行向量编码处理,得到所述第一文本对应的第一向量及所述第二文本对应的第二向量,包括:基于所述文本生成模型的编码器中的第一编码网络,对所述第一文本进行向量编码处理,得到第一向量;基于所述文本生成模型的编码器中的第二编码网络,对所述第一文本进行向量编码处理,第一向量的关联向量;其中,所述第一编码网络与所述第二编码网络中的节点连接相似度大于或等于预设的连接相似度阈值;所述基于预设的对比损失函数,根据所述第一向量和所述第二向量确定第一损失值,包括:在所述关联向量与所述第一向量的第一向量关联度小于或等于第一向量关联度阈值时,基于所述对比损失函数,根据所述第一向量、所述第二向量及所述关联向量确定所述第一损失值。4.如权利要求3所述的文本生成模型的训练方法,其特征在于,所述方法还包括:在所述第一向量关联度大于所述第一向量关联度阈值时,调整所述第二编码网络中的节点连接;基于调整后的第二编码网络,对所述第一文本进行向量编码处理,得到所述关联向量。5.如权利要求3所述的文本生成模型的训练方法,其特征在于,所述方法还包括:获取第三文本,所述第三文本与所述第二文本的文本相似度大于或等于所述文本相似度阈值,且所述第三文本与所述第一文本的文本相似度小于预设相似度阈值;基于文本生成模型的编码器,对所述第三文本进行向量编码处理,得到所述第三文本对应...

【专利技术属性】
技术研发人员:王科强李松岭陈思玥倪渊
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1