随机采样的对话文本生成训练方法、装置及计算机介质制造方法及图纸

技术编号:38751502 阅读:11 留言:0更新日期:2023-09-09 11:18
本发明专利技术涉及人工智能技术,揭露一种可用于医疗诊断领域中对话生成模型训练的随机采样的对话文本生成训练方法、装置、设备及介质,所述方法包括:随机切割对话文本,将切割点之前的文本组成第一训练对话文本,利用对话生成模型生成切割点的预测文本,计算切割点的预测文本与真实文本间的第一误差,将切割点的预测文本替换所述切割点的真实文本,并将替换后的文本中,除最后一句文本之外的所有文本作为第二训练对话文本,利用该模型生成对话文本最后一句文本的预测文本,计算最后一句文本的预测文本与真实文本之间的第二误差,根据第一误差及第二误差训练该预构建的对话生成模型。本发明专利技术可以提升在医疗诊断领域中对话生成模型的准确性。确性。确性。

【技术实现步骤摘要】
随机采样的对话文本生成训练方法、装置及计算机介质


[0001]本专利技术涉及人工智能
,尤其涉及一种基于知识内容和用户行为协同的随机采样的对话文本生成训练方法、装置、设备及计算机可读存储介质。

技术介绍

[0002]医疗领域中常常涉及到诊断对话的生成预测操作、患者咨询操作等,例如,患者在网上对自身病情进行咨询,人工智能对患者进行初步医疗诊断以及生成预测对话。
[0003]当前医疗领域业内在多轮对话生成领域常用的方法是使用层级化的序列生成模型,即使用上下文的信息生成当前句子,通常在模型的训练的过程中,会将训练对话文本的除最后一句以外所有的对话句子作为训练样本,利用训练样本进行最后一句对话文本的预测生成。
[0004]在上述方法中,一方面由于训练样本作为一个整体,通常信息量会比较大,容易导致模型不能快速收敛,另一方面,由于在模型的训练过程中,该训练样本在多次迭代训练中的内容是比较稳定,容易引起模型的过拟合,上述两种情况均会降低模型训练的准确性。

技术实现思路

[0005]本专利技术提供一种随机采样的对话文本生成训练方法、装置及计算机可读存储介质,其主要目的在于提高医疗诊断领域中对话文本生成模型的准确性。
[0006]为实现上述目的,本专利技术提供的一种随机采样的对话文本生成训练方法,包括:
[0007]在预设的对话文本中随机选择一句文本作为切割点,将切割点之间前的文本组成第一训练对话文本,利用预构建的对话生成模型,根据所述第一训练对话文本生成所述切割点的预测文本;r/>[0008]计算所述切割点的预测文本与所述切割点的真实文本之间的第一误差;
[0009]将所述切割点的预测文本替换所述切割点的真实文本,并将替换后的预设的对话文本中,除最后一句文本之外的所有对话文本作为第二训练对话文本,并生成所述预设的对话文本的最后一句文本的预测文本,计算所述最后一句文本的真实文本与所述最后一句文本的预测文本之间的第二误差;
[0010]根据所述第一误差与所述第二误差计算总误差,当所述总误差满足预设条件时,得到对话生成模型;当不满足所述预设条件时,返回所述在预设的对话文本中随机选择一句文本作为切割点的步骤。
[0011]可选地,所述利用预构建的对话生成模型,根据所述第一训练对话文本生成所述切割点的预测文本,包括:
[0012]利用所述对话生成模型的编码器提取所述第一训练对话文本的特征,得到第一训练对话文本对应的特征向量;
[0013]利用所述对话生成模型的解码器,根据所述特征向量生成所述切割点的预测文本。
[0014]可选地,所述计算切割点的预测文本与所述切割点的真实文本之间的第一误差,包括:
[0015]通过下述损失函数计算所述切割点的预测文本与所述切割点的真实文本的误差L(x,y):
[0016][0017]其中,N表示在所述预设的对话文本中切割点总数量,x
n
表示所述第n个切割点的真实文本的向量,y
n
表示所述第n个切割点的预测文本的向量,t表示所述对话生成模型在训练过程中的迭代次数,l
n
表示在第t次迭代训练中x
n
与y
n
之间的误差。
[0018]可选地,所述生成所述预设的对话文本的最后一句文本的预测文本,包括:
[0019]依次对所述第二训练对话文本中每个文本进行向量转换,得到每个所述文本的真实向量;
[0020]利用每个所述文本的真实向量与每个所述文本的预测向量,计算每个所述真实文本与每个所述预测文本的相似度权重;
[0021]利用每个所述真实文本与每个所述预测文本的相似度权重生成所述第二训练对话文本的相似度向量;
[0022]将所述相似度向量与每个所述文本的预测向量相加,得到所述预设的对话文本的最后一句文本的预测文本。
[0023]可选地,所述利用每个所述文本的真实向量与每个所述文本的预测向量,计算每个所述真实文本与每个所述预测文本的相似度权重,包括:
[0024]依次计算每个所述文本的真实向量与对应的预测向量之间的相似度;
[0025]对每个所述相似度进行归一化操作,得到每个所述真实文本与每个所述预测文本的相似度权重。
[0026]可选地,所述对每个所述相似度进行归一化操作,得到每个所述真实文本与每个所述预测文本的相似度权重,包括:
[0027]利用下述预设的激活函数对每个所述相似度进行归一化操作:
[0028][0029]其中,z
i
表示所述第二训练对话文本中的第i个文本的真实向量与预测向量之间的相似度,z
j
表示所述第二训练对话文本中的第j个文本的真实向量与预测向量之间的相似度,Softmax(z
i
)表示所述第二训练对话文本中的第i个真实文本与第i个预测文本的相似度权重。
[0030]可选地,所述利用每个所述文本的相似度权重生成所述第二训练对话文本的相似度向量,包括:
[0031]依次将每个所述文本对应的相似度权重与对应的真实向量相乘,得到每个所述文本的加权向量;
[0032]将每个所述文本的加权向量相加,得到所述第二训练对话文本的相似度向量。
[0033]此外,为实现上述目的,本专利技术还提供一种随机采样的对话文本生成训练装置,所述装置包括:
[0034]第一训练文本生成模块,用于在预设的对话文本中随机选择一句文本作为切割点,将切割点之间前的文本组成第一训练对话文本,利用预构建的对话生成模型,根据所述第一训练对话文本生成所述切割点的预测文本;
[0035]第一误差计算模块,用于计算所述切割点的预测文本与所述切割点的真实文本之间的第一误差;
[0036]第二训练文本生成模块,用于将所述切割点的预测文本替换所述切割点的真实文本,并将替换后的预设的对话文本中,除最后一句文本之外的所有对话文本作为第二训练对话文本;
[0037]第二误差计算模块,生成所述预设的对话文本的最后一句文本的预测文本,计算所述最后一句文本的预测文本与所述最后一句文本的真实文本之间的第二误差;
[0038]模型训练模块,用于根据所述第一误差与第二误差计算得到总误差,利用所述总误差调整所述对话生成模型的模型参数,并返回上述的对预设的对话文本进行随机切割,得到第一训练对话文本的步骤,直到所述总误差满足预设条件时,得到训练好的对话生成模型。
[0039]为了解决上述问题,本专利技术还提供一种电子设备,所述电子设备包括:
[0040]至少一个处理器;以及,
[0041]与所述至少一个处理器通信连接的存储器;其中,
[0042]所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述所述的随机采样的对话文本生成训练方法。
[0043]此外,为实现上述目的,本专利技术还提供一种计算机可本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种随机采样的对话生成训练方法,其特征在于,所述方法包括:在预设的对话文本中随机选择一句文本作为切割点,将切割点之间前的文本组成第一训练对话文本,利用预构建的对话生成模型,根据所述第一训练对话文本生成所述切割点的预测文本;计算所述切割点的预测文本与所述切割点的真实文本之间的第一误差;将所述切割点的预测文本替换所述切割点的真实文本,并将替换后的预设的对话文本中,除最后一句文本之外的所有对话文本作为第二训练对话文本,并生成所述预设的对话文本的最后一句文本的预测文本,计算所述最后一句文本的真实文本与所述最后一句文本的预测文本之间的第二误差;根据所述第一误差与所述第二误差计算总误差,当所述总误差满足预设条件时,得到对话生成模型,当不满足所述预设条件时,返回所述在预设的对话文本中随机选择一句文本作为切割点的步骤。2.如权利要求1所述的随机采样的对话生成训练方法,其特征在于,所述利用预构建的对话生成模型,根据所述第一训练对话文本生成所述切割点的预测文本,包括:利用所述对话生成模型的编码器提取所述第一训练对话文本的特征,得到第一训练对话文本对应的特征向量;利用所述对话生成模型的解码器,根据所述特征向量生成所述切割点的预测文本。3.如权利要求1所述的随机采样的对话文本生成训练方法,其特征在于,所述计算切割点的预测文本与所述切割点的真实文本之间的第一误差,包括:通过下述损失函数计算所述切割点的预测文本与所述切割点的真实文本的误差L(x,y):其中,表示在所述预设的对话文本中切割点总数量,x
n
表示所述第n个切割点的真实文本的向量,y
n
表示所述第n个切割点的预测文本的向量,表示所述对话生成模型在训练过程中的迭代次数,l
n
表示在第t次迭代训练中x
n
与y
n
之间的误差。4.如权利要求1所述的随机采样的对话文本生成训练方法,其特征在于,所述生成所述预设的对话文本的最后一句文本的预测文本,包括:依次对所述第二训练对话文本中每个文本进行向量转换,得到每个所述文本的真实向量;利用每个所述文本的真实向量与每个所述文本的预测向量,计算每个所述真实文本与每个所述预测文本的相似度权重;利用每个所述真实文本与每个所述预测文本生成所述第二训练对话文本的相似度向量;将所述相似度向量与每个所述文本的预测向量相加,得到所述预设的对话文本的最后一句文本的预测文本。5.如权利要求4所述的随机采样的对话文本生成训练方法,其特征在于,所述利用每个所述文本的真实向量与每个所述文本的预测向量,计算每个所述真实文本与每个所述预测
文本的相似度权重,包括:依次计算每个所述文本的真实向量与对应的预...

【专利技术属性】
技术研发人员:舒畅陈又新
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1