对话生成方法、装置、电子设备及介质制造方法及图纸

技术编号：39062912 阅读：26 留言：0更新日期：2023-10-12 19:55

本发明专利技术涉及数字医疗场景下的人工智能技术，揭露一种对话生成方法，包括：提取对话数据集中的对话拼接数据和参考回复数据，根据对话拼接数据和参考回复数据构建训练数据对；将训练数据对中的对话拼接数据输入至对话生成模型中，根据核采样算法生成对话拼接数据对应的多个模型回复；计算多个模型回复与真实回复之间的相似度，得到多个相似度值，基于多个相似度值构建对话生成模型的最终优化损失函数，利用最终优化损失函数对对话生成模型进行训练得到标准生成模型；将待处理数据输入至标准生成模型中，得到待处理数据对应的对话集。本发明专利技术还提出一种对话生成装置、电子设备以及存储介质。本发明专利技术可以提高数字医疗场景下对话生成的效率。的效率。的效率。

全部详细技术资料下载

【技术实现步骤摘要】
对话生成方法、装置、电子设备及介质

[0001]本专利技术涉及人工智能领域，尤其涉及一种对话生成方法、装置、电子设备及存储介质。

技术介绍

[0002]在数字医疗领域中，互联网医院也在普及，患者希望能够在互联网医院中进行问诊并得到准确的回复。在互联网医院问诊的背后，是通过医学对话模型来实现对患者进行回复，其中，医学对话模型可以学习海量的医学文本和医患对话，来模拟医生与患者进行沟通，同时收集症状信息来提供诊断或者提供用药建议。因此，医学对话模型的优化十分重要，现有的优化模型方法通常是通过有监督微调的方法实现，有监督微调的方法需要非常高质量的标注数据去训练模型，以激发大模型的生成能力，但是这种方法对标注数据的要求很高，进而导致对话生成的效率较低。因此，亟待提出一种效率更高的对话生成方法。

技术实现思路

[0003]本专利技术提供一种对话生成方法、装置、电子设备及存储介质，其主要目的在于提高数字医疗场景下对话生成的效率。
[0004]为实现上述目的，本专利技术提供的一种对话生成方法，包括：
[000...

【技术保护点】

【技术特征摘要】
1.一种对话生成方法，其特征在于，所述方法包括：获取对话数据集，提取所述对话数据集中的对话拼接数据和参考回复数据，并根据所述对话拼接数据和所述参考回复数据构建训练数据对；将所述训练数据对中的对话拼接数据输入至预设对话生成模型中，并根据核采样算法生成所述对话拼接数据对应的多个模型回复；利用预设指标公式计算所述多个模型回复与预设真实回复之间的相似度，得到多个相似度值，基于所述多个相似度值构建对话所述生成模型的最终优化损失函数，利用所述最终优化损失函数对所述对话生成模型进行训练处理，得到标准生成模型；将待处理数据输入至所述标准生成模型中，得到所述待处理数据对应的对话集。2.如权利要求1所述的对话生成方法，其特征在于，所述提取所述对话数据集中的对话拼接数据，包括：识别所述对话数据集中不同对话数据对应的对话标识，并根据所述对话标识对所述对话数据集进行数据划分，得到多个对话数据；将所述多个对话数据进行拼接处理，得到对话拼接数据。3.如权利要求1所述的对话生成方法，其特征在于，所述根据核采样算法生成所述对话拼接数据对应的多个模型回复，包括：将所述对话拼接数据输入至所述对话生成模型中，得到多个初始回复；根据预构建的核采样矩阵对所述多个初始回复进行排序处理，得到排序后的初始回复；抽取所述排序后的初始回复中符合预设筛选要求的回复作为筛选回复集，并对所述筛选回复集中的回复进行随机采样，得到多个模型回复。4.如权利要求3所述的对话生成方法，其特征在于，所述根据预构建的核采样矩阵对所述多个初始回复进行排序处理之前，所述方法还包括：获取预设参考阈值和温度参数，根据所述参考阈值和温度参数构造核采样函数；根据所述核采样函数构造对应的核采样矩阵。5.如权利要求3所述的对话生成方法，其特征在于，所述抽取所述排序后的初始回复中符合预设筛选要求的回复作为筛选回复集，包括：识别所述排序后的初始回复中不同初始回复对应的回复概率，并按照排序后的初始回复的顺序对回复的概率进行逐个相加；当逐个相加后的概率相加值大于预设参考阈值时，将相加之前的初始回复作为筛选回复集。6.如权利要求1所述的对话生成方法，其特征在于，所述基于所述多个相似度值构建对话所述生成模型的...

【专利技术属性】
技术研发人员：王世朋，刘佳瑞，姚海申，
申请(专利权)人：平安科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人