一种对话话题生成方法、装置、设备及可读存储介质制造方法及图纸

技术编号:37471235 阅读:22 留言:0更新日期:2023-05-06 09:52
本发明专利技术公开了一种对话话题生成方法、装置、设备及可读存储介质,应用于自然语言处理技术领域,包括:获取待预测对话文本和CUPLoss函数;根据拟正态分布约束待预测对话文本中句子的相关性;根据相关性和待预测对话文本进行话题预测,得到目标话题;调用预测模型对目标话题进行处理,得到待解码摘要;预测模型为根据CUPLoss函数、PEGASUS、SimCSE模型和噪音

【技术实现步骤摘要】
一种对话话题生成方法、装置、设备及可读存储介质


[0001]本专利技术涉及自然语言处理
,特别涉及一种对话话题生成方法、装置、设备及可读存储介质。

技术介绍

[0002]电销场景中,每个销售人员每天会打出很多通电话,只通过个人记录是否需要跟进容易出错同时每个人的跟进标准不同,如果出现销售人员切换更容易导致跟进记录错乱,极大地消耗人力且容易出错,而且有了跟进记录后大部分时间也需要重新看对话的自动语音识别后的文本内容来决定怎么继续跟进,有些已经介绍的内容可以跳过或者抓客户感兴趣的部分进行跟进。但是真实的电销场景有如下三个比较难落地的问题,第一个人工编写对话摘要每个人对话题内容比较难统一就导致高质量的标注数据难以获得;第二个话题数量不好确定,统一通对话,有人的摘要只针对开始和结束的话题内容,有人重点关心说了沟通了什么东西;第三个是不同公司的摘要虽然通话流程差不多到但是通话事件内容容易出现较大的差异,每家公司的数据分布也不太一致,这也导致编写摘要的难度提升。
[0003]因此,如何提高摘要生成速度,进而获得目标句子与客户进行沟通是本领域技术人员需要解决的技术问题。

技术实现思路

[0004]有鉴于此,本专利技术的目的在于提供一种对话话题生成方法、装置、设备及可读存储介质,解决了现有技术中摘要编写难度高,工作效率低的技术问题。
[0005]为解决上述技术问题,本专利技术提供了一种对话话题生成方法,包括:
[0006]获取待预测对话文本和CUPLoss函数;
[0007]根据拟正态分布约束所述待预测对话文本中句子的相关性;其中,所述拟正态分布根据所述待预测对话文本对应的句子特征和待预测句子向量,以及所述CUPLoss函数得到;
[0008]根据所述相关性和所述待预测对话文本进行话题预测,得到目标话题;
[0009]调用预测模型对所述目标话题进行处理,得到待解码摘要;其中,所述预测模型为根据所述CUPLoss函数、PEGASUS和SimCSE模型,以及由原始对话文本和关键词组成的噪音

原始文本得到的模型;
[0010]对所述待解码摘要进行解码,得到目标句子。
[0011]可选的,在所述获取CUPLoss函数之前,还包括:
[0012]通过滑窗和均匀分布采样对训练对话文本集进行处理,得到滑窗句子集;
[0013]对所述滑窗句子集添加位置和角色后,使用所述SimCSE模型进行处理,得到正负样本向量集;
[0014]利用所述正负样本向量集构造所述CUPLoss函数。
[0015]可选的,在所述根据拟正态分布约束所述待预测对话文本中句子的相关性之前,
还包括:
[0016]通过所述SimCSE模型计算所述待预测对话文本对应的所述待预测句子向量。
[0017]可选的,在所述通过预测模型对目标话题进行处理,得到待解码摘要之前,还包括:
[0018]获取key

PEGASUS模型;其中,所述key

PEGASUS模型为根据keybert获取训练对话文本集中每句话的关键词,并利用所述关键词对所述训练对话文本集进行拼接,训练所述PEGASUS模型得到的模型;
[0019]获取所述训练对话文本集中达到预设长度的长句子;
[0020]利用所述SimCSE模型对所述长句子中的每个分句进行向量化表示,然后分别将所述每个分句和所述长句子进行余弦相似度比较,得到代表句;
[0021]根据所述训练对话文本集、所述代表句和所述关键词生成所述噪音

原始文本;
[0022]根据所述噪音

原始文本和所述key

PEGASUS模型构造RECLoss函数;
[0023]利用所述CUPLoss函数和所述RECLoss函数组成损失函数进行联合训练得到所述预测模型。
[0024]可选的,所述根据所述训练对话文本集和所述关键词生成噪音

原始文本,包括:
[0025]通过文本保持不变、非关键词插入和整句替换对所述训练对话文本集和所述代表句中每句话进行处理,生成所述噪音

原始文本。
[0026]可选的,所述根据拟正态分布约束所述待预测对话文本中句子的相关性,包括:
[0027]利用所述CUPLoss函数中的随机参数,以及所述待预测对话文本对应的句子向量,计算句子之间的相关性分数;
[0028]利用第一句子的位置信息和第二句子的位置信息替换正态分布中的随机变量和期望值,利用总对话句子数量和话题上线数的比值替换标准方差,得到所述拟正态分布;
[0029]根据所述拟正态分布和所述相关性分数获得相关性系数。
[0030]可选的,所述根据所述相关性和所述待预测对话文本进行话题预测,得到目标话题,包括:
[0031]根据所述相关性系数在话题集合中的分值进行迭代,得到所述目标话题。
[0032]本专利技术还提供了一种对话话题生成装置,包括:
[0033]待预测对话文本获取模块,用于获取待预测对话文本和CUPLoss函数;
[0034]相关性约束模块,用于根据拟正态分布约束所述待预测对话文本中句子的相关性;其中,所述拟正态分布根据所述待预测对话文本对应的句子特征和待预测句子向量,以及所述CUPLoss函数得到;
[0035]话题预测模块,用于根据所述相关性和所述待预测对话文本进行话题预测,得到目标话题;
[0036]摘要获取模块,用于调用预测模型对所述目标话题进行处理,得到待解码摘要;其中,所述预测模型为根据所述CUPLoss函数、PEGASUS和SimCSE模型,以及由原始对话文本和关键词组成的噪音

原始文本得到的模型;
[0037]解码模块,用于对所述待解码摘要进行解码,得到目标句子。
[0038]本专利技术还提供了一种对话话题生成设备,包括:
[0039]存储器和处理器;其中,所述存储器用于存储计算机程序,所述处理器用于执行所
述计算机程序时实现上述的对话话题生成方法的步骤。
[0040]本专利技术还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述的对话话题生成方法的步骤。
[0041]可见,本专利技术通过获取待预测对话文本和CUPLoss函数;根据拟正态分布约束所述待预测对话文本中句子的相关性;其中,所述拟正态分布根据所述待预测对话文本对应的句子特征和待预测句子向量,以及所述CUPLoss函数得到;根据所述相关性和所述待预测对话文本进行话题预测,得到目标话题;调用预测模型对所述目标话题进行处理,得到待解码摘要;其中,所述预测模型为根据所述CUPLoss函数、PEGASUS和SimCSE模型,以及由原始对话文本和关键词组成的噪音

原始文本得到的模型;利用核采样对所述本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种对话话题生成方法,其特征在于,包括:获取待预测对话文本和CUPLoss函数;根据拟正态分布约束所述待预测对话文本中句子的相关性;其中,所述拟正态分布根据所述待预测对话文本对应的句子特征和待预测句子向量,以及所述CUPLoss函数得到;根据所述相关性和所述待预测对话文本进行话题预测,得到目标话题;调用预测模型对所述目标话题进行处理,得到待解码摘要;其中,所述预测模型为根据所述CUPLoss函数、PEGASUS和SimCSE模型,以及由原始对话文本和关键词组成的噪音

原始文本得到的模型;对所述待解码摘要进行解码,得到目标句子。2.根据权利要求1所述的对话话题生成方法,其特征在于,在所述获取CUPLoss函数之前,还包括:通过滑窗和均匀分布采样对训练对话文本集进行处理,得到滑窗句子集;对所述滑窗句子集添加位置和角色后,使用所述SimCSE模型进行处理,得到正负样本向量集;利用所述正负样本向量集构造所述CUPLoss函数。3.根据权利要求1所述的对话话题生成方法,其特征在于,在所述根据拟正态分布约束所述待预测对话文本中句子的相关性之前,还包括:通过所述SimCSE模型计算所述待预测对话文本对应的所述待预测句子向量。4.根据权利要求1至3任一项所述的对话话题生成方法,其特征在于,在所述通过预测模型对目标话题进行处理,得到待解码摘要之前,还包括:获取key

PEGASUS模型;其中,所述key

PEGASUS模型为根据keybert获取训练对话文本集中每句话的关键词,并利用所述关键词对所述训练对话文本集进行拼接,训练所述PEGASUS模型得到的模型;获取所述训练对话文本集中达到预设长度的长句子;利用所述SimCSE模型对所述长句子中的每个分句进行向量化表示,然后分别将所述每个分句和所述长句子进行余弦相似度比较,得到代表句;根据所述训练对话文本集、所述代表句和所述关键词生成所述噪音

原始文本;根据所述噪音

原始文本和所述key

PEGASUS模型构造RECLoss函数;利用所述CUPLoss函数和所述RECLoss函数组成损失函数进行联合训练得到所述预...

【专利技术属性】
技术研发人员:郝培宁蒋林林周柳阳
申请(专利权)人:上海销氪信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1