System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 对话语句重写方法、装置、计算机设备及存储介质制造方法及图纸_技高网

对话语句重写方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:41418057 阅读:5 留言:0更新日期:2024-05-21 20:51
本申请提供一种对话语句重写方法、装置、计算机设备及存储介质,方法包括:获取目标会话中的对话信息;其中,目标会话为第一用户与第二用户之间的会话,对话信息包括第一用户的第一对话语句,以及第二用户的第二对话语句;基于预设的用户编码信息,对第一对话语句和第二对话语句进行编码标记处理,得到对话信息的目标特征向量矩阵;对目标特征向量矩阵进行解码处理,以识别提取出对话信息中的各个最长公共子串,组合得到对话信息的重写语句信息。采用本方法,能够提升对话语句重写准确率,获取完整性较高的对话语句。

【技术实现步骤摘要】

本申请实施例涉及人工智能,特别是涉及一种对话语句重写方法、装置、计算机设备及存储介质


技术介绍

1、随着人工智能技术的飞速发展,特别是语音识别和自然语言理解技术的突破,众多先进的机器学习技术逐渐落地于各类实际生产之中。其中,多轮对话技术作为一门新兴的人机交互方式,突破了键盘鼠标接触交互的限制,更加贴近于人与人的对话交流方式,进而被广泛应用于各种人机交互场景。

2、然而,常见的多轮对话中,因为用户在句子间倾向于使用不完整的表达,通常会忽略对话上下文中出现的实体或概念,即“共指消解”,而超过70%的对话存在“共指消解”,因此用户普遍要求对话系统必须要有“共指消解”的处理能力。但要实现“共指消解”的处理能力,主要方法有基于生成的方法。其中,基于生成的方法大多数采用指针网络或具有复制机制的生成模型,这些模型通过逐字解码来生成重写的句子,但是它们都忽略了一个关键特征,即大部分情况下重写句子的主干结构与原句相同,致使其效果和速度都不理想。

3、因此,现有的对话语句重写技术存在着重写准确率不高的技术问题。


技术实现思路

1、本申请的目的在于提供一种对话语句重写方法、装置、计算机设备及存储介质,用以提升对话语句重写准确率,获取精度更高、表达更完整的重写语句。

2、第一方面,本申请提供一种对话语句重写方法,包括:

3、获取目标会话中的对话信息;其中,目标会话为第一用户与第二用户之间的会话,对话信息包括第一用户的第一对话语句,以及第二用户的第二对话语句

4、基于预设的用户编码信息,对第一对话语句和第二对话语句进行编码标记处理,得到对话信息的目标特征向量矩阵;

5、对目标特征向量矩阵进行解码处理,以识别提取出对话信息中的各个最长公共子串,组合得到对话信息的重写语句信息。

6、在本申请一些实施例中,基于预设的用户编码信息,对第一对话语句和第二对话语句进行编码标记处理,得到对话信息的目标特征向量矩阵,包括:基于预设的加密字符串,对第一对话语句和第二对话语句进行拼接处理,得到拼接后的对话语句;通过已训练的顺序贪心算法模型,分析拼接后的对话语句,得到目标特征向量矩阵。

7、在本申请一些实施例中,已训练的顺序贪心算法模型是由bert输入层、bert编码层、线性转换层以及softmax层构成的;其中,通过已训练的顺序贪心算法模型,分析拼接后的对话语句,得到目标特征向量矩阵,包括:通过bert输入层和bert编码层,分析拼接后的对话语句,得到第一特征向量矩阵;基于预设的用户编码信息,处理第一特征向量矩阵,以对第一对话语句和第二对话语句进行编码标记处理,得到目标特征向量矩阵。

8、在本申请一些实施例中,通过bert输入层和bert编码层,分析拼接后的对话语句,得到第一特征向量矩阵,包括:将拼接后的对话语句输入至bert输入层,得到词嵌入特征向量、片段区分编码特征向量以及位置编码特征向量;将词嵌入特征向量、片段区分编码特征向量以及位置编码特征向量输入至bert编码层,得到第一特征向量矩阵。

9、在本申请一些实施例中,用户编码信息包括对应于第一用户的第一编码信息,以及对应于第二用户的第二编码信息;其中,基于预设的用户编码信息,处理第一特征向量矩阵,以对第一对话语句和第二对话语句进行编码标记处理,得到目标特征向量矩阵,包括:将第一编码信息和第二编码信息,分别与第一特征向量矩阵进行拼接处理,以对第一对话语句和第二对话语句进行编码标记处理,得到第二特征向量矩阵;将第二特征向量矩阵输入至线性转换层,以利用预设的权重矩阵对第二特征向量矩阵进行叠加处理,得到目标特征向量矩阵;其中,目标特征向量矩阵用于被输入至softmax层中进行归一化处理,得到用于预测重写语句信息的概率得分信息。

10、在本申请一些实施例中,在基于预设的用户编码信息,对第一对话语句和第二对话语句进行编码标记处理,得到对话信息的目标特征向量矩阵之前,还包括:构建初始的顺序贪心算法模型,初始的顺序贪心算法模型是由bert输入层、bert编码层、线性转换层以及softmax层构成的;获取对话语句数据集,并将对话语句数据集划分为训练集和测试集;其中,对话语句数据集中包含多组已标注最长公共子串的对话语句;最长公共子串是根据对话语句与对应所需的重写语句确定的;使用训练集,对初始的顺序贪心算法模型进行初步训练,得到初步训练后的顺序贪心算法模型;使用测试集,对初步训练后的顺序贪心算法模型进行测试,得到已训练的顺序贪心算法模型。

11、在本申请一些实施例中,对目标特征向量矩阵进行解码处理,以识别提取出对话信息中的各个最长公共子串,组合得到对话信息的重写语句信息,包括:获取目标特征向量矩阵的概率得分信息;根据概率得分信息,对目标特征向量矩阵进行解码处理,以识别提取出第一对话语句和第二对话语句中的各个最长公共子串,组合得到对话信息的重写语句信息。

12、第二方面,本申请提供一种对话语句重写装置,包括:

13、对话获取模块,用于获取目标会话中的对话信息;其中,目标会话为第一用户与第二用户之间的会话,对话信息包括第一用户的第一对话语句,以及第二用户的第二对话语句;

14、对话处理模块,用于基于预设的用户编码信息,对第一对话语句和第二对话语句进行编码标记处理,得到对话信息的目标特征向量矩阵;

15、对话重写模块,用于对目标特征向量矩阵进行解码处理,以识别提取出对话信息中的各个最长公共子串,组合得到对话信息的重写语句信息。

16、第三方面,本申请还提供一种计算机设备,包括:

17、一个或多个处理器;

18、存储器;以及一个或多个应用程序,其中的一个或多个应用程序被存储于存储器中,并配置为由处理器执行以实现上述对话语句重写方法。

19、第四方面,本申请还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器进行加载,以执行对话语句重写方法中的步骤。

20、第五方面,本申请实施例提供一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述第一方面提供的方法。

21、上述对话语句重写方法、装置、计算机设备及存储介质,服务器通过获取目标会话中第一用户的第一对话语句,以及第二用户的第二对话语句,即可基于预设的用户编码信息,对第一对话语句和第二对话语句进行编码标记处理,得到对话信息的目标特征向量矩阵,然后对目标特征向量矩阵进行解码处理,以识别提取出对话信息中的各个最长公共子串,最终组合得到对话信息的重写语句信息。由此,本申请提出应用可区分对话人的用户编码信息,来从向量解析角度实现不完整话语重写,而非着手于常规性的连接词补全,可有效提升对话语句重写准确率。

本文档来自技高网...

【技术保护点】

1.一种对话语句重写方法,其特征在于,包括:

2.如权利要求1所述的方法,其特征在于,所述基于预设的用户编码信息,对所述第一对话语句和所述第二对话语句进行编码标记处理,得到所述对话信息的目标特征向量矩阵,包括:

3.如权利要求2所述的方法,其特征在于,所述已训练的顺序贪心算法模型是由BERT输入层、BERT编码层、线性转换层以及SoftMax层构成的;

4.如权利要求3所述的方法,其特征在于,所述通过所述BERT输入层和所述BERT编码层,分析所述拼接后的对话语句,得到第一特征向量矩阵,包括:

5.如权利要求3所述的方法,其特征在于,所述用户编码信息包括对应于所述第一用户的第一编码信息,以及对应于所述第二用户的第二编码信息;

6.如权利要求1-5中任一项所述的方法,其特征在于,在所述基于预设的用户编码信息,对所述第一对话语句和所述第二对话语句进行编码标记处理,得到所述对话信息的目标特征向量矩阵之前,还包括:

7.如权利要求1所述的方法,其特征在于,所述对所述目标特征向量矩阵进行解码处理,以识别提取出所述对话信息中的各个最长公共子串,组合得到所述对话信息的重写语句信息,包括:

8.一种对话语句重写装置,其特征在于,包括:

9.一种计算机设备,其特征在于,所述计算机设备包括:

10.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,所述计算机程序被处理器进行加载,以执行权利要求1至7中任一项所述的对话语句重写方法的步骤。

...

【技术特征摘要】

1.一种对话语句重写方法,其特征在于,包括:

2.如权利要求1所述的方法,其特征在于,所述基于预设的用户编码信息,对所述第一对话语句和所述第二对话语句进行编码标记处理,得到所述对话信息的目标特征向量矩阵,包括:

3.如权利要求2所述的方法,其特征在于,所述已训练的顺序贪心算法模型是由bert输入层、bert编码层、线性转换层以及softmax层构成的;

4.如权利要求3所述的方法,其特征在于,所述通过所述bert输入层和所述bert编码层,分析所述拼接后的对话语句,得到第一特征向量矩阵,包括:

5.如权利要求3所述的方法,其特征在于,所述用户编码信息包括对应于所述第一用户的第一编码信息,以及对应于所述第二用户的第二编码信...

【专利技术属性】
技术研发人员:陈云山
申请(专利权)人:顺丰科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1