一种语音对话生成方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:29401099 阅读:9 留言:0更新日期:2021-07-23 22:38
本申请公开了一种语音对话生成方法、装置计算机设备和存储介质,属于人工智能技术领域,本申请通过将待答复语料和关联语料进行组合,形成第一文本序列,通过对历史语料进行语料划分,得到与第一文本序列长度相同的第二文本序列,通过对第一文本序列和第二文本序列进行向量转化,并计算第一文本序列和第二文本序列的相似度,将与第一文本序列相似度最大的第二文本序列的下一句语料作为答复语料。此外,本申请还涉及区块链技术,待答复语料和关联语料可存储于区块链中。本申请通过将待答复语料和关联语料进行组合处理,实现了多轮检索的语音答复,能够更好的结合待答复语料的上下文内容,答复语料更接近于真人对话,使用户获得更好的体验。

【技术实现步骤摘要】
一种语音对话生成方法、装置、计算机设备及存储介质
本申请属于人工智能
,具体涉及一种语音对话生成方法、装置、计算机设备和存储介质。
技术介绍
而在销售服务人员的培训过程,通过人工培训的方式通常会花费企业较大的成本,而目前的一些人工智能语音陪练系统虽然能够起到一定的效果,但依旧存在缺陷,现有的语音陪练系统主要分为生成式对话系统或者单轮检索式对话系统,生成式对话系统生成的语音回复结果可控度不高,甚至存在生成语法错误的问题,而单轮检索式对话系统没有很好的结合上下文内容信息,只能处理单轮次的问答任务,输出的语音回复结果准确度不高。
技术实现思路
本申请实施例的目的在于提出一种语音对话生成方法、装置、计算机设备及存储介质,以解决现有语音陪练系统在生成语音答复时存在的没有很好的结合上下文内容信息,输出的语音回复结果准确度不高的技术问题。为了解决上述技术问题,本申请实施例提供一种语音对话生成方法,采用了如下所述的技术方案:一种语音对话生成方法,包括:获取待答复语料,并确定与所述待答复语料具有关联关系的关联语料;对所述待答复语料和所述关联语料进行组合,得到第一文本序列;获取所述第一文本序列的长度,基于所述第一文本序列的长度对预设语料库中的历史语料进行划分,得到第二文本序列;对所述第一文本序列进行向量转化,得到第一句向量序列,以及对所述第二文本序列进行向量转化,得到第二句向量序列;计算所述第一句向量序列和所述第二句向量序列的相似度;将与所述第一文本序列相似度最大的第二文本序列的下一句语料作为答复语料,输出所述答复语料。进一步地,在所述对所述待答复语料和所述关联语料进行组合,得到第一文本序列的步骤之前,还包括:分别对所述待答复语料和所述关联语料进行分词处理,得到分词词组;对所述分词词组进行文本识别,并基于文本识别结果从所述分词词组中去除预先设定的停用词。进一步地,所述获取所述第一文本序列的长度,基于所述第一文本序列的长度对预设语料库中的历史语料进行划分,得到第二文本序列的步骤,具体包括:获取所述第一文本序列的长度,并比对所述第一文本序列的长度与所述历史语料的长度;若所述第一文本序列的长度小于所述历史语料的长度,则基于所述第一文本序列的长度对预设语料库中的历史语料进行划分,得到第二文本序列。进一步地,所述基于所述第一文本序列的长度对预设语料库中的历史语料进行划分,得到第二文本序列的步骤,具体包括:依次从所述历史语料中读取语句,得到待处理语料;当所述待处理语料的长度与所述第一文本序列的长度相等时,将所述待处理语料从所述历史语料中划分出来;历遍所述历史语料,直至将所述历史语料中的所有语句全部划分,得到第二文本序列。进一步地,所述计算所述第一句向量序列和所述第二句向量序列的相似度的步骤,具体包括:分别计算所述第一句向量序列和所述第二句向量序列中每一个相互对应的句向量的相似度;基于每一个相互对应的句向量的相似度确定每一个句向量的权重;基于每一个相互对应的句向量的相似度和所述每一个句向量的权重计算所述第一句向量序列和所述第二句向量序列的相似度。进一步地,所述基于每一个相互对应的句向量的相似度确定每一个句向量的权重的步骤,具体包括:通过以下公式计算每一个相互对应的句向量的权重:其中,aj为第一句向量序列中第j个句向量,bj为第二句向量序列中第j个句向量,cos(aj,bj)为aj和bj的句向量的相似度,Q为句向量的权重。进一步地,所述将与所述第一文本序列相似度最大的第二文本序列的下一句语料作为答复语料,输出所述答复语料的步骤,具体包括:对计算得到的所有相似度进行排序,得到相似度排序结果;基于所述相似度排序结果确定与所述第一文本序列相似度最大的第二文本序列;将与所述第一文本序列相似度最大的第二文本序列的下一句语料作为答复语料,输出所述答复语料。为了解决上述技术问题,本申请实施例还提供一种语音对话生成装置,采用了如下所述的技术方案:一种语音对话生成装置,包括:语料获取模块,用于获取待答复语料,并确定与所述待答复语料具有关联关系的关联语料;语料组合模块,用于对所述待答复语料和所述关联语料进行组合,得到第一文本序列;语料划分模块,用于获取所述第一文本序列的长度,基于所述第一文本序列的长度对预设语料库中的历史语料进行划分,得到第二文本序列;向量转化模块,用于对所述第一文本序列进行向量转化,得到第一句向量序列,以及对所述第二文本序列进行向量转化,得到第二句向量序列;相似度计算模块,用于计算所述第一句向量序列和所述第二句向量序列的相似度;语料生成模块,用于将与所述第一文本序列相似度最大的第二文本序列的下一句语料作为答复语料,输出所述答复语料。为了解决上述技术问题,本申请实施例还提供一种计算机设备,采用了如下所述的技术方案:一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述处理器执行所述计算机可读指令时实现如上述所述的语音对话生成方法的步骤。为了解决上述技术问题,本申请实施例还提供一种计算机可读存储介质,采用了如下所述的技术方案:一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机可读指令,所述计算机可读指令被处理器执行时实现如上述所述的语音对话生成方法的步骤。与现有技术相比,本申请实施例主要有以下有益效果:本申请公开了一种语音对话生成方法、装置、计算机设备和存储介质,属于人工智能
,本申请通过将待答复语料和与待答复语料相关联的关联语料进行组合,形成第一文本序列,并根据第一文本序列的文本长度对预设语料库中的所有历史语料进行语料划分,得到与第一文本序列长度相同的第二文本序列,通过对第一文本序列和第二文本序列进行向量转化,得到第一句向量序列和第二句向量序列,并计算第一文本序列和第二文本序列的相似度,将与第一文本序列相似度最大的第二文本序列的下一句语料作为答复语料。本申请通过将待答复语料和关联语料进行组合处理,实现了多轮检索的语音答复,能够更好的结合待答复语料的上下文内容,答复语料更接近于真人对话,使用户获得更好的体验。附图说明为了更清楚地说明本申请中的方案,下面将对本申请实施例描述中所需要使用的附图作一个简单介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1示出了本申请可以应用于其中的示例性系统架构图;图2示出了根据本申请的语音对话生成方法的一个实施例的流程图;图3示出了根据本申请的语音对话生成装置的一个实施例的结构示意图;图4示出了根据本申请的计算机设备的一个实施例的结构示意图。具体实施方式除非另有定义,本文所使用本文档来自技高网
...

【技术保护点】
1.一种语音对话生成方法,其特征在于,包括:/n获取待答复语料,并确定与所述待答复语料具有关联关系的关联语料;/n对所述待答复语料和所述关联语料进行组合,得到第一文本序列;/n获取所述第一文本序列的长度,基于所述第一文本序列的长度对预设语料库中的历史语料进行划分,得到第二文本序列;/n对所述第一文本序列进行向量转化,得到第一句向量序列,以及对所述第二文本序列进行向量转化,得到第二句向量序列;/n计算所述第一句向量序列和所述第二句向量序列的相似度;/n将与所述第一文本序列相似度最大的第二文本序列的下一句语料作为答复语料,输出所述答复语料。/n

【技术特征摘要】
1.一种语音对话生成方法,其特征在于,包括:
获取待答复语料,并确定与所述待答复语料具有关联关系的关联语料;
对所述待答复语料和所述关联语料进行组合,得到第一文本序列;
获取所述第一文本序列的长度,基于所述第一文本序列的长度对预设语料库中的历史语料进行划分,得到第二文本序列;
对所述第一文本序列进行向量转化,得到第一句向量序列,以及对所述第二文本序列进行向量转化,得到第二句向量序列;
计算所述第一句向量序列和所述第二句向量序列的相似度;
将与所述第一文本序列相似度最大的第二文本序列的下一句语料作为答复语料,输出所述答复语料。


2.如权利要求1所述的语音对话生成方法,其特征在于,在所述对所述待答复语料和所述关联语料进行组合,得到第一文本序列的步骤之前,还包括:
分别对所述待答复语料和所述关联语料进行分词处理,得到分词词组;
对所述分词词组进行文本识别,并基于文本识别结果从所述分词词组中去除预先设定的停用词。


3.如权利要求1所述的语音对话生成方法,其特征在于,所述获取所述第一文本序列的长度,基于所述第一文本序列的长度对预设语料库中的历史语料进行划分,得到第二文本序列的步骤,具体包括:
获取所述第一文本序列的长度,并比对所述第一文本序列的长度与所述历史语料的长度;
若所述第一文本序列的长度小于所述历史语料的长度,则基于所述第一文本序列的长度对预设语料库中的历史语料进行划分,得到第二文本序列。


4.如权利要求3所述的语音对话生成方法,其特征在于,所述基于所述第一文本序列的长度对预设语料库中的历史语料进行划分,得到第二文本序列的步骤,具体包括:
依次从所述历史语料中读取语句,得到待处理语料;
当所述待处理语料的长度与所述第一文本序列的长度相等时,将所述待处理语料从所述历史语料中划分出来;
历遍所述历史语料,直至将所述历史语料中的所有语句全部划分,得到第二文本序列。


5.如权利要求1所述的语音对话生成方法,其特征在于,所述计算所述第一句向量序列和所述第二句向量序列的相似度的步骤,具体包括:
分别计算所述第一句向量序列和所述第二句向量序列中每一个相互对应的句向量的相似度;
基于每一个相互对应的句向量的相似度确定每一个句向量的权重;

【专利技术属性】
技术研发人员:张涛周坤胜曾增烽
申请(专利权)人:中国平安人寿保险股份有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1