语音会话方法、装置、计算机设备和存储介质制造方法及图纸

技术编号：26691787 阅读：21 留言：0更新日期：2020-12-12 02:44

本申请涉及一种语音会话方法、装置、计算机设备和存储介质。该方法包括：获取待生成语音的目标会话文本；对所述目标会话文本进行语义识别，得到所述目标会话文本中的目标分词对应的语义特征向量，基于所述目标分词对应的语义特征向量确定所述目标分词对应的情感韵律标签；确定所述目标会话文本中的语义边界，基于所述语义边界在所述目标会话文本中插入边界文本，得到第一会话文本；将所述第一会话文本以及所述目标分词对应的情感韵律标签输入到语音合成模型中，合成目标会话语音，其中，所述语音合成模型对所述边界文本进行编码，基于编码得到的向量得到所述目标会话语音中的语音停顿信息；输出所述目标会话语音。采用本方法能够提高会话效果。

全部详细技术资料下载

【技术实现步骤摘要】
语音会话方法、装置、计算机设备和存储介质
本申请涉及语音
，特别是涉及一种语音会话方法、装置、计算机设备和存储介质。
技术介绍
随着科学技术的发展，出现了语音合成技术。通过语音技术可以基于文本合成语音，使得会话效率高。例如，在会话时，可以获取会话的文本，基于该文本生成会话语音，控制会话机器人发出该会话语音，使得可以通过会话机器人进行语音会话，然而，会话机器人发出的语音通常是很生硬的，导致会话效果差。
技术实现思路
基于此，有必要针对上述技术问题，提供一种语音会话方法、装置、计算机设备和存储介质。一种语音会话方法，所述方法包括：获取待生成语音的目标会话文本；对所述目标会话文本进行语义识别，得到所述目标会话文本中的目标分词对应的语义特征向量，基于所述目标分词对应的语义特征向量确定所述目标分词对应的情感韵律标签；确定所述目标会话文本中的语义边界，基于所述语义边界在所述目标会话文本中插入边界文本，得到第一会话文本；将所述第一会话文本以及所述目标分词对应的情感韵律标签输入到语音合成模型中，合成目标会话...

【技术保护点】
1.一种语音会话方法，其特征在于，所述方法包括：/n获取待生成语音的目标会话文本；/n对所述目标会话文本进行语义识别，得到所述目标会话文本中的目标分词对应的语义特征向量，基于所述目标分词对应的语义特征向量确定所述目标分词对应的情感韵律标签；/n确定所述目标会话文本中的语义边界，基于所述语义边界在所述目标会话文本中插入边界文本，得到第一会话文本；/n将所述第一会话文本以及所述目标分词对应的情感韵律标签输入到语音合成模型中，合成目标会话语音，其中，所述语音合成模型对所述边界文本进行编码，基于编码得到的向量得到所述目标会话语音中的语音停顿信息；/n输出所述目标会话语音。/n

【技术特征摘要】
1.一种语音会话方法，其特征在于，所述方法包括：
获取待生成语音的目标会话文本；
对所述目标会话文本进行语义识别，得到所述目标会话文本中的目标分词对应的语义特征向量，基于所述目标分词对应的语义特征向量确定所述目标分词对应的情感韵律标签；
确定所述目标会话文本中的语义边界，基于所述语义边界在所述目标会话文本中插入边界文本，得到第一会话文本；
将所述第一会话文本以及所述目标分词对应的情感韵律标签输入到语音合成模型中，合成目标会话语音，其中，所述语音合成模型对所述边界文本进行编码，基于编码得到的向量得到所述目标会话语音中的语音停顿信息；
输出所述目标会话语音。

2.根据权利要求1所述的方法，其特征在于，所述将所述第一会话文本以及所述目标分词对应的情感韵律标签输入到语音合成模型中，合成目标会话语音包括：
将所述第一会话文本以及所述目标分词对应的情感韵律标签输入到语音合成模型中，所述语音合成模型基于所述边界文本所表示的停顿程度进行编码，基于编码得到的向量得到所述目标会话语音中，所述边界文本对应的语音停顿时长。

3.根据权利要求1所述的方法，其特征在于，所述在与目标会话用户进行语音会话的过程中，获取待生成语音的目标会话文本包括：
在与所述目标会话用户进行语音会话的过程中，获取所述目标会话用户对应的用户语音会话消息；
对所述用户语音会话消息进行意图识别，得到目标意图；
基于所述目标意图确定所述用户语音会话消息对应的回复文本，作为待生成语音的目标会话文本。

4.根据权利要求3所述的方法，其特征在于，所述对所述用户语音会话消息进行意图识别，得到目标意图包括：
对所述用户语音会话消息进行文本识别，得到用户文本会话消息；
将所述用户文本会话消息输入到意图识别模型中，所述意图识别模型对所述用户文本会话消息中的分词进行语义识别，得到所述用户文本会话消息对应的会话语义特征，基于所述会话语义特征确定目标意图。

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：
对所述目标会话文本对应的分词进行词语类型识别，得到各个分词对应的目标词语类型；
将所述目标会话文本对应的分词中，目标词语类型为通用词语类型的分词作为所述目标分词。

6.根据权利要求5所述的方法，其特征在于，所述方法还包括：
确定所述目标会话文本对应的分词中，目标词语类型为专用词语类型的专用词语对应的韵律标签添加规则；
基于所述韵律标签添加规则确定所述专用词语对应的情感韵律标签。

7.根据权利要求5所述的方法，其特征在于，所述对所述目标会话文本进行语义识别，得到所述目标会话文本中的目标分词对应的语义特征向量，基于所述目标分词对应的语义特征向量确定所述目标分词对应的情感韵律标签包括：
将所述目标会话文本中的专用词语，替换为对应的专用词语类型的类型标识符，得到替换会话文本；
将所述替换会话文本输入到情感韵律识别模型中，所述情感韵律识别模型对所述替换会话文本中的目标分词进行语义编码，得到所述目标分词对应的语义特征向量，基于所述目标分词对应的语义特征向量确定所述目标分词对应的情感韵律标签。

8.一种语音会话装置，其特征在于，所述装置包括：
目标会话文本获取模块，用于获取待生成语音的目标会话文本；
情感韵律标签确定模块，用于对所述目标...

【专利技术属性】
技术研发人员：刘一帆，刘夏冰，袁丁，刘云峰，
申请(专利权)人：深圳追一科技有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人