语音对话的生成方法、装置、电子设备及存储介质制造方法及图纸

技术编号：33127594 阅读：12 留言：0更新日期：2022-04-17 00:39

本公开提供了一种语音对话的生成方法、装置、电子设备及存储介质，涉及计算机技术领域，尤其涉及语音技术、自然语言处理、计算机视觉等人工智能技术领域。具体实现方案为：对获取的输入语音进行语音识别，以确定输入语音对应的第一文本；对输入语音进行音频特征提取，以确定输入语音对应的第一音频特征；根据第一音频特征及第一文本，确定待生成的答复语句对应的第二文本及第二音频特征；基于第二音频特征及第二文本，生成答复语音。由此，根据输入语音对应的第一音频特征及第一文本，确定第二文本及第二音频特征，从而不仅提高了确定的第二文本的准确性，而且使生成的答复语音更加贴合输入语音对应的说话者的情绪。入语音对应的说话者的情绪。入语音对应的说话者的情绪。

全部详细技术资料下载

【技术实现步骤摘要】
语音对话的生成方法、装置、电子设备及存储介质

[0001]本公开涉及计算机
，尤其涉及语音技术、自然语言处理、计算机视觉等人工智能
，具体涉及一种语音对话的生成方法、装置、电子设备及存储介质。

技术介绍

[0002]随着人工智能技术地不断发展和完善，其已经在与人类日常生活相关的各个领域扮演着极其重要的作用。例如，人工智能已经在语音对话领域取得显著的进步。相关技术中，可以将语音信息转化为文本，并对文本进行语义分析以确定答复文本。由于相关技术中仅根据语音信息中包含的文本这一单一的特征，确定答复文本，从而可能导致最终确定的答复文本的准确性较低，因此，如何提高答复语句的准确性成为重点的研究方向。

技术实现思路

[0003]本公开提供了一种语音对话的生成方法、装置、电子设备及存储介质。
[0004]根据本公开的第一方面，提供了一种语音对话的生成方法，包括：
[0005]对获取的输入语音进行语音识别，以确定所述输入语音对应的第一文本；
[0006]对所述输入语音进行音频特征提取，以确定所述输入语音对应的第一音频特征；
[0007]根据所述第一音频特征及所述第一文本，确定待生成的答复语句对应的第二文本及第二音频特征；
[0008]基于所述第二音频特征及所述第二文本，生成答复语音。
[0009]根据本公开的第二方面，提供了一种语音对话的生成装置，包括：
[0010]第一确定模块，用于对获取的输入语音进行语音识别，以确定所述输入语音对应的第一文本；r/>[0011]第二确定模块，用于对所述输入语音进行音频特征提取，以确定所述输入语音对应的第一音频特征；
[0012]第三确定模块，用于根据所述第一音频特征及所述第一文本，确定待生成的答复语句对应的第二文本及第二音频特征；
[0013]生成模块，用于基于所述第二音频特征及所述第二文本，生成答复语音。
[0014]根据本公开的第三方面，提供了一种电子设备，包括：
[0015]至少一个处理器；以及
[0016]与所述至少一个处理器通信连接的存储器；其中，
[0017]所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如第一方面所述的语音对话的生成方法。
[0018]根据本公开第四方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行如第一方面所述的语音对话的生成方法。
[0019]根据本公开的第五方面，提供了一种计算机程序产品，包括计算机指令，所述计算
机指令在被处理器执行时实现如第一方面所述的语音对话的生成方法的步骤。
[0020]本公开提供的语音对话的生成方法、装置、电子设备及存储介质，存在如下有益效果：
[0021]本公开实施例中，先对获取的输入语音进行语音识别，以确定输入语音对应的第一文本，之后对输入语音进行音频特征提取，以确定输入语音对应的第一音频特征，再根据第一音频特征及第一文本，确定待生成的答复语句对应的第二文本及第二音频特征，最后基于第二音频特征及第二文本，生成答复语音。由此，根据输入语音对应的第一音频特征及第一文本，确定答复语句对应的第二文本及第二音频特征，从而不仅提高了确定的第二文本的准确性，而且可以根据输入语句对应的情绪特征确定答复语句的情绪特征，从而使生成的答复语音更加贴合输入语音对应的说话者的情绪。
[0022]应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0023]附图用于更好地理解本方案，不构成对本公开的限定。其中：
[0024]图1是根据本公开一实施例提供的一种语音对话的生成方法的流程示意图；
[0025]图2是根据本公开又一实施例提供的一种语音对话的生成方法的流程示意图；
[0026]图3是根据本公开又一实施例提供的一种语音对话的生成方法的流程示意图；
[0027]图4是根据本公开一实施例提供的一种语音对话的生成装置的结构示意图；
[0028]图5是用来实现本公开实施例的语音对话的生成方法的电子设备的框图。
具体实施方式
[0029]以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。
[0030]本公开实施例涉及计算机视觉、深度学习等人工智能

[0031]人工智能(Artificial Intelligence)，英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。
[0032]语音技术在计算机领域中的关键技术有自动语音识别技术(Automatic Speech Recognition，ASR)和语音合成技术(Text To Speech，TTS)。让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中语音成为未来最被看好的人机交互方式，语音比其他的交互方式有更多的优势。
[0033]自然语言处理是用计算机来处理、理解以及运用人类语言(如中文、英文等)，它是计算机科学与语言学的交叉学科，又常被称为计算语言学。由于自然语言是人类区别于其他动物的根本标志。没有语言，人类的思维也就无从谈起，所以自然语言处理体现了人工智能的最高任务与境界，也就是说，只有当计算机具备了处理自然语言的能力时，机器才算实现了真正的智能。
[0034]计算机视觉，指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视
觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。
[0035]本公开的技术方案中，所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理，均符合相关法律法规的规定，且不违背公序良俗。
[0036]图1是根据本公开一实施例提供的一种语音对话的生成方法的流程示意图；
[0037]其中，需要说明的是，本实施例的语音对话的生成方法的执行主体为语音对话的生成装置，该装置可以由软件和/或硬件的方式实现，该装置可以配置在电子设备中，电子设备可以包括但不限于终端、服务器端等。
[0038]如图1所示，该语音对话的生成方法包括：
[0039]S101：对获取的输入语音进行语音识别，以确定输入语音对应的第一文本。
[0040]其中，获取的输入语音可以为需要根据语音中包含的内容生成相应的答复文本的语音。输入语音可以为一段连续的语音，例如一个句子、一段话等。
[0041]可选的，可以通过语音采集设备，例如麦克风、本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种语音对话的生成方法，包括：对获取的输入语音进行语音识别，以确定所述输入语音对应的第一文本；对所述输入语音进行音频特征提取，以确定所述输入语音对应的第一音频特征；根据所述第一音频特征及所述第一文本，确定待生成的答复语句对应的第二文本及第二音频特征；基于所述第二音频特征及所述第二文本，生成答复语音。2.如权利要求1所述的方法，其中，所述对所述输入语音进行音频特征提取，以确定所述输入语音对应的第一音频特征，包括：根据所述输入语音中每帧语音对应的第一幅值，确定所述输入语音对应的第二幅值；根据所述第二幅值所属的范围，确定所述输入语音对应的幅值特征。3.如权利要求2所述的方法，其中，所述对所述输入语音进行音频特征提取，以确定所述输入语音对应的第一音频特征，包括：对所述输入语音进行基音检测，以确定所述语音信号对应的频率值；根据所述频率值所属的范围，确定所述输入语音对应的频率特征。4.如权利要求1
‑
3任一所述的方法，其中，所述基于所述第二音频特征及所述第二文本，生成答复语音，包括：获取所述输入语音对应的场景图像；对所述场景图像进行视觉特征提取，以确定所述场景图像对应的视觉特征；根据所述视觉特征，对所述第二文本和/或第二音频特征进行修正；基于修正后的第二音频特征及所述第二文本，生成答复语音。5.如权利要求4所述的方法，其中，所述获取所述输入语音对应的场景图像，包括：响应于监测到采集的语音数据中包含用户语音的情况下，启动图像采集组件，以获取所述输入语音对应的场景图像；或者，根据所述输入语音的获取时间，从采集的视频流中截取与所述输入语音对应的场景图像。6.如权利要求1
‑
3任一所述的方法，其中，在所述确定所述输入语音对应的第一音频特征之后，还包括：根据所述第一音频特征及所述第一文本，确定待生成的答复语句对应的第二文本及所述第二文本中包含的表情符号；在交互设备的显示屏幕上，显示所述第二文本及所述表情符号。7.一种语音对话的生成装置，包括：第一确定模块，用于对获取的输入语音进行语音识别，以确定所述输入语音对应的第一文本；第二确定模块，用于对所述输入语音进行音频特征提取，以确定所述输入语音对应的第一音频特征；第三确定模块，用于根据所述第一音频特征及所述第一文本，确定待生成的答复语句...

【专利技术属性】
技术研发人员：吴文权，吴华，
申请(专利权)人：北京百度网讯科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人