自适应的人机语音对话装置和设备、交互系统和车辆制造方法及图纸

技术编号:26973612 阅读:45 留言:0更新日期:2021-01-06 00:07
本发明专利技术涉及一种自适应的人机语音对话装置,包括:语音获取模块,用于获取语音信;语音识别模块,用于生成语音信息对应的文本信息;语义理解模块,用于分析语音信息对应的语义信息;对话管理模块;用于根据语义信息决定对话过程;对话生成模块,用于基于对话过程生成对话文本;其特征在于,所述人机语音对话装置进一步包括:语音片段形成模块,用于从由语音获取模块所获取的语音信息和由语音识别模块所生成的文本信息形成语音片段组;语音合成模块,用于基于所形成的语音片段组和所生成的对话文本合成语音对话。此外,本发明专利技术还包括一种人机语音交互系统、一种车辆以及一种自适应的人机语音对话设备。

【技术实现步骤摘要】
自适应的人机语音对话装置和设备、交互系统和车辆
本专利技术涉及一种自适应的人机语音对话装置、一种人机语音交互系统、一种自适应的人机语音对话设备和一种车辆。本专利技术的实施例涉及对话式交互技术,更具体而言,涉及用通过TTS技术将文本转换自适应地转换成流畅的语音的装置、系统和设备。
技术介绍
当前语音交互的产品,我们称之为ChatBot(聊天机器人),基本分为两种,一种是开放域(OpenDomain)聊天产品;另一种是任务导向(TaskOriented)聊天。以类似“订机票”,“询问天气”这样单一任务为导向的语音聊天互动已经相对比较成熟,并且使用也越来越广泛。但是,现有技术中录制的真人声音模板较为有限,用户无法自行设置音色,更无法获得客制化声音的语音互动服务。因此,如何利用现有语音聊天系统以及配套硬件设备按照用户意图来实现音色等调节功能,以提供更好的用户体验成为一个亟待解决的问题。
技术实现思路
为了解决现有技术的问题,本专利技术实施例提供了一种自适应的人机语音对话装置、一种人机语音交互系统、一种自适应的人机语音对话设备和一种车辆。所述技术方案如下:按照第一方面,本专利技术涉及一种自适应的人机语音对话装置,包括:-语音获取模块,用于获取语音信息;-语音识别模块,用于生成语音信息对应的文本信息;-语义理解模块,用于分析语音信息对应的语义信息;-对话管理模块;用于根据语义信息决定对话过程;-对话生成模块,用于基于对话过程生成对话文本;其特征在于,所述人机语音对话装置进一步包括:-语音片段形成模块,用于从由语音获取模块所获取的语音信息和由语音识别模块所生成的文本信息形成语音片段组;-语音合成模块,用于基于所形成的语音片段组和所生成的对话文本合成语音对话。本专利技术的人机语音对话装置包括一个语音片段形成模块和一个语音合成模块。语音片段形成模块可以从语音获取模块所获取的语音信息和由语音识别模块所生成的文本信息形成个性化的语音片段组。然后,语音合成模块用于基于所形成的语音片段组和所生成的对话文本合成语音对话。因此本专利技术可以提供定制的语音音色作为语音对话或者说播报语音,从而用户可以享用客制化的声音效果,丰富收听体验。优选地,所述语音合成模块包括音色调整模块,所述音色调整模块在生成语音对话时控制语速、音调、音量和音频码率中至少一项。由此,进一步地精细化调整语音对话的效果。优选地,所述语音片段形成模块通过如下方式形成语音片段组:-在由语音识别模块所生成的文本信息中搜索与预设的模板中相同的信息片段;-从由语音获取模块所获取的语音信息截取与所述信息片段对应的语音信息;-将所截取的语音信息与信息片段对应地存储为语音片段组。优选地,所获取的语音信息包括所述用户或他人的语音录音和/或现场谈话,并且特定于个人地形成语音片段组。由此,能够通过简单的方式为用户自身或者他人形成语音片段组,使得能够以用户自身或者他人的声音进行语音对话或语音播报。优选地,语音识别模块用于:通过声学模型和语言模型,利用自动语音识别技术(ASR),将用户的语音识别为文本。优选地,语义理解模块用于:-确定对话中的领域;-分析用户的意图;和-获得对话中的语义信息。优选地,对话管理模块用于:-确定对话上下文;-跟踪对话状态;和-确定对话策略。优选地,所述预设的模板包括语句、短语、单词、字和音素中的至少一项。由此,能够更为贴近于自然语音地形成语音片段组。本专利技术的第二方面提供了一种人机语音交互系统,其特征在于,包括:-一个如前所述的自适应的人机语音对话装置;-至少一个麦克风,用于采集语音信息;和-至少一个扬声器,用于播放语音对话。本专利技术的第三方面提供了一种车辆,其特征在于,所述车辆包括前面所述的人机语音交互系统。按照本专利技术的第四方面提供了一种自适应的人机语音对话设备,所述设备包括:-存储器,存储有计算机可执行指令;以及-处理器,被配置为执行计算机可执行指令,其中,所述计算机可执行指令被所述处理器执行时,使所述自适应的人机语音对话设备执行如下步骤:-获取语音信息;-生成语音信息对应的文本信息;-分析语音信息对应的语义信息;-根据语义信息决定对话过程;-基于对话过程生成对话文本;-从所获取的语音信息和所生成的文本信息形成语音片段组;并且-基于所形成的第二语音片段组和所生成的对话文本合成语音对话。如上所述,根据本专利技术的各个方面,所合成的语音对话可包含用户自己或他人的语音片段。因此通过本专利技术可以提供非预存储的语音音色作为播报语音,从而用户可以享用客制化的声音效果,丰富收听体验。附图说明图1是现有技术中的人机语音对话装置的结构框图;图2是本专利技术的一个实施例的自适应的人机语音对话装置的结构框图;图3是本专利技术的一个实施例的自适应的人机语音对话装置的结构框图;和图4是按照本专利技术的人机对话设备的结构框图。具体实施方式为使本专利技术的上述目的、特征和优点能够更为明显易懂,下面结合附图对本专利技术的具体实施方式做详细的说明。在以下描述中阐述了具体细节以便于充分理解本专利技术。但是本专利技术能够以多种不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本专利技术内涵的情况下做类似推广。因此本专利技术不受下面公开的具体实施方式的限制。表述“和/或”在本文中使用的含义为,包括该表述之前和之后列出的组件中的至少一个。而且,表述“连接/联接”使用的含义为,包括与另一个组件的直接连接,或通过另一个组件而间接连接。本文中的单数形式也包括复数形式,除非在措辞中特别提及。而且,本文中使用的涉及“包括”或“包含”的组件、步骤、操作和元件的含义为,存在或添加至少一个其他的组件、步骤、操作和元件。应理解的是,本文中所用的术语“车辆”或“车辆的”或其他类似术语通常包括机动车辆,如包括运动型多用途车辆(SUV)、大客车、大货车、各种商用车辆的乘用车辆,包括各种舟艇、船舶的船只,航空器等,并包括混合动力车辆、电动车辆、插电式混合动力电动车辆、氢动力车辆和其他替代性的燃料车辆(例如,源于除了石油之外的来源的燃料)。正如本文所提到的,混合动力车辆为具有两种或更多种动力源的车辆,例如汽油动力和电力动力两者的车辆。如本文中所用的,短语“车辆(车载)系统”的含义为,具有无线通信能力的集成信息系统。这些系统有时称为车内信息系统,并且通常与远程信息通信服务、娱乐系统和/或导航系统整合为一体。此外,应当理解的是,术语“控制器”是指包括存储器和处理器的硬件设备。存储器配置为存储程序指令,而处理器配置为执行所述程序指令以执行下面进一步描述的一个或多个过程。图1为现有技术的语音交互装置框图。模块101为语音信息获取功能模块。模块102为语音识别模块。ASR本文档来自技高网...

【技术保护点】
1.自适应的人机语音对话装置(200),包括:/n-语音获取模块(201),用于获取语音信息(11);/n-语音识别模块(202),用于生成语音信息对应的文本信息(12);/n-语义理解模块(203),用于分析语音信息对应的语义信息(13);/n-对话管理模块(204);用于根据语义信息决定对话过程;/n-对话生成模块(205),用于基于对话过程生成对话文本(15);/n其特征在于,所述人机语音对话装置进一步包括:/n-语音片段形成模块(207),用于从由语音获取模块(201)所获取的语音信息(11)和由语音识别模块(202)所生成的文本信息(12)形成语音片段组;/n-语音合成模块(209),用于基于所形成的语音片段组和所生成的对话文本(15)合成语音对话。/n

【技术特征摘要】
1.自适应的人机语音对话装置(200),包括:
-语音获取模块(201),用于获取语音信息(11);
-语音识别模块(202),用于生成语音信息对应的文本信息(12);
-语义理解模块(203),用于分析语音信息对应的语义信息(13);
-对话管理模块(204);用于根据语义信息决定对话过程;
-对话生成模块(205),用于基于对话过程生成对话文本(15);
其特征在于,所述人机语音对话装置进一步包括:
-语音片段形成模块(207),用于从由语音获取模块(201)所获取的语音信息(11)和由语音识别模块(202)所生成的文本信息(12)形成语音片段组;
-语音合成模块(209),用于基于所形成的语音片段组和所生成的对话文本(15)合成语音对话。


2.如权利要求1所述的人机语音对话装置(200),其特征在于,所述语音合成模块(209)包括音色调整模块(208),所述音色调整模块在生成语音对话时控制语速、音调、音量和音频码率中至少一项。


3.如权利要求1或2所述的人机语音对话装置(200),其特征在于,所述语音片段形成模块(207)通过如下方式形成语音片段组:
-在由语音识别模块(202)所生成的文本信息(12)中搜索与预设的模板中相同的信息片段;
-从由语音获取模块(201)所获取的语音信息截取与所述信息片段对应的语音信息;
-将所截取的语音信息与信息片段对应地存储为语音片段组。


4.如权利要求1至3之一所述的人机语音对话装置(200),其特征在于,所获取的语音信息(11)包括所述用户或他人的语音录音和/或现场谈话,并且特定于个人地形成语音片段组。


5.如权利要求1至4之一所述的人机语音对话装置(200),其特征在于,所述语音识别模块(202)用于:
通过声学模型和语言模型利用自动语音识别技术将用户(10)的语音识别为文本。


6.如权利要求1至5之一所述的人机语音对话装置(200),其特征在于,所述语义理解模块(203)用于:
-确定对话中的领域;
-分析用户(10)的意图;和
-获得对话中的语义信息(13)。


7.如权利要求1至6之一所述的人机语音对话装置(200),其特征在于,所述对...

【专利技术属性】
技术研发人员:雷文辉张晓竹朱江周晓颖赖胜G·哈默雷尔孙锡
申请(专利权)人:宝马股份公司
类型:发明
国别省市:德国;DE

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1