应用于智能机器人的语音优化方法及装置制造方法及图纸

技术编号:14781987 阅读:149 留言:0更新日期:2017-03-10 00:53
本发明专利技术公开了一种应用于智能机器人的语音优化方法及装置,该方法包括:获取用户的多模态输入数据;响应该多模态输入数据生成文本信息;在确定满足设定的触发规则时,对所述文本信息进行文本分析,并根据分析结果查询相应的媒体文件和应答信息;将所述媒体文件与TTS系统生成的响应所述应答信息的TTS语音按设定规则输出。本发明专利技术通过将媒体文件与TTS语音相结合输出,使机器人语音输出更具有人类语言的特点、韵律良好,让用户感觉舒服,提高机器人能力,满足用户的交互需求。

【技术实现步骤摘要】

本专利技术涉及智能机器人领域,尤其涉及一种应用于智能机器人的语音优化方法及装置
技术介绍
随着智能机器人产品的逐渐普及,更多的智能机器人走进家庭,成为孩子的玩伴和大人的管家。现有的智能机器人已经能够与用户通过语言交流的方式回答用户的问题或者进行简单的聊天,但是由于技术上的限制,机器人在与用户进行语言交流时发出的声音还是以机器声音为主,声音较为强硬且不带有感情,因此,现有的人机交互过程会给用户带来不好的体验。因此,亟需提供一种解决方案,该方案能够优化声音体验,让与机器人进行交互的用户感觉舒服,提高智能机器人的交互能力,满足用户的交互需求。
技术实现思路
本专利技术所要解决的技术问题之一是需要提供一种能够优化声音体验,使机器人语音输出更具有人类语言的特点,提高智能机器人的交互能力的应用于智能机器人的语音优化方法及装置。为了解决上述技术问题,本申请的实施例首先提供了一种应用于智能机器人的语音优化方法,包括:获取用户的多模态输入数据;响应该多模态输入数据生成文本信息;对所述文本信息进行文本分析,并根据分析结果查询相应的应答信息;在确定满足设定的触发规则时,将相应的媒体文件与TTS系统生成的响应所述应答信息的TTS语音按照设定规则输出。优选地,在如下情况下,确定满足所述设定的触发规则:在接收到来自用户的特定语句信息时;或者,满足设定播放媒体文件的播放时间。优选地,将所述媒体文件与TTS语音合成后输出。优选地,在输出TTS语音之前输出所述媒体文件。根据本专利技术的另一方面,还提供了一种应用于智能机器人的语音优化装置,包括:多模态输入单元,其用于获取用户的多模态输入数据;响应单元,其用于响应该多模态输入数据生成文本信息;分析单元,其用于对所述文本信息进行文本分析,并根据分析结果查询相应的应答信息;语音输出单元,其用于在确定满足设定的触发规则时,将相应的媒体文件与TTS系统生成的响应所述应答信息的TTS语音按照设定规则输出。优选地,在如下情况下,确定满足所述设定的触发规则:在接收到来自用户的特定语句信息时;或者,满足设定播放媒体文件的播放时间。优选地,所述语音输出单元进一步将所述媒体文件与TTS语音合成后输出。优选地,所述语音输出单元进一步在输出TTS语音之前输出所述媒体文件。,与现有技术相比,上述方案中的一个或多个实施例可以具有如下优点或有益效果:本专利技术实施例通过对多模态输入数据进行文本分析,在确定满足设定的触发规则时,获取相应的媒体文件,并将媒体文件与TTS语音按照设定规则输出,能够使机器人语音输出更加具备人类语言的特点,韵律良好,提高用户与智能机器人的交互体验度。本专利技术的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本专利技术的技术方案而了解。本专利技术的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构和/或流程来实现和获得。附图说明附图用来提供对本申请的技术方案或现有技术的进一步理解,并且构成说明书的一部分。其中,表达本申请实施例的附图与本申请的实施例一起用于解释本申请的技术方案,但并不构成对本申请技术方案的限制。图1是根据本专利技术的应用于智能机器人的语音优化方法示例一的流程示意图。图2是根据本专利技术的应用于智能机器人的语音优化方法示例二的流程示意图。图3是根据本专利技术的应用于智能机器人的语音优化装置的实施例的结构框图。具体实施方式以下将结合附图及实施例来详细说明本专利技术的实施方式,借此对本专利技术如何应用技术手段来解决技术问题,并达成相应技术效果的实现过程能充分理解并据以实施。本申请实施例以及实施例中的各个特征,在不相冲突前提下可以相互结合,所形成的技术方案均在本专利技术的保护范围之内。另外,附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行。并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。在现有技术中,智能机器人与用户进行多模态语音交互时,往往仅是根据TTS系统生成语音交互信息,该语音较为机器化,且较为生硬,给人的感觉不舒服。因此,为了使智能机器人发出的声音具备人类声音的特点,具有韵律,本专利技术实施例提供了一种应用于智能机器人的语音优化方法。第一实施例图1是根据本专利技术实施例的应用于智能机器人的语音优化方法示例一的流程示意图。下面参考图1对本实施例方法的各个步骤进行说明。在步骤S110中,获取用户的多模态输入数据。需要说明的是,多模态输入数据主要包括音频数据、视频数据、图像数据以及用于使机器人能够输出一定动作或执行软件或硬件的程序指令。多模态输入数据的组合比较复杂,通过对多模态输入数据进行分析能够得到可靠或是有意义的结果,确定多模态数据发出者的真实意图。在本例中,可以通过智能机器人的图像采集系统(例如摄像头)、语音输入系统(例如麦克风)等来获取多模态输入数据。例如,在用户与机器人进行语音交互时,用户向机器人发出语音信息,未知语音信号经麦克风、话筒之类的语音信号采集设备变换成电信号后输入到识别系统的输入端再进行处理。在步骤S120中,响应该多模态输入数据生成文本信息。由于本例针对的是如何对语音进行优化,因此,此处以用户发出的语音信息作为多模态输入数据为例,来说明后面的步骤流程。首先,对多模态输入数据进行例如去噪之类的预处理,然后将预处理后的语音信息进行语音识别的综合分析,生成与语音信息对应的文本信息。需要说明的是,语音识别,对于人来说接收到的语音可以立马转换为文字信息,但是对于机器人来说接收到的则是数字信号而已。当有人提问“你好吗?”时,“Ni”这个发音可以是“泥”也可以是“逆”,所以最终要确定是哪个字还需要语音识别技术来实现计算概率的最大化。在本步骤中,首先经过预处理,再根据人的语音特点建立语音模型,对输入的语音信号进行分析,并抽取所需的特征,在此基础上建立语音识别所需的模板。在识别过程中要根据语音识别的模型,将预先存储的语音模板与输入的语音信号的特征进行比较,根据一定的搜索和匹配策略,找出一系列最优的与输入语音匹配的模板。然后根据此模板的定义,通过查表就可以给出识别结果。当然,在其他特殊情况下,多模态输入数据可以是用户输入的图像数据,在本步骤中,可以利用文本扫描器对用户输入的图像数据进行扫描,转换得到与图像中的文字内容对应的文本信息。在步骤S130中,对文本信息进行文本分析,并根据分析结果查询相应的应答信息。在获取识别结果之后,利用自然语言处理技术对识别结果进行语义解析。语义分析,指的是将给定的自然语言转化为反映其意义的某种形式化表示,也就是将人类能够理解的自然语言转化为计算机能够理解的形式语言,做到人与机器的互相沟通。在获得解析结果后,计算该解析结果与已设定的知识库中的内容的语义相似度(问题和问题的相似度),从而在知识库中搜索与解析结果相匹配的数据。然后,根据匹配结果,在语音交互应答数据库中查找与该文本信息相应的应答信息。语音交互应答数据库中存储了对应各种主题的信息内容,通过将文本分析结果中的特定词汇与数据库中的内容进行比对,能够找到相应的应答信息。例如,在对文本信息进行解析后的到“天气真好啊”,其中含有名词“天气”,则可以从语音交互应答数据库中查找到当前时间、当前地点的天气状况信息,例如“今天北本文档来自技高网...
应用于智能机器人的语音优化方法及装置

【技术保护点】
一种应用于智能机器人的语音优化方法,包括:获取用户的多模态输入数据;响应该多模态输入数据生成文本信息;对所述文本信息进行文本分析,并根据分析结果查询相应的应答信息;在确定满足设定的触发规则时,将相应的媒体文件与TTS系统生成的响应所述应答信息的TTS语音按照设定规则输出。

【技术特征摘要】
1.一种应用于智能机器人的语音优化方法,包括:获取用户的多模态输入数据;响应该多模态输入数据生成文本信息;对所述文本信息进行文本分析,并根据分析结果查询相应的应答信息;在确定满足设定的触发规则时,将相应的媒体文件与TTS系统生成的响应所述应答信息的TTS语音按照设定规则输出。2.根据权利要求1所述的语音优化方法,其特征在于,在如下情况下,确定满足所述设定的触发规则:在接收到来自用户的特定语句信息时;或者,满足设定播放媒体文件的播放时间。3.根据权利要求1或2所述的语音优化方法,其特征在于,将所述媒体文件与TTS语音合成后输出。4.根据权利要求1或2所述的语音优化方法,其特征在于,在输出TTS语音之前输出所述媒体文件。5.一种应用于智能机器人的语音优化装置,包括:多模态输入单...

【专利技术属性】
技术研发人员:谢文静
申请(专利权)人:北京光年无限科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1