一种实现智能语音对话的方法、装置及系统制造方法及图纸

技术编号:21895695 阅读:27 留言:0更新日期:2019-08-17 16:01
本发明专利技术提供一种实现智能语音对话的方法、装置及系统,所述方法包括:接收客户端录制的语音信号;将所述语音信号转化为语音文本;确定所述语音文本对应的语义;确定所述语义对应的语言逻辑;确定所述语言逻辑对应的对话文本;合成所述对话文本对应的音频文件;向客户端发送所述音频文件。应用本发明专利技术实施例,英语学习时间灵活,花费低,对用户回答的限制小,为用户提供了智能的人机交互式的学习体验。

A Method, Device and System for Intelligent Voice Dialogue

【技术实现步骤摘要】
一种实现智能语音对话的方法、装置及系统
本专利技术涉及人工智能
,尤其涉及一种实现智能语音对话的方法、装置及系统。
技术介绍
随着人们对英语学习的重视程度的提高,越来越多的英语学习机构及英语学习软件应运而生。通常,人们为了更好地练习口语,选择付费的线下外教课程,线下外教课程时间固定,学习时间不灵活,花费高;而线上学习软件提供的模拟对话必须按照既定的流程推进,直接提供选项让用户作答,对用户回答的限制很大,无法为用户提供人机交互式的智能学习体验。
技术实现思路
有鉴于此,本专利技术提供一种实现智能语音对话的方法、装置及系统,以解决英语学习时间不灵活,花费高,对用户回答的限制大的问题。为实现上述目的,本专利技术提供技术方案如下:根据本专利技术的第一方面,提出了一种实现智能语音对话的方法,所述方法包括:接收客户端录制的语音信号;将所述语音信号转化为语音文本;确定所述语音文本对应的语义;确定所述语义对应的语言逻辑;确定所述语言逻辑对应的对话文本;合成所述对话文本对应的音频文件;向客户端发送所述音频文件。根据本专利技术的第二方面,提出了一种实现智能语音对话的装置,包括:语音接收模块,用于接收客户端录制的语音信号;文本转化模块,用于将所述语音信号转化为语音文本;语义确定模块,用于确定所述语音文本对应的语义;逻辑确定模块,用于确定所述语义对应的语言逻辑;文本确定模块,用于确定所述语言逻辑对应的对话文本;音频合成模块,用于合成所述对话文本对应的音频文件;音频发送模块,用于向客户端发送所述音频文件。根据本专利技术的第三方面,提出了一种实现智能语音对话的系统,所述系统包括:客户端、服务器;其中,所述客户端,用于接收场景指令,向服务器发送该场景指令;所述服务器,用于基于所述场景指令开启智能语音对话的功能,并基于该场景指令对应的场景向客户端发起首轮对话,当接收到客户端录制的语音信号时,将所述语音信号转化为语音文本,确定所述语音文本对应的语义,确定所述语义对应的语言逻辑,确定所述语言逻辑对应的对话文本,合成所述对话文本对应的音频文件,向客户端发送所述音频文件;所述客户端,还用于接收所述音频文件,播放所述音频文件。由以上技术方案可见,服务器接收客户端录制的语音信号,服务器将语音信号转化为语音文本,并确定语音文本对应的语义,服务器根据语义确定语言逻辑,通过语言逻辑确定对应的对话文本,最终合成对话文本对应的音频文件,向客户端发送音频文件,以使客户端播放该音频文件后发起下一轮的对话,该实现智能语音对话的方法学习时间灵活,花费低,对用户回答的限制小,为用户提供了智能的人机交互式的学习体验。附图说明图1A是本专利技术提供的一个实现智能语音对话的方法的实施例流程图;图1B是图1A方法所适用的服务器的内部结构示意图;图2是本专利技术提供的一个实现智能语音对话的方法的实施例流程图;图3是本专利技术提供的另一个实现智能语音对话的方法的实施例流程图;图4是本专利技术提供的再一个实现智能语音对话的方法的实施例流程图;图5是本专利技术提供的再一个实现智能语音对话的方法的实施例流程图;图6是本专利技术提供的再一个实现智能语音对话的方法的实施例流程图;图7是本专利技术提供的再一个实现智能语音对话的方法的实施例流程图;图8是本专利技术提供的一种服务器的硬件结构图;图9是本专利技术提供的一个实现智能语音对话的装置的实施例框图;图10是本专利技术提供的另一个实现智能语音对话的装置的实施例框图。具体实施方式这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本专利技术相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本专利技术的一些方面相一致的装置和方法的例子。在本专利技术使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本专利技术。在本专利技术和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。应当理解,尽管在本专利技术可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本专利技术范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。图1A是本专利技术提供的一个实现智能语音对话的方法的实施例流程图。该实现智能语音对话的方法可以应用在服务器中,如图1A所示,包括如下步骤:步骤101:接收客户端录制的语音信号。步骤102:将语音信号转化为语音文本。步骤103:确定语音文本对应的语义。步骤104:确定语义对应的语言逻辑。步骤105:确定语言逻辑对应的对话文本。步骤106:合成对话文本对应的音频文件。步骤107:向客户端发送音频文件。在步骤101中,在一实施例中,本领域技术人员可以理解的是,客户端通过屏幕展示至少一个场景任务,场景任务为最终实现某一目的的生活场景,场景任务例如为:在餐厅点一份牛排,在机场获取登机牌,在免税店购物,在酒店办理入住等生活场景。用户通过点击屏幕选择场景任务,客户端接收用户点击屏幕时生成的场景指令,客户端向服务器发送该场景指令,服务器基于该场景指令开启智能语音对话的功能,且服务器基于该场景指令对应的场景,发起首轮对话,以场景任务为“在餐厅点一份牛排”为例,服务器基于该“在餐厅点一份牛排”场景指令对应的场景,发起首轮对话,客户端播放内容为“Whatsteakdoyouwant?”的音频文件,具体在客户端屏幕上的呈现形式可以为:文字提示、图片、动图、小视频等与音频文件的组合。本领域技术人员可以理解的是,通过设置不同的组合方式,可以调节智能对话的难易程度。例如,当音频文件与图片组合呈现时,更加考验用户的听力能力,对话难度较高;当音频文件与文字提示组合呈现时,用户通过阅读文字提示,可以更容易理解语音内容,对话难度较为简单。每轮对话中,客户端通过接收用户的录制指令开启对语音信号的录制,当客户端接收到录制完成的指令时,客户端将录制得到的语音信号发送至服务器。服务器接收客户端录制的语音信号。针对上述提问“Whatsteakdoyouwant?”,例如用户通过客户端录制了内容为“IwantSirloinplease”的语音信号。在步骤102中,在一实施例中,服务器将语音信号转化为语音文本。结合步骤101,服务器将“IwantSirloinplease”的语音信号转化为“IwantSirloinplease”的语音文本。具体的,服务器如何将语音信号转化为语音文本可参考相关技术的描述,在此不作赘述。在步骤103中,在一实施例中,服务器确定语音文本对应的语义。本领域技术人员可以理解的是,当用户的英语水平欠佳,且加之录制的音频效果受环境干扰等因素的影响,服务器基于语音信号转化的语音文本中可能会出现单词缺失、语法错误、断句等问题,因此服务器需要从语音文本中解析出有效的能反映出对话本意的核心内容。结合步骤102,服务器确定“IwantSirloinplease本文档来自技高网...

【技术保护点】
1.一种实现智能语音对话的方法,其特征在于,所述方法包括:接收客户端录制的语音信号;将所述语音信号转化为语音文本;确定所述语音文本对应的语义;确定所述语义对应的语言逻辑;确定所述语言逻辑对应的对话文本;合成所述对话文本对应的音频文件;向客户端发送所述音频文件。

【技术特征摘要】
1.一种实现智能语音对话的方法,其特征在于,所述方法包括:接收客户端录制的语音信号;将所述语音信号转化为语音文本;确定所述语音文本对应的语义;确定所述语义对应的语言逻辑;确定所述语言逻辑对应的对话文本;合成所述对话文本对应的音频文件;向客户端发送所述音频文件。2.根据权利要求1所述的方法,其特征在于,所述确定所述语音文本对应的语义包括:基于第一预设选取规则,选取所述语音文本中的至少一个关键词;基于所述至少一个关键词确定语义。3.根据权利要求1所述的方法,其特征在于,所述确定所述语义对应的语言逻辑包括:确定所述语义对应的至少一个预设逻辑配置;基于第二预设选取规则,从所述至少一个预设逻辑配置中确定语言逻辑。4.根据权利要求1所述的方法,其特征在于,所述确定所述语言逻辑对应的对话文本包括:基于语言信号确定预设作答规则;基于所述预设作答规则,确定所述语言逻辑对应的对话文本。5.根据权利要求1所述的方法,其特征在于,所述方法还包括:判断所述对话文本是否与预设目标文本一致;若所述对话文本与所述预设目标文本一致时,则结束对话。6.根据权利要求1所述的方法,其特征在于,所述方法还包括:基于预设评分标准,确定所述语音信号的至少一个维度的分值。7.根据权利要求1-6任一所述的方法,其特征在于,所述方法还包括:当接收到求助指令时,基于当前对话文本确...

【专利技术属性】
技术研发人员:翁翔坚林晖刘翔韩旭
申请(专利权)人:上海流利说信息技术有限公司
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1