离线对话实现方法和装置制造方法及图纸

技术编号:20684200 阅读:14 留言:0更新日期:2019-03-27 19:59
本发明专利技术公开离线对话实现方法和装置,其中,一种离线对话实现方法,包括:获取初始化阶段开发者配置的语音功能参数,其中,所述语音功能参数至少包括语法文件路径和启用的语音技术,所述语音技术包括语音识别技术、语义理解技术、对话管理技术和语音合成技术;若开发者启用所述语音识别技术,获取用户的音频数据;基于所述语法文件和所述语音识别技术对所述音频数据进行识别并输出语音识别结果;若开发者未启用所述语音识别技术且启用了所述语义理解技术或对话管理技术,获取用户输入的第一文本信息。本实施例的方案能够实现全链路的离线对话及其定制,方便开发者的个性化定制及用户在无网络状态下的使用。

【技术实现步骤摘要】
离线对话实现方法和装置
本专利技术属于语音对话
,尤其涉及离线对话实现方法和装置。
技术介绍
随着科学技术的发展,语音技术已逐步成为人工智能各领域的核心技术,是实现人机交互的纽带。通过将语音识别(AutomaticSpeechRecongnition,ASR)、自然语言理解(NaturalLanguageUnderstanding,NLU)、语音合成(TextToSpeech,TTS)技术,嵌入以语音交互为核心的人工智能开放平台,实现了人与机器之间的通信,或者将其嵌入以语音交互为核心的对话开放平台(DialogueUserInterface,DUI),设计了一种在线语音对话定制方法,以达到开发者可以定制综合服务的目的。然而,在实现人机交互过程中,由于集成多种功能的繁琐性,以及网络通信的局限性,本文提出了一种全链路离线对话在语音交互中应用方法。语音识别主要是将人所发出的语音内容转换为可供计算机读入的文本信息。该技术是一种综合性的技术,涉及到多个学科领域,如声学、模式识别以及人工智能等。目前,语音识别主要采用基于统计模型的识别技术应用到大量词汇识别系统中,主要包括下列模块:(1)信号处理及特征提取模块,其任务主要是在经过降噪处理过的语音信号中提取特征,用于建立声学模型以及解码过程;(2)统计声学模型通常采用隐马尔科夫模型对词、音节、音素等基本声学单元进行建模,从而生成声学模型;(3)语言模型是在所需的识别语言的单词层面上进行建模,大多数都采用基于统计N元语法(N-gram)的语言模型或者其变体;(4)发音词典包含能处理的所有单词集合,并标明其发音。通过发音词典来构造声学模型的建模单元与语言模型建模单元间的映射关系,组成一个可供解码器使用的状态空间;(5)解码器是负责读取语音信号的特征序列,在声学模型、语言模型及发音词典生成的状态空间中,搜索出最大概率的信号词串。自然语言理解是建立一种计算机模型,使其能够模拟人的交际过程,能够理解人类所使用的自然语言,实现与人之间的通信,给出像人那样理解问题、分析问题,并且回答问题,给出人所需要的结果,以至于可减少人的脑力劳动与体力劳动,从而可行使人的部分行为,包括查询天气、解决问题、闲聊,以及涉及一些由于人类自身局限性不能完成的任务。语音合成又称文语转换,顾名思义是将文本转换为语音,利用计算机等设备将文本信息转换为音频数据,然后用音频播放器播出这些数据。该技术是人机交互过程中的核心之一,其目标是追求计算机输出的声音不仅能够被人所理解、清晰,而且具有亲和力和个性化,主要包括两个模块:语言处理模块负责对输入的文本句子进行分词操作,将短语、词、专有名称、缩略词等单元词汇,将其转为注音符号的表现形式,容易控制与处理;语音处理模块是从语音库中查找每个注音符号的合适实例,然后根据音长、韵律特征,以及停顿时间拼接文本句子对应的所有注音符号的实例,输出一个完整的语音数据流。专利技术人在实现本申请的过程中发现:因为语音识别、自然语言理解、语音合成技术都是单一的技术,只能提供某一功能需求,所以开发者必须将各种技术嵌入到项目中才能实现人机交互功能。然而实现这种语音交互方式,须要开发者进行繁琐的集成操作,从输入音频数据到给出识别结果,然后再进行自然语言处理,给出语义结果,直至对话结果进行合成,才完成一轮人机交互。由此可看出,开发者须要承担大量的工作,不仅导致工作效率低下,而且消耗精力较大,从而申请人基于DUI平台推出了一种集语音识别、自然语言理解,以及语音合成技术于一身的在线语音对话定制方法,开发者仅仅须要输入音频数据即可得到对话结果。由此,不仅减少开发者的工作量,而且明显提高开发效率。除此之外,客户端还可定制说法,而服务端进行实时训练,便于开发者操作,实现各种业务功能,但是在网络受限的情况下,无法实现对话功能。
技术实现思路
本专利技术实施例提供一种离线对话实现方法和装置,用于至少解决上述技术问题之一。第一方面,本专利技术实施例提供一种离线对话实现方法,包括:获取开发者初始化语音库时配置的语音功能参数,其中,所述语音功能参数至少包括语法文件路径和启用的语音技术,所述语音技术包括语音识别技术、语义理解技术、对话管理技术和语音合成技术;若开发者启用所述语音识别技术,获取用户的音频数据;基于所述语法文件和所述语音识别技术对所述音频数据进行识别并输出语音识别结果;以及若开发者未启用所述语音识别技术且启用了所述语义理解技术或所述对话管理技术,获取用户输入的第一文本信息。第二方面,本专利技术实施例提供一种离线对话实现装置,包括:初始化模块,配置为获取开发者初始化语音库时配置的语音功能参数,其中,所述语音功能参数至少包括语法文件路径和启用的语音技术,所述语音技术包括语音识别技术、语义理解技术、对话管理技术和语音合成技术;语音识别模块,配置为若开发者启用所述语音识别技术,获取用户的音频数据;识别结果输出模块,配置为基于所述语法文件和所述语音识别技术对所述音频数据进行识别并输出语音识别结果;以及第一文本获取模块,配置为若开发者未启用所述语音识别技术且启用了所述语义理解技术或所述对话管理技术,获取用户输入的第一文本信息。第三方面,提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本专利技术任一实施例的离线对话实现方法的步骤。第四方面,本专利技术实施例还提供一种计算机程序产品,所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行本专利技术任一实施例的离线对话实现方法的步骤。本申请的方法和装置提供的方案是集成语音识别、语义理解以及语音合成与一体的语音交互方案。与目前单项语音技术相比,该方案不仅可以通过配置参数来选择所需要的语音技术,获得相应的产品运行结果,而且还能够方便集成并应用于语音交互。另外,通过预先下载指定的离线资源包,在无网络场景下,不仅能够实现人机交互,而且无网络耗时,达到较高的运行效率。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术一实施例提供的一种离线对话实现方法的流程图;图2为本专利技术一实施例提供的另一种离线对话实现方法的流程图;图3为本专利技术一实施例提供的又一种离线对话实现方法的流程图;图4为本专利技术一实施例提供的再一种离线对话实现方法的流程图;图5为本专利技术一实施例提供的一种离线对话实现方法的具体示例图;图6为本专利技术一实施例提供的一种离线对话实现装置的框图;图7是本专利技术一实施例提供的电子设备的结构示意图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所本文档来自技高网
...

【技术保护点】
1.一种离线对话实现方法,包括:获取初始化阶段开发者配置的语音功能参数,其中,所述语音功能参数至少包括语法文件路径和启用的语音技术,所述语音技术包括语音识别技术、语义理解技术、对话管理技术和语音合成技术;若开发者启用所述语音识别技术,获取用户的音频数据;基于所述语法文件和所述语音识别技术对所述音频数据进行识别并输出语音识别结果;若开发者未启用所述语音识别技术且启用了所述语义理解技术或对话管理技术,获取用户输入的第一文本信息。

【技术特征摘要】
1.一种离线对话实现方法,包括:获取初始化阶段开发者配置的语音功能参数,其中,所述语音功能参数至少包括语法文件路径和启用的语音技术,所述语音技术包括语音识别技术、语义理解技术、对话管理技术和语音合成技术;若开发者启用所述语音识别技术,获取用户的音频数据;基于所述语法文件和所述语音识别技术对所述音频数据进行识别并输出语音识别结果;若开发者未启用所述语音识别技术且启用了所述语义理解技术或对话管理技术,获取用户输入的第一文本信息。2.根据权利要求1所述的方法,其中,所述方法还包括:若开发者启用所述语义理解技术,对所述语音识别结果或所述第一文本信息进行语义理解并输出语义理解结果;若开发者未启用所述语义理解技术且启用了所述对话管理技术,获取用户输入的第二文本信息。3.根据权利要求2所述的方法,其中,所述方法还包括:若开发者启用所述对话管理技术,对所述语义理解结果或所述第二文本信息进行对话管理处理并输出处理结果;若开发者未启用所述对话管理技术且启用了所述语音合成技术,获取用户输入的合成文本。4.根据权利要求1所述的方法,其中,所述方法还包括:若开发者启用所述对话管理技术,对所述第一文本信息进行对话管理处理并输出处理结果;若开发者未启用所述对话管理技术且启用了所述语音合成技术,获取用户输入的合成文本。5.根据权利要求3或4所述的方法,其中,所述方法还包括:若开发者启用所述语音合成技术,对所述处理结果或所述合成文本进行语音合成并播报语音合成音频。6.根据权利要求5所述的方法...

【专利技术属性】
技术研发人员:宋泽甘津瑞黄川
申请(专利权)人:苏州思必驰信息科技有限公司
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1