语音识别装置和语音识别方法制造方法及图纸

技术编号:14893725 阅读:81 留言:0更新日期:2017-03-29 03:48
在现有的服务器‑客户端型语音识别装置中,在未回送任意一方的语音识别结果的情况下,需要利用者从头讲话,因而存在利用者的负担较大这样的问题。本发明专利技术的语音识别装置向服务器发送输入语音,接收服务器对已发送的输入语音进行语音识别的结果即第1语音识别结果,进行输入语音的语音识别而得到第2语音识别结果,参照表现输入语音的讲话要素的结构的讲话规则,判定符合第2语音识别结果的讲话规则,根据第1语音识别结果的有无和第2语音识别结果的有无与构成讲话规则的讲话要素的有无之间的对应关系,决定表示未能得到语音识别结果的讲话要素的语音识别状态,与已决定的语音识别状态对应地,生成询问未能得到语音识别结果的讲话要素的应答语句,输出应答语句。

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术涉及对讲出的语音数据进行识别处理的语音识别装置和语音识别方法
技术介绍
在客户端和服务器进行语音识别的现有的语音识别装置例如如专利文献1公开的那样,首先在客户端进行语音识别,在判定为客户端的语音识别结果的识别分数较低,识别精度较差的情况下,在服务器进行语音识别并采用服务器的语音识别结果。并且,在专利文献1中还公开有如下的方法:同时并行地进行客户端的语音识别和服务器的语音识别,比较客户端的语音识别结果的识别分数和服务器的语音识别结果的识别分数,采用识别分数良好的一方作为识别结果。另外,作为在客户端和服务器进行语音识别的另一现有例,在专利文献2中公开有例如将一般名词置换成固有名词的方法,作为服务器发送语音识别结果及一般名词、助词等词类信息,客户端使用接收到的词类信息进行识别结果的修正的方法。现有技术文献专利文献专利文献1:日本特开2009-237439号公报专利文献2:日本专利第4902617号
技术实现思路
专利技术要解决的问题在现有的服务器-客户端型语音识别装置中,在服务器、客户端中的任意一方未回送语音识别结果的情况下,将不能对利用者通知语音识别结果,即使能通知也仅是一方的结果。在这种情况下,虽然语音识别装置能够催促再次讲话,但是,在现有的语音识别装置中需要利用者从头讲话,因而存在利用者的负担较大这样的问题。本专利技术正是为了解决如上所述的问题而完成的,提供一种语音识别装置,即使在服务器、客户端中的任意一方未回送语音识别结果的情况下,也能够对讲话的一部分催促再次讲话,使得利用者的负担减小。用于解决问题的手段为了解决以上所述的问题,本专利技术的语音识别装置具有:发送部,其向服务器发送输入语音;接收部,其接收服务器对由发送部发送的输入语音进行语音识别的结果即第1语音识别结果;语音识别部,其进行输入语音的语音识别而得到第2语音识别结果;讲话规则存储部,其存储表现输入语音的讲话要素的结构的讲话规则;讲话规则判定部,其参照讲话规则判定符合第2语音识别结果的讲话规则;状态决定部,其存储有第1语音识别结果的有无和第2语音识别结果的有无与构成讲话规则的讲话要素的有无之间的对应关系,根据对应关系决定表示未能得到语音识别结果的讲话要素的语音识别状态;应答语句生成部,其与由状态决定部决定的语音识别状态对应地,生成询问未能得到语音识别结果的讲话要素的应答语句;以及输出部,其输出应答语句。专利技术效果本专利技术发挥如下的效果:即使在从服务器或者客户端中的任意一方未能得到语音识别结果的情况下,也能够通过判定未能得到语音识别结果的部分而让利用者再次讲出该部分,减小利用者的负担。附图说明图1是示出使用本专利技术的实施方式1的语音识别装置的语音识别系统的一个结构例的结构图。图2是示出本专利技术的实施方式1的语音识别装置的处理流程的流程图(前半部分)。图3是示出本专利技术的实施方式1的语音识别装置的处理流程的流程图(后半部分)。图4是本专利技术的实施方式1的语音识别装置的讲话规则存储部存储的讲话规则的一例。图5是说明服务器的语音识别结果和客户端的语音识别结果的整合的说明图。图6是示出语音识别状态、客户端的语音识别结果的有无、服务器的语音识别结果的有无以及讲话规则之间的对应关系的图。图7是示出语音识别状态与生成的应答语句之间的关系的图。图8是示出讲话规则的讲话要素的确定状态与语音识别状态之间的对应关系的图。具体实施方式实施方式1图1是示出使用本专利技术的实施方式1的语音识别装置的语音识别系统的一个结构例的结构图。语音识别系统由语音识别服务器101和客户端的语音识别装置102构成。语音识别服务器101具有接收部103、语音识别部104、发送部105。接收部103从语音识别装置102接收语音数据。服务器的语音识别部104对接收到的语音数据进行语音识别而输出第1语音识别结果。发送部105将从语音识别部104输出的第1语音识别结果发送给语音识别装置102。另一方面,客户端的语音识别装置102具有语音输入部106、语音识别部107、发送部108、接收部109、识别结果整合部110、状态决定部111、应答语句生成部112、输出部113、讲话规则判定部114、讲话规则存储部115。语音输入部106是具有传声器等的设备,将利用者讲出的语音转换成数据信号即所谓的语音数据。另外,语音数据使用将收音设备取得的声音信号数字化而得到的PCM(PulseCodeModulation:脉冲码调制)数据等。语音识别部107对从语音输入部106输入的语音数据进行语音识别而输出第2语音识别结果。语音识别装置102例如由微处理器或DSP(DigitalSignalProcessor:数字信号处理器)构成。语音识别装置102可以具有讲话规则判定部114、识别结果整合部110、状态决定部111、应答语句生成部112等的功能。发送部108是将输入的语音数据发送给语音识别服务器101的发送机。接收部109是接收从语音识别服务器101的发送部105发送的第1语音识别结果的接收机。发送部108和接收部109例如使用无线收发机或有线收发机。讲话规则判定部114从语音识别部107输出的第2语音识别结果中提取关键字,判定输入语音的讲话规则。讲话规则存储部115是存储有输入语音的讲话规则的模式的数据库。识别结果整合部110根据由讲话规则判定部114判定出的讲话规则、接收部109从语音识别服务器101接收到的第1语音识别结果以及来自语音识别部107的第2语音识别结果,进行后述的语音识别结果的整合。然后,识别结果整合部110输出语音识别结果的整合结果。整合结果包含第1语音识别结果的有无和第2语音识别结果的有无的信息。状态决定部111根据从识别结果整合部110输出的整合结果中包含的客户端和服务器的语音识别结果的有无的信息,判定是否能够确定给系统的命令。在给系统的命令不确定的情况下,状态决定部111决定整合结果对应的语音识别状态。然后,状态决定部111将已决定的语音识别状态输出给应答语句生成部112。并且,在给系统的命令确定的情况下,向系统输出已确定的命令。应答语句生成部112生成与状态决定部111输出的语音识别状态对应的应答语句,将应答语句输出给输出部113。输出部113是将输入的应答语句输出给显示器等的显示器驱动装置、将应答语句作为语音输出的扬声器或者界面设备。下面,参照图2和图3对实施方式1的语音识别装置102的动作进行说明。图2和图3是示出实施方式1的语音识别装置的处理流程的流程图。首先,在步骤S101中,语音输入部106通过传声器等将利用者讲出的语音转换成语音数据,然后向语音识别部107和发送部108输出语音数据。然后,在步骤S102中,发送部108将从语音输入部106输入的语音数据发送给语音识别服务器101。以下的步骤S201~步骤S203是语音识别服务器101的处理。首先,在步骤S201中,语音识别服务器101在接收部103接收到从客户端的语音识别装置102发送的语音数据时,将接收到的语音数据输出给服务器的语音识别部104。然后,在步骤S202中,服务器的语音识别部104对从接收部103输入的语音数据进行以任意的句子为识别对象的自由语句的语音识别,将由此得到的识别结果的文本信息输出给发送部105。自由语句的语本文档来自技高网...
语音识别装置和语音识别方法

【技术保护点】
一种语音识别装置,该语音识别装置具有:发送部,其向服务器发送输入语音;接收部,其接收所述服务器对由所述发送部发送的所述输入语音进行语音识别的结果即第1语音识别结果;语音识别部,其进行所述输入语音的语音识别而得到第2语音识别结果;讲话规则存储部,其存储表现所述输入语音的讲话要素的结构的讲话规则;讲话规则判定部,其参照所述讲话规则判定符合所述第2语音识别结果的所述讲话规则;状态决定部,其存储有所述第1语音识别结果的有无和所述第2语音识别结果的有无与构成所述讲话规则的所述讲话要素的有无之间的对应关系,根据所述对应关系决定表示未能得到语音识别结果的所述讲话要素的语音识别状态;应答语句生成部,其与由所述状态决定部决定的所述语音识别状态对应地,生成询问未能得到语音识别结果的所述讲话要素的应答语句;以及输出部,其输出所述应答语句。

【技术特征摘要】
【国外来华专利技术】2014.07.23 JP 2014-1497391.一种语音识别装置,该语音识别装置具有:发送部,其向服务器发送输入语音;接收部,其接收所述服务器对由所述发送部发送的所述输入语音进行语音识别的结果即第1语音识别结果;语音识别部,其进行所述输入语音的语音识别而得到第2语音识别结果;讲话规则存储部,其存储表现所述输入语音的讲话要素的结构的讲话规则;讲话规则判定部,其参照所述讲话规则判定符合所述第2语音识别结果的所述讲话规则;状态决定部,其存储有所述第1语音识别结果的有无和所述第2语音识别结果的有无与构成所述讲话规则的所述讲话要素的有无之间的对应关系,根据所述对应关系决定表示未能得到语音识别结果的所述讲话要素的语音识别状态;应答语句生成部,其与由所述状态决定部决定的所述语音识别状态对应地,生成询问未能得到语音识别结果的所述讲话要素的应答语句;以及输出部,其输出所述应答语句。2.根据权利要求1所述的语音识别装置,其中,所述语音识别装置具有整合结果识别部,该整合结果识别部使用所述讲话规则对所述第1语音识别结果和所述第2语音识别结果进行整合并输出整合结果,所述状态决定部决定针对所述整合结果的所述语音识别状态。3.根据权利要求1或2所述的语音识别装置,其中,所述讲话规则具有固有名词、命令和自由语句。4.根据权利要求3所述的语音识别装置,其中,所述接收部接收所述服务器对自由语句进行...

【专利技术属性】
技术研发人员:伊谷裕介小川勇
申请(专利权)人:三菱电机株式会社
类型:发明
国别省市:日本;JP

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1