语音数据中继装置及中继方法、终端装置、语音识别系统制造方法及图纸

技术编号:8131491 阅读:251 留言:0更新日期:2012-12-27 04:03
本发明专利技术提供语音数据中继装置及中继方法、终端装置、语音识别系统,提供品质稳定的语音识别服务。语音数据中继装置(110)当在车载终端(102)和语音识别服务器(104)之间进行中继时,为检查语音识别服务器(104)的语音识别性能变化,在噪音抑制模块(118)中对评价用语音数据进行噪音抑制处理,之后将其发送给语音识别服务器(104),并接收识别结果。然后,语音数据中继装置(110)根据语音识别服务器(104)的识别结果,将在噪音抑制处理中使用的噪音抑制用参数或在从语音识别服务器(104)得到的多个识别结果的综合处理中使用的结果综合用参数的值设为最佳值。据此,即便在语音识别服务器(104)的语音识别性能发生变化的情况下,也能设定恰当的参数。

【技术实现步骤摘要】

本专利技术涉及一种检测语音识别功能的变化,对识别的语音信号进行加工处理以适合语音识别功能的变化的技术。
技术介绍
以往以来,在车载信息设备或移动电话机等的终端装置中,人们为了通过用户的讲话语音进行其操作,一直在开发装入了语音识别功能的设备。近年来,由于数据通信技术的发展,因而将输入到终端装置中的讲话语音经由网络发送给语音识别服务器来作为语音数据,利用语音识别服务器丰富的计算资源,进行更高精度的语音识别的方式正在普及。语 音识别因用户不清晰的讲话或背景噪音等的影响,而总是伴随误识别的风险。在未发觉到误识别的状况下继续设备的操作因为将较大地破坏用户的便利性,所以例如下述专利文献I那样,公示出一种根据讲话语音中含有的噪声量及其噪声发生原因的信息,只将判断为能够语音识别的讲话语音当作语音识别对象的技术。专利文献I日本特开2005-91611号公报(例如参见段落0012)
技术实现思路
如上所述,近年来语音识别服务器作为广泛应用的服务来运营的例子正在增加,提供面向用户使用的终端装置的服务的主体和运营语音识别服务器的主体不同的情形在增多。因此,不知不觉间,没有发现语音识别服务器的语音识别功能已变更的情形发生。另夕卜,因为即便在服务的提供主体和运营主体相同的情况下,语音识别服务器的内部状态(例如处理负荷的大小)也时时刻刻发生变化,所以仍有时难以完全持续掌握语音识别性能的变化。在那种情况下,继续提供对用户的语音识别功能的服务时,例如假设语音识别服务器的语音识别性能因某种原因下降,则无法探测其语音识别性能的下降,在结果上存在给用户提供低品质的语音识别服务的可能性。另外,在为了获得更好的语音识别性能,对从终端装置发送给语音识别服务器的语音数据进行某种加工处理的情况下,还存在因语音识别服务器的语音识别性能发生变化而使加工处理的效果减低,或与不进行加工处理的情形相比进一步使语音识别性能下降的可能性。因此,本专利技术的课题为,提供品质稳定的语音识别服务。为了解决上述课题,本专利技术所涉及的语音数据中继装置当在终端装置和语音识别服务器之间进行中继时,为了对于语音识别服务器,进行语音识别性能的评价而发送识别用语音数据,并从语音识别服务器接收识别结果。然后,语音数据中继装置根据接收到的识别结果,判定语音识别服务器的语音识别性能的变化,在判定为有变化的情况下,将对从终端装置接收到的语音数据的加工处理所使用的参数值,变更为使语音识别性能提高的值。专利技术效果根据本专利技术,可以提供品质稳定的语音识别服务。附图说明图I是表示本实施方式所涉及的语音数据中继装置结构的框图。图2是表示讲话内容已知噪音环境语音数据库一例的图表。图3是表示噪音抑制用参数存储部中所存储的数据一例的图表。图4是表示识别结果履历数据库一例的图表。图5是表示结果综合用参数存储部中所存储的数据一例的图表。图6是表示车载终端结构的框图。图7是用于说明由语音数据中继装置进行的语音数据中继处理的说明图。 图8是表示根据语音识别服务器的评价来变更噪音抑制用参数的处理概要的说明图。图9是表示根据语音识别服务器的评价来变更结果综合用参数的处理概要的说明图。图10是说明由I台语音识别服务器处理I个或多个语音数据时的处理流程例的说明图。图11是说明由多个语音识别服务器处理I个语音数据时的处理流程例的说明图。图12是说明由多个语音识别服务器处理多个语音数据时的处理流程例的说明图。图13是表示讲话内容已知噪音环境语音数据生成方法的说明图。图14是表示由车载终端做出的数据添加处理过程的流程图。图15是表示语音识别服务器的评价处理详细过程的流程图。图16是表示噪音抑制用参数的最佳化处理一例的流程图。图17是作为异例表示具备语音数据中继装置的功能的车载终端结构例的框图。符号说明102、1710车载终端(终端装置)104语音识别服务器110语音数据中继装置112终端装置通信模块(终端通信部)114服务器通信模块(服务器通信部)116讲话内容已知噪音环境语音数据库118噪音抑制模块(数据处理部)120噪音抑制用参数存储部122识别结果综合模块(识别结果综合部)124结果综合用参数存储部126参数变更模块(参数变更部)128履历管理模块(履历管理部)130识别结果履历数据库150、150a 处理部160存储部212麦克风218描绘装置具体实施例方式下面,参照附图,详细说明本专利技术所涉及的语音数据中继装置、终端装置及语音数据中继方法的最佳实施方式。(语音数据中继装置110的概要)对于本实施方式所涉及的语音数据中继装置110中的处理概要,使用图I进行说明。语音数据中继装置110具备终端装置通信模块112、服务器通信模块114、讲话内容已知噪音环境语音数据库116、噪音抑制模块118、噪音抑制用参数存储部120、识别结果综 合模块122、结果综合用参数存储部124、参数变更模块126、履历管理模块128及识别结果履历数据库130。语音数据中继装置110经由终端装置通信模块112,和作为终端装置一例的车载终端102连接,接收从车载终端102所发送的语音数据或环境信息(例如与汽车的行驶环境等有关的信息)。语音数据中继装置110对于接收到的语音数据,在噪音抑制模块118中抑制该语音数据中含有的噪音,将其发送给服务器通信模块114。还有,噪音抑制模块118使用存储在噪音抑制用参数存储部120中的噪音抑制用参数(第I参数),执行噪音抑制处理(加工处理)。该噪音抑制处理例如进行语音数据的语音波形分析来计算分析参数,调整该分析参数的值以便抑制噪音,使用其调整后的分析参数的值来再现语音波形。然后,语音数据中继装置110经由服务器通信模块114对进行语音识别处理的语音识别服务器104发送噪音抑制处理后的语音数据,从语音识别服务器104接收识别结果。接下来,语音数据中继装置110使用存储在结果综合用参数存储部124中的结果综合用参数,对接收到的识别结果进行重新评价(综合),将其评价结果综合结果作为最终的识别结果,经由终端装置通信模块112发送至车载终端102。也就是说,语音数据中继装置110在车载终端102和语音识别服务器104之间进行中继。另外,语音数据中继装置110为了检查语音识别服务器104的语音识别性能的变化,还将存储在讲话内容已知噪音环境语音数据库116中的评价用语音数据,在没有来自车载终端102的语音数据的输入时,按预定的周期输入噪音抑制模块118中,把噪音抑制处理后的评价用语音数据经由服务器通信模块114发送给语音识别服务器104。然后,语音数据中继装置110从语音识别服务器104接收对噪音抑制处理后的评价用语音数据的识别结果。另外,语音数据中继装置110在履历管理模块128中,根据从语音识别服务器104接收到的识别结果,判定在语音识别服务器104的语音识别性能上有没有变化。具体而言,履历管理模块128 —面参照下述识别结果履历数据库130,一面针对识别结果有无变化进行判定,该识别结果履历数据库130将在语音识别服务器104中过去处理过的语音数据和识别结果相关联地存储。履历管理模块128在判定出在语音识别性能上有显著的变化(例如语音识别性能的下降)的情况下,启动参数变更模块126,将存储在噪音抑制用参数存储部120及结果综合用本文档来自技高网...

【技术保护点】
一种语音数据中继装置,连接终端装置和语音识别服务器,该终端装置录制用户讲话中的声音,发送讲话语音来作为语音数据,并且接收所发送的该语音数据的识别结果,输出给上述用户,该语音识别服务器接收来自上述终端装置的语音数据,识别该语音数据,发送其识别结果,该语音数据中继装置的特征为,具备:存储部,存储对上述语音数据进行加工处理时使用的第1参数的值和为了评价上述语音识别服务器的语音识别性能而使用的评价用语音数据;数据处理部,针对上述评价用语音数据,使用上述第1参数的值进行加工处理来生成第1语音数据,针对从上述终端装置接收到的语音数据,使用上述第1参数的值进行加工处理来生成第2语音数据;服务器通信部,将上述第1语音数据发送给上述语音识别服务器,从上述语音识别服务器接收第1识别结果,将上述第2语音数据发送给上述语音识别服务器,从上述语音识别服务器接收第2识别结果;终端通信部,将对上述第2语音数据的上述第2识别结果发送给上述终端装置;以及参数变更部,根据接收到的对上述第1语音数据的识别结果,更新存储在上述存储部中的上述第1参数的值。

【技术特征摘要】
2011.06.22 JP 138318/20111.一种语音数据中继装置,连接终端装置和语音识别服务器,该终端装置录制用户讲话中的声音,发送讲话语音来作为语音数据,并且接收所发送的该语音数据的识别结果,输出给上述用户,该语音识别服务器接收来自上述终端装置的语音数据,识别该语音数据,发送其识别结果,该语音数据中继装置的特征为, 具备 存储部,存储对上述语音数据进行加工处理时使用的第I参数的值和为了评价上述语音识别服务器的语音识别性能而使用的评价用语音数据; 数据处理部,针对上述评价用语音数据,使用上述第I参数的值进行加工处理来生成第I语音数据,针对从上述终端装置接收到的语音数据,使用上述第I参数的值进行加工处理来生成第2语音数据; 服务器通信部,将上述第I语音数据发送给上述语音识别服务器,从上述语音识别服务器接收第I识别结果,将上述第2语音数据发送给上述语音识别服务器,从上述语音识别服务器接收第2识别结果; 终端通信部,将对上述第2语音数据的上述第2识别结果发送给上述终端装置;以及参数变更部,根据接收到的对上述第I语音数据的识别结果,更新存储在上述存储部中的上述第I参数的值。2.如权利要求I所述的语音数据中继装置,其特征为, 上述存储部还存储履历信息,该履历信息是将过去发送给上述语音识别服务器的上述第I语音数据及上述识别结果建立关联后的信息, 上述参数变更部参照上述履历信息,与上述服务器通信部接收到的对上述第I语音数据的识别结果进行比较,在上述接收到的识别结果和上述过去的识别结果不同的情况下,更新上述参数的值。3.如权利要求2所述的语音数据中继装置,其特征为, 具备处理部,执行附加处理、或者卷积处理和上述附加处理的双方,来生成上述评价用语音数据,该附加处理针对在没有噪音的状态下所录制的讲话内容为预先已知的语音数据,附加录制了噪音的噪音数据,该卷积处理按上述终端装置和上述用户的口部之间的传导特性进行过滤。4.如权利要求3所述的语音数据中继装置,其特征为, 上述处理部在上述附加处理中,取得由上述终端装置所录制的上述讲话中的声音之内、没有语音的区间的声音,来作为上述噪音数据,调整上述噪音数据的增益,并生成信噪比不同的上述评价用语音数据。5.如权利要求4所述的语音数据中继装置,其特征为, 上述处理部在上述附加处理中,取得由上述终端装置所录制的上述讲话中的声音之内、语音区间的声音,根据该声音的功率,来调整上述评价用语音数据的语音数据的增益。6.如权利要求I所述的语音数据中继装置,其特征为, 与多个上述语音识别服务器连接, 上述存储部还存储进行下述处理时使用的第2参数的值,该处理将从上述多个语音识别服务器接收到的多个识别结果综合为I个识别结果, 上述语音数据中继装置具备识别结果综合部,该识别结果综合部将从上述多个语音识别服务器接收到的多个识别结果,使用上述第2参数的值来生成I个识别结果, 上述终端通信部将上述识别结果综合部所生...

【专利技术属性】
技术研发人员:大渊康成本间健
申请(专利权)人:歌乐株式会社
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1