语音处理设备及语音处理方法技术

技术编号:15401256 阅读:227 留言:0更新日期:2017-05-24 12:16
一种语音处理设备及语音处理方法。该语音处理设备包括:接收单元,用于接收远端信号以及近端信号,远端信号包括多个语音段以及多个语音段中的语音段之间的至少一个非语音段,近端信号包括环境噪声;检测单元,用于检测远端信号中的非语音段长度和语音段长度;计算单元,用于计算包含在近端信号中的环境噪声的噪声特征值;控制单元,用于基于非语音段长度和噪声特征值来控制非语音段长度,使得非语音段长度等于或大于第一阈值;以及输出单元,用于输出输出信号,输出信号包括多个语音段和所控制的非语音段。

Speech processing apparatus and speech processing method

Speech processing apparatus and speech processing method. The speech processing apparatus includes: a receiving unit for receiving remote signal and near end signal, remote signal includes at least one non speech segment between speech segments multiple speech segments and a plurality of speech segments in the near end signal including noise; detection unit for detecting remote signal in non speech segment length and speech segment length; computing unit for calculating the noise characteristics contained in the proximal end of environmental noise in the signal value; the control unit, used to control the non speech segment length non speech segment length and noise characteristics based on the value of the non speech segment length is equal to or greater than the first threshold value; and an output unit for outputting a signal output. The signal including non speech segment multiple speech segments and control.

【技术实现步骤摘要】
语音处理设备及语音处理方法相关申请的交叉引用本申请基于并且要求于2012年12月12日提交的在先日本专利申请第2012-270916号的优先权,其全部内容通过引用合并于此。
本文讨论的实施方式涉及例如一种配置为对输入信号进行控制的语音处理设备、语音处理方法以及语音处理程序。
技术介绍
一种已知的方法是对给定作为输入信号的语音信号进行控制以使得语音信号易于听到。例如,对于老年人,由于听力等随着衰老下降,语音识别能力可能降低。因此,当讲话者使用便携式通信终端等在双向语音通信中以高语速讲话时,对于老年人来说往往变得难以听到语音。应对上述情况的一个最简单的方式是讲话者“缓慢”并且“清晰”地说话,例如,如以下文献中所公开的:TomonoMiki等人,“DevelopmentofRadioandTelevisionReceiverwithSpeechRateConversionTechnology”,CASE#10-03,InstituteofInnovationResearch,HitotsubashiUniversity,2010年4月。换句话说,讲话者逐字地缓慢说话并且在各字之间和各短语之间有清晰的停顿是有效的。然而,在双向语音通信中,难以要求通常说话快的讲话者有意“缓慢”并且“清晰”地说话。鉴于上述情况,例如,日本专利第4460580号公开了一种检测并扩展所接收到的语音信号的语音段以提高其可听度而且缩短非语音段以减小由语音段的扩展引起的延迟的技术。更具体地,当给定输入信号时,检测所给定的输入信号中的语音段即活动话音段和非语音段即非话音段,并且周期性地重复包含在语音段中的语音样本从而在不改变所接收到的语音的音高的情况下控制语速使之降低,由此实现易听度的提高。此外,通过缩短各语音段之间的非语音段,可以使语音段的扩展所引起的延迟最小以便抑制由语音段的扩展导致的迟缓,从而使得双向语音通信能够自然。
技术实现思路
根据实施方式的一方面,一种语音处理设备包括:接收单元,用于接收远端信号以及近端信号,远端信号包括多个语音段以及多个语音段中的语音段之间的至少一个非语音段,近端信号包括环境噪声;检测单元,用于检测远端信号中的非语音段长度和语音段长度;计算单元,用于计算包含在近端信号中的环境噪声的噪声特征值;控制单元,用于基于非语音段长度和噪声特征值来控制非语音段长度,使得非语音段长度等于或大于第一阈值;以及输出单元,用于输出输出信号,输出信号包括多个语音段和所控制的非语音段。根据实施方式的另一方面,一种语音处理方法包括:接收远端信号和近端信号,远端信号包括多个语音段以及多个语音段中的语音段之间的至少一个非语音段,近端信号包括环境噪声;检测远端信号中的非语音段长度和语音段长度;计算包含在近端信号中的环境噪声的噪声特征值;基于非语音段长度和噪声特征值来控制非语音段长度,使得非语音段长度等于或大于第一阈值;以及输出输出信号,输出信号包括多个语音段和所控制的非语音段。本专利技术的目的和优点将借助于权利要求中具体指出的要素及组合而实现和获得。应理解,以上的整体概述和以下的详细描述都是示例性和说明性的并且不限制如所要求保护的本专利技术。本说明书中公开的语音处理设备能够提高听者听到语音的容易程度。附图说明根据结合附图对实施方式的以下描述,这些和/或其他方面和优点将变得明显并且更易于理解,在附图中:图1A是示出从发送侧发送的远端信号的幅度与时间之间的关系的图。图1B是示出作为从发送侧发送的远端信号和接收侧的环境噪声的混合的总信号的幅度与时间之间的关系的图。图2是根据实施方式的语音处理设备的功能框图。图3是根据实施方式的控制单元的功能框图。图4是示出噪声特征值与非语音段长度的控制量之间的关系的图。图5是示出第一远端信号的帧结构的示例的框图。图6是示出由处理单元增大非语音段长度的处理的构思的框图。图7是示出由处理单元减小非语音段长度的处理的构思的框图。图8是示出由语音处理设备执行的语音处理方法的流程图。图9是示出第一远端信号的噪声特征值与调节量之间的关系的图。图10是示出第一远端信号的信噪比(SNR)与调节量之间的关系的图。图11是示出噪声特征值与语音段长度的扩展比之间的关系的图。图12是示出根据实施方式的用作语音处理设备的计算机的硬件配置的图。图13是示出根据实施方式的便携式通信设备的硬件配置的图。具体实施方式下面将参照附图详细描述语音处理设备、语音处理方法以及语音处理程序的实施方式。请注意,下述的实施方式仅是说明性的而不是限制性的。在上述控制语速的方法中,仅考虑到语速的降低,而并未考虑到通过在话音中做出清晰的停顿来提高语音清晰度,因而上述方法在提高可听度方面是不足的。此外,在上述控制语速的技术中,不论在听者所在的近端侧处是否有环境噪声,只是减小非语音段。然而,当在听者处于嘈杂环境(其中存在环境噪声)的情形中进行双向通信的情况下,环境噪声可以使得听者难以听到语音。图1A示出了从发送侧发送的远端信号的幅度的示例,其中幅度随时间变化。图1B示出了作为从发送侧发送的远端信号和接收侧的环境噪声的混合的总信号,其中总信号的幅度随时间变化。在图1A和图1B中,可以例如如下确定远端信号是在活动段还是非语音段。即,当远端信号的幅度小于任意确定的阈值时,则可以确定远端信号在非语音段。另一方面,当远端信号的幅度等于或大于该阈值时,则确定远端信号在语音段。在图1B中,图1A中的非语音段中存在环境噪声。请注意,图1B中也存在背景噪声非语音段,但是背景噪声的幅度比远端信号的幅度小得多,因此没有示出语音段中的背景噪声的幅度。鉴于上述情况,如下所述,专利技术人已经考虑了在生成近端信号的接收侧存在噪声的环境下可能使得在双向通信中难以听到语音的因素。如图1B所示,在语音段的结束部分与非语音段中环境噪声的开始部分之间存在交叠,这使得难以清晰地区分远端信号的结束与非语音段中环境噪声的开始。只有在听者感知到环境噪声持续一段时间之后,听者才注意到其听到的不是远端信号而是环境噪声。在这种情况下,由听者识别的有效的非语音段长度小于图1A中所示的真实的非语音段长度,这使得语音段的界限模糊并且因此发生易听度(可听度)的降低。环境噪声越大,远端信号的幅度越接近环境噪声的幅度,因此有效的非语音段变得越短,这导致听到语音的容易度更大地降低。(第一实施方式)图2是示出根据实施方式的语音处理设备1的功能框图。语音处理设备1包括接收单元2、检测单元3、计算单元4、控制单元5以及输出单元6。接收单元2例如通过有线逻辑硬件电路实现。或者,接收单元2可以是由语音处理设备1中执行的计算机程序实现的功能模块。接收单元2从外部获取从接收侧(语音处理设备1的用户)发送的近端信号以及包括从发送侧(与语音处理设备1的用户进行通信的人)发送的发出的语音的第一远端信号。接收单元2可以接收例如来自连接到语音处理设备1或布置在语音处理设备1中的麦克风(未示出)的近端信号。接收单元2可以经由有线或无线电路接收第一远端信号,并且可以使用连接到语音处理设备1或布置在语音处理设备1中的解码单元(未示出)对第一远端信号进行解码。接收单元2将所接收到的第一远端信号输出给检测单元3和控制单元5。接收单元2将所接收到的近端信号输出给计算单元4。本文档来自技高网
...
语音处理设备及语音处理方法

【技术保护点】
一种语音处理设备,包括:接收单元,用于接收远端信号以及近端信号,所述远端信号包括多个语音段以及所述多个语音段中的语音段之间的至少一个非语音段,所述近端信号包括环境噪声;检测单元,用于检测所述远端信号中的非语音段长度和语音段长度;计算单元,用于计算包含在所述近端信号中的环境噪声的噪声特征值;控制单元,用于基于所述非语音段长度和所述噪声特征值来控制所述非语音段长度,使得所述非语音段长度等于或大于第一阈值;以及输出单元,用于输出输出信号,所述输出信号包括所述多个语音段和所控制的非语音段。

【技术特征摘要】
2012.12.12 JP 2012-2709161.一种语音处理设备,包括:接收单元,用于接收远端信号以及近端信号,所述远端信号包括多个语音段以及所述多个语音段中的语音段之间的至少一个非语音段,所述近端信号包括环境噪声;检测单元,用于检测所述远端信号中的非语音段长度和语音段长度;计算单元,用于计算包含在所述近端信号中的环境噪声的噪声特征值;控制单元,用于基于所述非语音段长度和所述噪声特征值来控制所述非语音段长度,使得所述非语音段长度等于或大于第一阈值;以及输出单元,用于输出输出信号,所述输出信号包括所述多个语音段和所控制的非语音段。2.根据权利要求1所述的设备,其中,所述控制单元进行控制以使得在所述非语音段长度小于所述第一阈值的情况下,根据所述噪声特征值的大小来扩展所述非语音段长度。3.根据权利要求1所述的设备,其中,所述控制单元进行控制以使得在所述非语音段长度等于或大于所述第一阈值的情况下,根据所述噪声特征值的大小来减小所述非语音段长度。4.根据权利要求2所述的设备,其中,所述控制单元基于通过所述接收单元接收到的所述远端信号的接收量与通过所述输出单元输出的所述输出信号的输出量之差来控制所述非语音段长度的扩展比或减小比。5.根据权利要求1所述的设备,其中,所述控制单元根据所述噪声特征值的大小来扩展所述语音段长度。6.根据权利要求1所述的设备,其中,所述计算单元基于所...

【专利技术属性】
技术研发人员:铃木政直大谷猛外川太郎
申请(专利权)人:富士通株式会社
类型:发明
国别省市:日本,JP

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1