当前位置: 首页 > 专利查询>索尼公司专利>正文

语音处理装置、方法和程序制造方法及图纸

技术编号:8981125 阅读:150 留言:0更新日期:2013-07-31 23:12
本发明专利技术提供了一种语音处理装置、方法和程序。该语音处理装置包括:特征量计算部分,从输入语音信号的目标帧中提取特征量;声压估计候选点更新部分,使输入语音信号的多个帧的每个成为声压估计候选点,保持每个声压估计候选点的特征量,并且基于声压估计候选点的特征量和目标帧的特征量,来更新声压估计候选点;声压估计部分,基于声压估计候选点的特征量,计算输入语音信号的估计声压;增益计算部分,基于估计声压,计算应用于输入语音信号的增益;以及增益应用部分,基于增益,执行输入语音信号的增益调节。

【技术实现步骤摘要】

本专利技术涉及语音处理装置、方法和程序,并且更具体地,涉及可以更容易得到合适水平的语音的语音处理装置、方法和程序。
技术介绍
在通过使用诸如IC (集成电路)记录器的记录装置来记录对话、音乐演奏等的情况下,重要的是正确地设置记录灵敏度,使得以合适等级的水平记录所采集语音的输入语音信号。例如,在相对大的会议室中进行的会议中记录对话的情况下,如果记录装置的记录灵敏度被设置得低,则将存在以下情况:语音将被以低水平记录,以致于远处发言者的谈话将很难能够被听到。另一方面,在麦克风靠近某人的嘴部并且他们的口述被保留作为备忘录的情况下,如果记录装置的记录灵敏度被设置得高,则将输入超过可以被记录的上限水平的信号。在这种情况下,将在被记录的语音中出现声音的失真,并且这种失真将变成刺耳的噪声。这样,为了避免以不合适的水平记录语音,通常,记录装置中设置的记录灵敏度被粗略分成3级水平,并且使用自动地将信号水平保持在恒定水平的信号处理技术。这种信号处理技术被称为ALC (自动水平控制)和AGC (自动增益控制)。例如,如图1中所示,记录装置中的记录灵敏度被分成高、中和低三级,并且针对这各个记录灵敏度,将+30dB、+15dB和OdB的值分配作为放大器的放大因子。另外,如图2中所示,例如,总体记录装置的输入系统包括主控制装置11、放大器12、ADC (模数转换器)12和ALC处理部分14。对于这种记录装置,当用户指定记录装置的记录灵敏度的设置时,主控制装置11将已经通过用户所指定的记录灵敏度确定的放大比例设置为放大器12中的放大因子。然后,采集的语音信号被按照放大器12中设置的放大因子放大,被ADC13数字化,此后通过ALC处理部分14控制信号水平。然后,从ALC处理部分14输出具有受控信号水平的信号作为输出语音信号,并且输出语音信号被编码并且在此后被记录。例如,图3的折线ICll示出的信号被输入到ALC处理部分14,并且对这个信号的信号水平执行控制。然后,从ALC处理部分14输出作为这个步骤结果得到的折线OCll所示的信号作为最终输出语音信号。注意的是,在图3中,水平轴表示时间并且垂直轴表示信号水平。另外,图3中的虚线示出最大输入水平,即被获取作为信号水平的值中的最大值。折线ICll表示的信号是输入到记录装置的麦克风、被放大器12放大并且此后被ADC13数字化的信号。因为所记录信号之中的大于最大输入水平(用虚线表示)的水平的一部分被记录于消波状态,所以在再现期间在信号的这个部分中将出现声音失真噪声。因此,针对输入折线ICll表示的信号,在记录装置中执行增益调节,并且作为这个步骤的结果得到 的并且由折线OCll表示的信号被作为输出信号输出。由折线OCll表示的这个信号的水平变得总是小于最大的输入水平,并且理解的是,执行增益调节,使得输出语音信号将是合适水平的信号。在增益调节期间,通过ALC处理部分14实时测量信号水平,并且在信号水平接近最大输入水平的情况下,降低增益,使得信号的水平不超过最大输入水平。然后,在信号没有超过最大输入水平的情况下,增益返回到1.0。如上所述,执行设置记录灵敏度的步骤和由ALC处理部分14进行的增益调节,以避免出现声音失真并且防止所记录的语音太小,以致听不到。然而,存在以下情况:由于记录灵敏度还没被合适设置,以及由于通过ALC (增益调节)得到的声音因外部噪声等的影响是不稳定的声音,导致所记录的语音将在再现期间难以听到。另一方面,在日本专利N0.3367592中提出了一种技术,例如,该技术涉及一种自动增益调节装置,该装置用于尽可能减少外部噪声的影响并且用于以合适水平记录语音。在这种技术中,在一定时间帧内计算功率谱的自动校正和倾斜,以正确地区分语音部分,并且在功率谱的自动校正或倾斜小于阈值的情况下,这个时间帧被视为是不稳定的。通过在计算输入信号的水平时排除这种不稳定的时间帧,也就是说,假设这个时间帧不是语音部分,将语音控制在合适水平。
技术实现思路
然而,在上述技术中,在容易辨别语音和噪声的同时麦克风靠近声源如电话的情况下,在记录装置被置于大房间中并且相当距离处的扬声器发声的情况下,输入语音信号的SN比(信噪比)将是差的,并且不能够准确地检测到语音部分。因此,存在不能够得到合适水平的语音信号作为所记录的语音信号的情况。另外,对于每个时间帧正常计算自动校正等,并且辨别语音和不稳定噪声导致小型记录装置(如,通过电池驱动的记录装置)中的电池消耗加速。鉴于这种情形做出 本专利技术,并且本专利技术可以更容易地得到合适水平的语音。根据本专利技术的实施方式,提供了一种语音处理装置,包括:特征量计算部分,从输入语音信号的目标帧中提取特征量;声压估计候选点更新部分,使输入语音信号的多个帧的每个成为声压估计候选点,保持每个声压估计候选点的特征量,并且基于声压估计候选点的特征量和目标帧的特征量,来更新声压估计候选点;声压估计部分,基于声压估计候选点的特征量,计算输入语音信号的估计声压;增益计算部分,基于估计声压,计算应用于输入语音信号的增益;以及增益应用部分,基于增益,执行输入语音信号的增益调节。特征量计算部分计算至少目标帧中的输入语音信号的声压水平作为特征量。当目标帧的声压水平大于作为声压估计候选点的特征量的声压水平的最小值时,声压估计候选点更新部分丢弃具有最小值的声压估计候选点并且使目标帧成为新的声压估计候选点。特征量计算部分计算表示至少目标帧中出现突发噪声的可能性的突发噪声信息作为特征量。当基于突发噪声信息目标帧是包括突发噪声的部分时,声压估计候选点更新部分不使目标帧成为声压估计候选点。当相邻声压估计候选点之间的帧间隔的最短帧间隔小于预定阈值时,声压估计候选点更新部分丢弃具有最短帧间隔的相邻声压估计候选点中的具有小声压水平的声压估计候选点,并且使目标帧成为新的声压估计候选点。以使预定阈值随着时间的过去而增大的方式,确定预定阈值。特征量计算部分计算至少从声压估计候选点直至目标帧的过去的帧的数量作为特征量。当声压估计候选点的过去的帧的数量的最大值大于预定的帧的数量时,声压估计候选点更新部分丢弃具有最大值的声压估计候选点,并且使目标帧成为新的声压估计候选点。输入语音信号被输入到语音处理装置,输入语音信号是由放大部分进行增益调节并且从模拟信号转换成数字信号来得到的。基于计算得到的增益,增益计算部分计算增益应用部分用于进行增益调节的增益和放大部分用于进行增益调节的增益。根据本专利技术的实施方式,提供了一种使计算机执行以下处理的程序:从输入语音信号的目标帧中提取特征量;使输入语音信号的多个帧的每个成为声压估计候选点,保持每个声压估计候选点的特征量,并且基于声压估计候选点的特征量和目标帧的特征量,来更新声压估计候选点;基于声压估计候选点的特征量,计算输入语音信号的估计声压;基于估计声压,计算应用于输入语音信号的增益;以及基于增益,执行输入语音信号的增益调节。根据本专利技术的实施方式,从输入语音信号的目标帧中提取特征量。使输入语音信号的多个帧的每个成为声压估计候选点,保持每个声压估计候选点的特征量,并且基于声压估计候选点的特征量和目标帧的特征量,来更新声压估计候选点。基于声压估计候选点的特征量,计算输入语音信号的估计声压。基于估计声压,计算应用于输本文档来自技高网
...

【技术保护点】
一种语音处理装置,包括:特征量计算部分,从输入语音信号的目标帧中提取特征量;声压估计候选点更新部分,使输入语音信号的多个帧的每个成为声压估计候选点,保持每个声压估计候选点的特征量,并且基于声压估计候选点的特征量和目标帧的特征量,来更新声压估计候选点;声压估计部分,基于声压估计候选点的特征量,计算输入语音信号的估计声压;增益计算部分,基于估计声压,计算应用于输入语音信号的增益;以及增益应用部分,基于增益,执行输入语音信号的增益调节。

【技术特征摘要】
2012.01.25 JP 2012-0128641.一种语音处理装置,包括: 特征量计算部分,从输入语音信号的目标帧中提取特征量; 声压估计候选点更新部分,使输入语音信号的多个帧的每个成为声压估计候选点,保持每个声压估计候选点的特征量,并且基于声压估计候选点的特征量和目标帧的特征量,来更新声压估计候选点; 声压估计部分,基于声压估计候选点的特征量,计算输入语音信号的估计声压; 增益计算部分,基于估计声压,计算应用于输入语音信号的增益;以及 增益应用部分,基于增益,执行输入语音信号的增益调节。2.根据权利要求1所述的语音处理装置, 其中,特征量计算部分计算至少目标帧中的输入语音信号的声压水平作为特征量,并且 其中,当目标帧的声压水平大于作为声压估计候选点的特征量的声压水平的最小值时,声压估计候选点更新部分丢弃具有最小值的声压估计候选点并且使目标帧成为新的声压估计候选点。3.根据权利要求2所述的语音处理装置, 其中,特征量计算部分计算表示至少目标帧中出现突发噪声的可能性的突发噪声信息作为特征量,并且 其中,当基于突发 噪声信息目标帧是包括突发噪声的部分时,声压估计候选点更新部分不使目标帧成为声压估计候选点。4.根据权利要求2所述的语音处理装置, 其中,当相邻声压估计候选点之间的帧间隔的最短帧间隔小于预定阈值时,声压估计候选点更新部分丢弃具有最短帧间隔的相邻声压估计候选点中的具有小声压水平的声压估计候选点,并且使目标帧成为新的声压估计候选点。5.根据权利要求4所述的语音处理装置, 其中,以使预定阈值随着时间的过去而增大的方式,确定预定阈值。6.根据权利要求2所述的语音处理装置, 其中,特征量计算部分计算至少从声压估计候选点直至目标帧的过去的帧的数量作为特征量,并且 其...

【专利技术属性】
技术研发人员:本间弘幸知念彻
申请(专利权)人:索尼公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1