一种微弱语音增强方法、语音识别方法及计算机可读存储介质技术

技术编号:24941900 阅读:16 留言:0更新日期:2020-07-17 21:48
本发明专利技术涉及人计算机技术领域,提供了一种微弱语音增强方法,所述方法包含步骤:获取待处理语音中的非静音片段;将所述非静音片段转换为频域;对所述非静音片段的频域进行基频检测,得到可能为人说话的基频,作为计算基频;分别基于所述计算基频进行计算,得到与所述计算基频对应的各待确认谐波;检测各所述待确认谐波是否包含在所述非静音片段的频域中;若包含,则确认所述待确认谐波对应的所述计算基频为标准基频;若不包含,则确定所述待确认谐波对应的所述计算基频为非标准基频;基于不同的预设方法,分别对所述标准基频和所述非标准基频进行处理,以实现对所述标准基频对应的语音数据进行增强。

【技术实现步骤摘要】
一种微弱语音增强方法、语音识别方法及计算机可读存储介质
本专利技术涉及计算机信息
,尤其涉及一种微弱语音增强方法、语音识别方法及计算机可读存储介质。
技术介绍
语音识别技术,也被称为自动语音识别AutomaticSpeechRecognition,(ASR),其目标是将人类的语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列。与说话人识别及说话人确认不同,后者尝试识别或确认发出语音的说话人而非其中所包含的词汇内容。随着数据处理技术的进步以及移动互联网的快速普及,计算机技术被广泛地运用到了社会的各个领域,随之而来的则是海量数据的产生。其中,语音数据受到了人们越来越多的重视。语音识别是一门交叉学科。近二十年来。语音识别技术取得显著进步,开始从实验室走向市场。人们预计,未来10年内,语音识别技术将进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。应用需求的不断增加,对语音识别的准确性也提出了更高的要求,例如,在远场语音的识别应用中,如何对目的语音信号进行增强,以提升语音识别准确性,已成为行业重要研究课题。
技术实现思路
针对上述问题,本专利技术的实施例提供了一种微弱语音增强方法,所述方法包含步骤:获取待处理语音中的非静音片段;将所述非静音片段转换为频域;对所述非静音片段的频域进行基频检测,得到可能为人说话的基频,作为计算基频;分别基于所述计算基频进行计算,得到与所述计算基频对应的各待确认谐波;检测各所述待确认谐波是否包含在所述非静音片段的频域中;若包含,则确认所述待确认谐波对应的所述计算基频为标准基频;若不包含,则确定所述待确认谐波对应的所述计算基频为非标准基频;基于不同的预设方法,分别对所述标准基频和所述非标准基频进行处理,以实现对所述标准基频对应的语音数据进行增强。本实施例所提供的方法,通过对待处理语音中的标准基频进行自动识别,从而对非标准基频进行反向补偿,以及不属于标准基频对应的说话人的共振峰进行去除,从而实现抑制或消除干扰信号,进而实现对微弱语音的增强处理。基于同样的专利技术构思,本专利技术实施例还提供了一种语音识别方法,所述方法具体包含步骤:基于上述的微弱语音增强方法对待识别语音进行去噪处理;基于语音识别模型对处理后的所述待识别语音进行识别。以及,一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现上述的微弱语音增强方法和/或上述语音识别方法。在一实施中,所述获取待处理语音中的非静音片段具体包含:基于语音活动检测技术对所述待处理语音中的非静音片段进行识别。在一实施中,所述将所述非静音片段转换为频域具体包含:依次对各所述非静音片段进行分帧、加窗、快速傅里叶变换,从而转换为频域。在一实施中,对所述标准基频进行处理的所述预设方法包含:获取所述标准基频范围中出现的所有共振峰;确定前三个所述共振峰为所述标准基频对应的说话人的共振峰标准;基于所述共振峰标准判断其他所述共振峰是否归属于所述标准基频对应的说话人;去除不属于所述标准基频对应的说话人的所述共振峰。在一实施中,所述去除不属于所述标准基频对应的说话人的所述共振峰具体包含:基于所述共振峰的位置范围,获取所述位置范围内的基频与谐波,对所述基频和所述谐波进行反向补偿。在一实施中,对所述非标准基频进行处理的所述预设方法包含:对所述非标准基频及谐波进行反向补偿。在一实施中,所述方法更进一步包含:若所述非静音片段中确定出多个标准基频,则基于所述待确认谐波的匹配度,确认出其中一个为所述标准基频。附图说明一个或多个实施方式通过与之对应的附图中的图片进行示例性说明,这些示例性说明并不构成对实施方式的限定,附图中具有相同参考数字标号的元件表示为类似的元件,除非有特别申明,附图中的图不构成比例限制。图1绘示本专利技术第一实施例所提供的微弱语音增强方法流程图;图2绘示第一实施例中处理标准基频的方法流程图。具体实施方式为使本专利技术实施方式的目的、技术方案和优点更加清楚,下面将结合附图对本专利技术的各实施方式进行详细的阐述。然而,本领域的普通技术人员可以理解,在本专利技术各实施方式中,为了使读者更好地理解本申请而提出了许多技术细节。但是,即使没有这些技术细节和基于以下各实施方式的种种变化和修改,也可以实现本申请所要求保护的技术方案。在本专利技术的第一实施例中,提出了一种微弱语音增强方法,实现对微弱语音数据中的目的语音进行准确识别,并有效增强。本实施例所提供的方法可通过在服务设备上执行相应的代码程序来实现,服务设备可包含业务服务器、机器人、手机、平板电脑等智能终端设备。具体请参照图1,图1绘示本专利技术第一实施例所提供的微弱语音增强方法流程图。如图1所示,所述方法具体包含步骤:步骤101,获取待处理语音中的非静音片段。在实施中,待处理语音中可包含静音片段和非静音片段,而在对待处理语音进行微弱语音增强时,可仅针对非静音片段进行处理,具体而言,可基于语音活动检测技术(VoiceActivityDetection,VAD)对待处理语音中的非静音片段进行识别和获取。可以理解的是,待处理语音中可能包含有多个非静音片段,如此一来,在本实施例中,可分别对各非静音片段进行微弱语音增强处理,在本专利技术的其他实施例中,也可将多个非静音片段拼接成一个整体,来进行微弱语音增强处理,具体可基于实际应用需求来进行选择。步骤102,将所述非静音片段转换为频域。在实施中,可依次对待处理语音中的各非静音片段进行分帧、加窗、快速傅里叶变换,将其转换为对应的频域,以便于后续的处理。具体而言,分帧和加窗都是语音信号提取特征的预处理阶段,先分帧,后加窗,再做快速傅里叶变换。由于语音信号整体上不稳定,但局部上可以看作是稳定的,在后续的处理中,需要输入一个稳定的信号,那么就可对非静音片段对应的语音信号进行分帧处理,即将其分割成多个片段。一般而言,在10-30ms的时长范围内,可以认为信号是稳定的,相应的可以不少于20毫秒为帧,再以1/2的时间作为帧移位帧,帧移位是指相邻两帧之间的重叠区域,以避免相邻两帧的变化,从而实现对非静音片段的分帧;按上述方法分帧后,每一帧的开始和结束都会出现间断,分割的帧越多,与原始信号的误差就越大,通过加窗则可解决这个问题,使成帧后的信号变得连续,并且每一帧都会表现出周期函数的特性,在语音信号处理中,通常会增加汉明窗;通过对非静音片段的分帧和加窗后,再进行快速傅里叶变化,以得到非静音片段对应的频域。步骤103,对所述非静音片段的频域进行基频检测,得到可能为人说话的基频,作为计算基频。一般而言,非静音片段中可包含各种音频信号,例如,人说话的声音、及各种背景音。本实施例主要实现对人说话的语音信号进行处理,即对非静音片段中的人说话的语音信号进行微弱增强处理。在实施中,可基于预先获取的人说话的基频范围,对非静音片段的频域中的基频与预先获取的人说话的基频范围进行匹配,从而得到归属于本文档来自技高网...

【技术保护点】
1.一种微弱语音增强方法,其特征在于,所述方法包含步骤:/n获取待处理语音中的非静音片段;/n将所述非静音片段转换为频域;/n对所述非静音片段的频域进行基频检测,得到可能为人说话的基频,作为计算基频;/n分别基于所述计算基频进行计算,得到与所述计算基频对应的各待确认谐波;/n检测各所述待确认谐波是否包含在所述非静音片段的频域中;/n若包含,则确认所述待确认谐波对应的所述计算基频为标准基频;/n若不包含,则确定所述待确认谐波对应的所述计算基频为非标准基频;/n基于不同的预设方法,分别对所述标准基频和所述非标准基频进行处理,以实现对所述标准基频对应的语音数据进行增强。/n

【技术特征摘要】
1.一种微弱语音增强方法,其特征在于,所述方法包含步骤:
获取待处理语音中的非静音片段;
将所述非静音片段转换为频域;
对所述非静音片段的频域进行基频检测,得到可能为人说话的基频,作为计算基频;
分别基于所述计算基频进行计算,得到与所述计算基频对应的各待确认谐波;
检测各所述待确认谐波是否包含在所述非静音片段的频域中;
若包含,则确认所述待确认谐波对应的所述计算基频为标准基频;
若不包含,则确定所述待确认谐波对应的所述计算基频为非标准基频;
基于不同的预设方法,分别对所述标准基频和所述非标准基频进行处理,以实现对所述标准基频对应的语音数据进行增强。


2.如权利要求1所述的方法,其特征在于,所述获取待处理语音中的非静音片段具体包含:
基于语音活动检测技术对所述待处理语音中的非静音片段进行识别。


3.如权利要求1所述的方法,其特征在于,所述将所述非静音片段转换为频域具体包含:
依次对各所述非静音片段进行分帧、加窗、快速傅里叶变换,从而转换为频域。


4.如权利要求1所述的方法,其特征在于,对所述标准基频进行处理的所述预设方法包含:
获取所述标准基频范围中出现的所有共振峰;
确定前三个所述共振峰为所述标准基频对应的说话人的共振峰标准;
基于所述共振峰标...

【专利技术属性】
技术研发人员:张广学肖龙源蔡振华李稀敏刘晓葳
申请(专利权)人:厦门快商通科技股份有限公司
类型:发明
国别省市:福建;35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1