一种人声提取方法、系统以及人声音频播放方法及装置制造方法及图纸

技术编号:10489493 阅读:240 留言:0更新日期:2014-10-03 17:38
本发明专利技术提供了一种人声提取方法、系统以及人声音频播放方法及装置,其中,所述方法包括:从原声音信号开始处提取人声和背景声共同出现的声音信号作为样本;从样本中检测出主音高;以主音高为参照频率,将原声音信号除样本之外的声音部分中属于同一声源的声音的基音频率与参照频率进行比较确定该声源是否属于人声。本发明专利技术可简便地从混合音频中提取人声。

【技术实现步骤摘要】
一种人声提取方法、系统以及人声音频播放方法及装置
本专利技术涉及混合音频分离提取领域,尤其涉及一种人声提取方法、系统以及人声音频播放方法及装置。
技术介绍
为了实现从双声道立体声等音频中提取人声并对其进行增强,以达到使语音更清晰并有效降噪的目的,需要一种能够从混合音频中提取单一音频的声音分离技术。目前能够满足该要求的技术主要是基于计算听觉场景分析(CASA, Computat1nal AuditoryScene Analysis)的音频分离技术。 听觉场景分析(Auditory Scene Analysis, ASA)技术,由听觉系统利用声音的各种特性(时域、频域、空间位置等)将一路混合声音信号分解成多个信号,且每个信号属于不同的物理声源。计算听觉场景分析(CASA)技术利用计算机技术模拟人体听觉系统,最终使计算机具备类似人耳的声音分辨能力。常规的CASA系统首先将声音分成人声和背景声同时出现的部分和只有背景声的部分;再将人声和背景声同时出现部分的信号通过多通道滤波器分解;对每个通道的信号进行分类,判断其属于人声还是背景声。 但是目前利用CASA技术在对每个通道的信号进行分类,提取人声的方法需要综合考虑音频信号的多种特征,如主音高、多次谐波、能量、幅度调制、起始音和终止音,提取算法复杂,计算量大。
技术实现思路
本专利技术提供了一种人声提取方法、系统以及人声音频播放方法及装置,以解决如何简便地从混合音频中提取人声的技术问题。 为解决上述技术问题,本专利技术提供了一种人声提取方法,所述方法包括: 从原声音信号开始处提取人声和背景声共同出现的声音信号作为样本; 从所述样本中检测出主音高; 以所述主音高为参照频率,将所述原声音信号除所述样本之外的声音部分中属于同一声源的声音的基音频率与所述参照频率进行比较确定该声源是否属于人声。 进一步地, 以所述主音高为参照频率,将所述原声音信号除所述样本之外的声音部分中属于同一声源的声音的基音频率与所述参照频率进行比较确定该声源是否属于人声,包括: 将所述原声音信号除所述样本之外的声音部分分成多帧; 将每一帧声音信号经过多通道滤波器得到多个时频单元,合并相邻的属于同一声源的时频单元作为一个片段; 如果一个片段内,超过一半以上的时频单元的基音频率与所述参照频率相等,则该片段为人声片段。 进一步地,所述方法还包括: 对每一帧的全部片段进行是否为人声片段的判定之后,继续从后续相邻帧中检测出主音高,若主音高发生改变,以发生变化的主音高作为参照频率,继续判断帧中的片段是否为人声片段。 进一步地, 所述若主音高发生改变,以发生变化的主音高作为参照频率,包括: 若主音高发生改变,继续判断后续的帧的主音高是否为该改变值,若连续多个后续帧的主音高为该改变值,则以发生变化的主音高作为参照频率。 为解决上述技术问题,本专利技术还提供了一种人声音频播放方法,所述方法包括: 采用如上所述的方法从原声音信号中提取人声信号; 将所述人声信号与所述原声音信号线性组合后播放。 为解决上述技术问题,本专利技术还提供了一种人声提取系统,所述系统包括样本提取单元、主音高检测单元、人声检测单元,其中, 所述样本提取单元,用于从原声音信号开始处提取人声和背景声共同出现的声音信号作为样本,并将所述样本发送至所述主音高检测单元; 所述主音高检测单元,用于从所述样本中检测出主音高,并将该主音高发送至所述人声检测单元; 所述人声检测单元,用于以所述主音高为参照频率,将所述原声音信号除所述样本之外的声音部分中属于同一声源的声音的基音频率与所述参照频率进行比较确定该声源是否属于人声。 进一步地, 所述人声检测单元,用于以所述主音高为参照频率,将所述原声音信号除所述样本之外的声音部分中属于同一声源的声音的基音频率与所述参照频率进行比较确定该声源是否属于人声,包括: 所述人声检测单元,用于将所述原声音信号除所述样本之外的声音部分分成多帧;将每一帧声音信号经过多通道滤波器得到多个时频单元,合并相邻的属于同一声源的时频单元作为一个片段;若一个片段内,超过一半以上的时频单元的基音频率与所述参照频率相等,则判断出该片段为人声片段。 进一步地, 所述主音高检测单元,还用于人声检测单元检测完一帧后,继续从后续相邻帧中检测出主音高,若主音高发生改变,将发生变化的主音高作为参照频率发送至所述人声检测单元。 进一步地: 所述主音高检测单元,用于主音高发生改变,将发生变化的主音高作为参照频率,包括: 所述主首闻检测单兀,用于在主首闻发生改变时,继续判断后续的巾贞的主首闻是否为该改变值,若连续多个后续帧的主音高为该改变值,则将发生变化的主音高作为参照频率。 为解决上述技术问题,本专利技术还提供了一种人声音频播放装置,所述装置包括人声提取系统和播放系统,其中: 所述人声提取系统采用如上所述的系统从原声音信号中提取人声信号,并将该人声信号发送至所述播放系统; 所述播放系统,用于将所述人声信号与所述原声音信号线性组合后播放。 上述技术方案以声音信号的主音高为参照频率判断是否为人声,相对现有提取人声的技术方案,实现简单;而且上述技术方案仅需从原声音信号开始处寻找人声和背景声共同出现的声音信号,不需要将原声音信号分成人声和背景声同时出现的部分和只有背景声的部分,简化了声音的预处理数据量。 【附图说明】 图1为本实施例的人声提取方法流程图; 图2为本实施例的人声提取系统组成图。 【具体实施方式】 为使本专利技术的目的、技术方案和优点更加清楚明白,下文中将结合附图对本专利技术的实施例进行详细说明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。 图1为本实施例的人声提取方法流程图。 SlOl从原声音信号开始处提取人声和背景声共同出现的声音信号作为样本; 如,可从原声音信号开始处读取约1s左右的一段声音,分离成人声与背景声共同出现的部分和只有背景声的部分;如果这1s没有找到人声与背景声共同出现的部分,可读取下一个10s,直到找到人声为止; S102从所述样本中检测出主音高; 主音高检测也称为基音频率检测; 具体检测步骤可包括: I)从时域上将样本分割成若干帧,如以20ms为帧长,1ms为帧移; 2)对每一个中贞, 首先,进行听觉外围处理:用通道数为N = 128的Gammatone滤波器对帧信号进行滤波,Gammatone滤波器脉冲响应的时间形式为: Ir] exp{-2^-/)(./')/}cos2^.//, / >0 g(f,t) = \n [υ, / <? 其中,I为滤波器阶数,b(f)为滤波器带宽,f为滤波器中心频率; 帧经过Gammatone滤波器后得到的每个通道的数据为一个最基本的时-频(T-F)单元;根据人耳的听觉特性,每个时-频(T-F)单元属于一个声源(或属于背景声,或属于人声); 其次,计算每个通道的自相关,得到相关图;在相关图上,利用低频通道的强度最高峰值点信息和高频通道的包络信息判断所在帧的基频; 自相关计算公式为:I馬_1 Ar^ h(c,mI'-//)/?(c*,m本文档来自技高网...

【技术保护点】
一种人声提取方法,其特征在于,所述方法包括:从原声音信号开始处提取人声和背景声共同出现的声音信号作为样本;从所述样本中检测出主音高;以所述主音高为参照频率,将所述原声音信号除所述样本之外的声音部分中属于同一声源的声音的基音频率与所述参照频率进行比较确定该声源是否属于人声。

【技术特征摘要】
1.一种人声提取方法,其特征在于,所述方法包括: 从原声音信号开始处提取人声和背景声共同出现的声音信号作为样本; 从所述样本中检测出主音高; 以所述主音高为参照频率,将所述原声音信号除所述样本之外的声音部分中属于同一声源的声音的基音频率与所述参照频率进行比较确定该声源是否属于人声。2.如权利要求1所述的方法,其特征在于, 以所述主音高为参照频率,将所述原声音信号除所述样本之外的声音部分中属于同一声源的声音的基音频率与所述 参照频率进行比较确定该声源是否属于人声,包括: 将所述原声音信号除所述样本之外的声音部分分成多帧; 将每一帧声音信号经过多通道滤波器得到多个时频单元,合并相邻的属于同一声源的时频单元作为一个片段; 如果一个片段内,超过一半以上的时频单元的基音频率与所述参照频率相等,则该片段为人声片段。3.如权利要求2所述的方法,其特征在于,所述方法还包括: 对每一帧的全部片段进行是否为人声片段的判定之后,继续从后续相邻帧中检测出主音高,若主音高发生改变,以发生变化的主音高作为参照频率,继续判断帧中的片段是否为人声片段。4.如权利要求3所述的方法,其特征在于, 所述若主音高发生改变,以发生变化的主音高作为参照频率,包括: 若主音高发生改变,继续判断后续的帧的主音高是否为该改变值,若连续多个后续帧的主音高为该改变值,则以发生变化的主音高作为参照频率。5.一种人声音频播放方法,其特征在于,所述方法包括: 米用如权利要求1~4中任一项所述的方法从原声音信号中提取人声信号; 将所述人声信号与所述原声音信号线性组合后播放。6.一种人声提取系统,其特征在于,所述系统包括样本提取单元、主音高检测单元、人声检测单元,其中, 所述样本提取单元,用于从原声音信号开始处提取人声和背景声共同出现的声音信...

【专利技术属性】
技术研发人员:佘海波王进军刘书昌张欣
申请(专利权)人:中兴通讯股份有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1