一种人声提取方法、系统以及人声音频播放方法及装置制造方法及图纸

技术编号：10489493 阅读：240 留言：0更新日期：2014-10-03 17:38

本发明专利技术提供了一种人声提取方法、系统以及人声音频播放方法及装置，其中，所述方法包括：从原声音信号开始处提取人声和背景声共同出现的声音信号作为样本；从样本中检测出主音高；以主音高为参照频率，将原声音信号除样本之外的声音部分中属于同一声源的声音的基音频率与参照频率进行比较确定该声源是否属于人声。本发明专利技术可简便地从混合音频中提取人声。

全部详细技术资料下载

【技术实现步骤摘要】
一种人声提取方法、系统以及人声音频播放方法及装置
本专利技术涉及混合音频分离提取领域，尤其涉及一种人声提取方法、系统以及人声音频播放方法及装置。
技术介绍
为了实现从双声道立体声等音频中提取人声并对其进行增强，以达到使语音更清晰并有效降噪的目的，需要一种能够从混合音频中提取单一音频的声音分离技术。目前能够满足该要求的技术主要是基于计算听觉场景分析(CASA, Computat1nal AuditoryScene Analysis)的音频分离技术。听觉场景分析(Auditory Scene Analysis, ASA)技术，由听觉系统利用声音的各种特性(时域、频域、空间位置等)将一路混合声音信号分解成多个信号，且每个信号属于不同的物理声源。计算听觉场景分析(CASA)技术利用计算机技术模拟人体听觉系统，最终使计算机具备类似人耳的声音分辨能力。常规的CASA系统首先将声音分成人声和背景声同时出现的部分和只有背景声的部分；再将人声和背景声同时出现部分的信号通过多通道滤波器分解；对每个通道的信号进行分类，判断其属于人声还是背景声。但是目前利用CASA技术在对每个通道的信号进行分类，提取人声的方法需要综合考虑音频信号的多种特征，如主音高、多次谐波、能量、幅度调制、起始音和终止音，提取算法复杂，计算量大。
技术实现思路
本专利技术提供了一种人声提取方法、系统以及人声音频播放方法及装置，以解决如何简便地从混合音频中提取人声的技术问题。为解决上述技术问题，本专利技术提供了一种人声提取方法，所述方法包括: 从原声音信号开始处提取...

【技术保护点】
一种人声提取方法，其特征在于，所述方法包括：从原声音信号开始处提取人声和背景声共同出现的声音信号作为样本；从所述样本中检测出主音高；以所述主音高为参照频率，将所述原声音信号除所述样本之外的声音部分中属于同一声源的声音的基音频率与所述参照频率进行比较确定该声源是否属于人声。

【技术特征摘要】
1.一种人声提取方法，其特征在于，所述方法包括: 从原声音信号开始处提取人声和背景声共同出现的声音信号作为样本；从所述样本中检测出主音高；以所述主音高为参照频率，将所述原声音信号除所述样本之外的声音部分中属于同一声源的声音的基音频率与所述参照频率进行比较确定该声源是否属于人声。2.如权利要求1所述的方法，其特征在于，以所述主音高为参照频率，将所述原声音信号除所述样本之外的声音部分中属于同一声源的声音的基音频率与所述参照频率进行比较确定该声源是否属于人声，包括: 将所述原声音信号除所述样本之外的声音部分分成多帧；将每一帧声音信号经过多通道滤波器得到多个时频单元，合并相邻的属于同一声源的时频单元作为一个片段；如果一个片段内，超过一半以上的时频单元的基音频率与所述参照频率相等，则该片段为人声片段。3.如权利要求2所述的方法，其特征在于，所述方法还包括: 对每一帧的全部片段进行是否为人声片段的判定之后，继续从后续相邻帧中检测出主音高，若主音高发生改变，以发生变化的主音高作为参照频率，继续判断帧中的片段是否为人声片段。4.如权利要求3所述的方法，其特征在于，所述若主音高发生改变，以发生变化的主音高作为参照频率，包括: 若主音高发生改变，继续判断后续的帧的主音高是否为该改变值，若连续多个后续帧的主音高为该改变值，则以发生变化的主音高作为参照频率。5.一种人声音频播放方法，其特征在于，所述方法包括: 米用如权利要求1~4中任一项所述的方法从原声音信号中提取人声信号；将所述人声信号与所述原声音信号线性组合后播放。6.一种人声提取系统，其特征在于，所述系统包括样本提取单元、主音高检测单元、人声检测单元，其中，所述样本提取单元，用于从原声音信号开始处提取人声和背景声共同出现的声音信...

【专利技术属性】
技术研发人员：佘海波，王进军，刘书昌，张欣，
申请(专利权)人：中兴通讯股份有限公司，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人