一种适应复杂环境的语音预处理系统技术方案

技术编号：35782085 阅读：40 留言：0更新日期：2022-12-01 14:27

本发明专利技术公开一种适应复杂环境的语音预处理系统，属于音频信号处理领域。模拟前端电路接收来自信号源的模拟信号，通过配置内部寄存器进行高通滤波、抽取滤波和插值滤波，滤除高频噪声和信号采样率骤变带来的影响，然后将分析出的数字信号传输到FPGA中；所述FPGA通过滤波算法硬件加速器进行处理，将中间关键数据存储到高速Flash中，并通过网口电路传输到PC端进行优化处理，之后供后级用户层决策。本发明专利技术对初始模拟信号进行三重处理，最大程度上还原初始语音信号，为语音识别以及类似应用提供一种参考，以提高整体系统的效率与可靠性。以提高整体系统的效率与可靠性。以提高整体系统的效率与可靠性。

全部详细技术资料下载

【技术实现步骤摘要】
一种适应复杂环境的语音预处理系统

[0001]本专利技术涉及音频信号处理
，特别涉及一种适应复杂环境的语音预处理系统。

技术介绍

[0002]随着人工智能时代的到来，语音信号的预处理更加注重质量，对初始语音信号底噪平坦度的要求也越来越高。不同语音场景中对语音信号的处理要求不同，在很多语音识别应用中，需要事先滤除数字信号中的噪声和谐波，再根据后级语音识别算法提取特征值，最终完成语音识别。
[0003]现实环境中的情况复杂多变，往往充斥着噪音和各阶谐波，因此，如何实现对复杂环境中语音信号的滤波和提取有效信息，对语音识别应用至关重要。

技术实现思路

[0004]本专利技术的目的在于提供一种适应复杂环境的语音预处理系统，以解决
技术介绍
中的问题。
[0005]为解决上述技术问题，本专利技术提供了一种适应复杂环境的语音预处理系统，包括模拟前端电路、FPGA、高速Flash和PC端；
[0006]所述模拟前端电路接收来自信号源的模拟信号，通过配置内部寄存器进行高通滤波、抽取滤波和插值滤波，滤除高频噪声和信号采样率骤变带来的影响，然后将分析出的数字信号传输到FPGA中；
[0007]所述FPGA通过滤波算法硬件加速器进行处理，将中间关键数据存储到所述高速Flash中，并通过网口电路传输到所述PC端进行优化处理，之后供后级用户层决策。
[0008]在一种实施方式中，所述模拟前端电路的输入信号由低衰减线缆接入，所述模拟前端电路的模拟输出可选择性接到外部的音频发生器上。
>[0009]在一种实施方式中，所述FPGA实时接收所述模拟前端电路的输出信号，并在下一帧信号到来之前同时将上一帧信号转存到高速Flash中；
[0010]所述FPGA通过低衰减高质量网口线将处理结果实时发送到所述PC端；所述PC端内置的数据处理模块根据输入音频信号的频段和特征点自适应分配对应最优语音处理算法。
[0011]在一种实施方式中，所述音频信号的频段分为人类听觉范围、人类发声范围和乐音范围；所述音频信号的特征分为时域特征、频域特征、乐音特征、感知特征和情绪特征；音频处理过程分为回音消除、声音增强、波束形成、啸声抑制和虚拟重建，对应的语音处理算法是深度学习AEC算法、自动增益控制算法、空域滤波算法、傅里叶分析和倒频分析。
[0012]在一种实施方式中，所述FPGA与所述高速Flash之间的连接遵循一般高速并行线布线规则；所述FPGA与网口电路之间的布线遵循一般高速布线规则；所述FPGA适用于内部LE单元数大于30000，内部运行速度大于200MHz。
[0013]在一种实施方式中，所述FPGA的滤波算法硬件加速器所辅助的算法为有限脉冲响
应和无线脉冲响应。
[0014]在一种实施方式中，所述模拟前端电路的型号为AD73311，所述FPGA的型号为Xilinx系列Kintex
‑
7，所述高速Flash的型号为SST38VF6404。
[0015]在本专利技术提供的适应复杂环境的语音预处理系统中，模拟前端电路接收来自信号源的模拟信号，通过配置内部寄存器进行高通滤波、抽取滤波和插值滤波，滤除高频噪声和信号采样率骤变带来的影响，然后将分析出的数字信号传输到FPGA中；所述FPGA通过滤波算法硬件加速器进行处理，将中间关键数据存储到高速Flash中，并通过网口电路传输到PC端进行优化处理，之后供后级用户层决策。本专利技术对初始模拟信号进行三重处理，最大程度上还原初始语音信号，为语音识别以及类似应用提供一种参考，以提高整体系统的效率与可靠性。
附图说明
[0016]图1为本专利技术提供的一种适应复杂环境的语音预处理系统的结构框图；
[0017]图2为本专利技术提供的一种适应复杂环境的语音预处理系统的流程图。
具体实施方式
[0018]以下结合附图和具体实施例对本专利技术提出的一种适应复杂环境的语音预处理系统作进一步详细说明。根据下面说明，本专利技术的优点和特征将更清楚。需说明的是，附图均采用非常简化的形式且均使用非精准的比例，仅用以方便、明晰地辅助说明本专利技术实施例的目的。
[0019]本专利技术提供一种适应复杂环境的语音预处理系统，可以用于提取语音信号中的有效信息，对原始信号进行三重处理，最大程度上还原初始语音信号，为语音识别以及类似应用提供一种参考，以提高整体系统的效率与可靠性。
[0020]如图1所示，所述适应复杂环境的语音预处理系统包括模拟前端(Analog Front End，AFE)电路、FPGA、高速Flash和PC端；所述模拟前端电路既能接收模拟音频信号又可产生模拟输出，所述PC端内置数据处理模块。
[0021]所述模拟前端电路接收到来自信号源的模拟信号后，可通过配置内部寄存器进行高通滤波、抽取滤波和插值滤波，以滤除高频噪音和信号采样率骤变带来的影响，然后将分析出的数字信号传输到FPGA中；
[0022]所述FPGA使用硬件滤波算法加速器进行处理，然后将部分中间关键数据存储到所述高速Flash中，并传输到PC端进行优化处理，之后供后级用户层决策。所述模拟前端电路的型号可以使用AD73311，FPGA的型号可以使用Xilinx系列Kintex
‑
7型FPGA，高速Flash的型号可以使用SST38VF6404。
[0023]所述模拟前端电路的输入信号由低衰减线缆接入；所述模拟前端电路的模拟输出可选择性接到外部的音频发生器上；所述FPGA可实时接收所述模拟前端电路的输出信号，并在下一帧信号到来之前同时将已经接收的上一帧信号转存到所述高速Flash中；所述FPGA还可通过低衰减高质量网口线实时地将处理结果发送到PC端；所述PC端内置的数据处理模块可根据输入音频信号频段和特征点自适应分配对应最优算法，如不收敛可自动切换次优算法。音频信号的频段不妨可分为：人类听觉范围(20Hz
‑
20000Hz)、人类发声范围
(100Hz
‑
10000Hz)和乐音范围(50Hz
‑
20000Hz)。所述FPGA的滤波算法硬件加速器所辅助的算法一般为有限脉冲响应(FIR)和无线脉冲响应(IIR)，这里不妨使用FIR滤波器，即有限脉冲响应滤波器。所述音频信号的频段一般分为人类听觉范围、人类发声范围和乐音范围；所述音频信号特征分为：时域特征、频域特征、乐音特征、感知特征和情绪特征；所述语音处理算法一般根据具体处理过程细分，音频处理过程一般分为回音消除、声音增强、波束形成、啸声抑制和虚拟重建等过程，对应的算法可以是深度学习AEC算法、自动增益控制算法、空域滤波算法、傅里叶分析和倒频分析等。
[0024]所述适应复杂环境的语音预处理系统的工作流程如图2所示，包括如下步骤：
[0025](1)系统上电或复位后初始化；
[0026](2)配置模拟前端电路的工作模式，启动插值抽取滤波算法，回读寄存器，若配置成功，则继续步骤(3)，否则回到步骤(1)；<本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种适应复杂环境的语音预处理系统，其特征在于，包括模拟前端电路、FPGA、高速Flash和PC端；所述模拟前端电路接收来自信号源的模拟信号，通过配置内部寄存器进行高通滤波、抽取滤波和插值滤波，滤除高频噪声和信号采样率骤变带来的影响，然后将分析出的数字信号传输到FPGA中；所述FPGA通过滤波算法硬件加速器进行处理，将中间关键数据存储到所述高速Flash中，并通过网口电路传输到所述PC端进行优化处理，之后供后级用户层决策。2.如权利要求1所述的适应复杂环境的语音预处理系统，其特征在于，所述模拟前端电路的输入信号由低衰减线缆接入，所述模拟前端电路的模拟输出可选择性接到外部的音频发生器上。3.如权利要求2所述的适应复杂环境的语音预处理系统，其特征在于，所述FPGA实时接收所述模拟前端电路的输出信号，并在下一帧信号到来之前同时将上一帧信号转存到高速Flash中；所述FPGA通过低衰减高质量网口线将处理结果实时发送到所述PC端；所述PC端内置的数据处理模块根据输入音频信号的频段和特征点自适应分配对应最优语音处理算法。4.如权利要求3所述的适应复杂环境的语音预...

【专利技术属性】
技术研发人员：张皓然，
申请(专利权)人：中国电子科技集团公司第五十八研究所，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人