【技术实现步骤摘要】
一种基于语音评测的数据处理系统及方法
本专利技术属于语音数据处理
,具体涉及一种基于语音评测的数据处理系统。
技术介绍
随着语音识别技术的不断成熟,涉及到信号处理、自然语音理解、人工智能、数据挖掘和机器学习等多个学科的智能语音评测技术也得到了越来越广泛的应用。语音即语言的声音,是语言符号系统的载体。它由人的发音器官发出,负载着一定的语言意义。语言依靠语音实现它的社会功能。语言是音义结合的符号系统,语言的声音和语言的意义是紧密联系着的,因此,语言虽是一种声音,但又与一般的声音有着本质的区别。语音是人类发音器官发出的具有区别意义功能的声音,不能把语音看成纯粹的自然物质;语音是最直接地记录思维活动的符号体系,是语言交际工具的声音形式。语音信号处理的研究起源于对发音器官的模拟。1939年美国H.杜德莱(H.Dudley)展出了一个简单的发音过程模拟系统,以后发展为声道的数字模型。利用该模型可以对语音信号进行各种频谱及参数的分析,进行通信编码或数据压缩的研究,同时也可根据分析获得的频谱特征或参数变化规律,合成语音信号,实现机器的语音合成。利用语音分析技术,还可以实现对语音的自动识别,发音人的自动辨识,如果与人工智能技术结合,还可以实现各种语句的自动识别以至语言的自动理解,从而实现人机语音交互应答系统,真正赋予计算机以听觉的功能。语言信息主要包含在语音信号的参数之中,因此准确而迅速地提取语言信号的参数是进行语音信号处理的关键。常用的语音信号参数有:共振峰幅度、频率与带宽、音调和噪音、噪音的判别等。后来又提出了线性预 ...
【技术保护点】
1.一种基于语音评测的数据处理系统,包括:语音采集装置,用于采集语音数据;语音预处理装置,用于对采集到的语音进行预处理;语音评测装置,用于对预处理后的语音进行语音质量的评测,得到高质量语音和低质量语音;语音分类单元,用于在高质量语音和低质量语音的基础上,再根据语音的物理状态和语音的语言状态进行语音分类,将语音分类为多个子语音集合;语音处理单元,根据分类得到的子语音集合进行语音识别、语音数据压缩和/或语音数据发送;其特征在于,所述语音评测装置,对预处理后的语音进行语音质量的评测,得到高质量语音和低质量语音的方法执行以下步骤:步骤1:获得语音的采集失真参数和获得语音帧失真参数;步骤2:根据采集失真参数和语音帧失真参数计算语音质量参数,语音质量参数为采集失真参数和语音帧失真参数的差值;步骤3:将语音质量参数与设定的阈值进行比较,若高于设定的阈值,则将语音数据归类为高质量语音,若低于设定的阈值,则将语音数据归类为低质量语音;其中,所述采集失真参数的计算方法,采用如下公式:
【技术特征摘要】
1.一种基于语音评测的数据处理系统,包括:语音采集装置,用于采集语音数据;语音预处理装置,用于对采集到的语音进行预处理;语音评测装置,用于对预处理后的语音进行语音质量的评测,得到高质量语音和低质量语音;语音分类单元,用于在高质量语音和低质量语音的基础上,再根据语音的物理状态和语音的语言状态进行语音分类,将语音分类为多个子语音集合;语音处理单元,根据分类得到的子语音集合进行语音识别、语音数据压缩和/或语音数据发送;其特征在于,所述语音评测装置,对预处理后的语音进行语音质量的评测,得到高质量语音和低质量语音的方法执行以下步骤:步骤1:获得语音的采集失真参数和获得语音帧失真参数;步骤2:根据采集失真参数和语音帧失真参数计算语音质量参数,语音质量参数为采集失真参数和语音帧失真参数的差值;步骤3:将语音质量参数与设定的阈值进行比较,若高于设定的阈值,则将语音数据归类为高质量语音,若低于设定的阈值,则将语音数据归类为低质量语音;其中,所述采集失真参数的计算方法,采用如下公式:,其中,为采集失真参数,为语音的帧数,,为语音每一帧的码率,,为标准的设定的语音每一帧的码率,为采集语音的频率,表示对运算结果进行归一化运算,为取模运算;且运算时,将语音每一帧的码率视为未知数进行积分运算,降低运算复杂度。
2.如权利要求1所述的系统,其特征在于,所述获得语音帧失真参数的方法包括:解析语音包的包头,根据所述语音包的包头获得语音序列的各语音段中各参考帧在语音段中误码传播会影响的帧数和损失比例,语音段中各个有丢包的非参考帧的数目以及丢包损失比例;利用各参考帧在语音段中误码传播会影响的帧数和损失比例计算参考帧丢包损失的失真;其中参考帧丢包损失的失真随误码传播会影响的帧数和损失比例中任何一个增加而增加;利用丢包的非参考帧的数目以及丢包损失比例计算非参考帧丢包损失的失真;组合参考帧丢包损失的失真和非参考帧丢包损失的失真得到语音帧失真参数。
3.如权利要求2所述的系统,其特征在于,所述语音的物理状态包括:语速、频率、音调、响度和音色;所述语音的语言状态包括:语气和语种;所述语音分类单元,用于在高质量语音和低质量语音的基础上,再根据语音的物理状态和语音的语言状态进行语音分类,将语音分类为多个子语音集合;其中,根据语音的物理状态将语音分类为多个子语音集合的方法执行以下步骤:步骤A1:进行训练,采集样本语音,对样本语音进行频谱分析,得到样本语音的频谱图,将频谱图作为训练集,针对训练集进行特征提取,然后进行神经网络的训练,设定神经网络参数的初始值,所述神经网络包括输入层、中间变量层和输出层;步骤B1:进行语音的物理状态的分类,对待分类语音进行频谱分析,得到待分类语音的频谱图;步骤C1:使用建立的神经网络对频谱图进行特征提取,得到待识别语音的语音特征,将特征提取的结果与样本语音的特征进行比对和分类;其中,所述步骤C1中,将特征提取的结果与样本语音的特征进行比对和分类使用如下公式:,其中,代表特征提取的结果,代表样本语音的特征,为比对值,为比对次数,为特征提取的结果对应的模值,为样本语音的特征的模值,表示归一化运算,为调整参数,其取值范围为:0.8~1.2。
4.如权利要求3所述的系统,其特征在于,所述中间变量层的节点包括各个输出神经元节点的兴奋型变量节点和抑制型变量节点,所述中间变量层的各节点分别与所述输入层的每个输入神经元节点通过可变权值连接,所述可变权值包括可变的长期权值和短期权值,所述输出层的每个输出神经元节点分别与所述中间变量层中对应的...
【专利技术属性】
技术研发人员:庞志耕,郭见伟,雷超,郎刚,胡玲玲,
申请(专利权)人:北京五岳鑫信息技术股份有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。