一种语音转文字的处理方法、系统及设备技术方案

技术编号:26847548 阅读:34 留言:0更新日期:2020-12-25 13:12
本发明专利技术公开了一种语音转文字的处理方法,包括以下步骤:采集语音信息作为训练数据,对训练数据进行发音标注,并以字为单元构建基于前馈神经网络结构的声学模型;获取语料信息,对其进行分词提取并生成分词文本,将分词文本训练生成语言模型;对原始声音依次进行声道转换处理、预加重处理、分帧处理以及加窗处理后,得到预处理声音;对预处理声音进行小波变换生成频谱图,提取频谱图的声学特征并对所述声学特征进行向量化,得到声学特征向量,将声学特征向量输入到声学模型和语音模型中,得到文本信息。

【技术实现步骤摘要】
一种语音转文字的处理方法、系统及设备
本专利技术涉及语音识别领域,具体涉及一种语音转文字的处理方法、系统及设备。
技术介绍
在重要会议中,需要用文字记录下全部的发言内容,但无论是手写还是机打都难以跟上讲话的速度,造成会议纪要的内容丢失。
技术实现思路
为解决上述技术问题,本专利技术提供一种语音转文字的处理方法、系统及设备。为解决上述技术问题,本专利技术采用如下技术方案:一种语音转文字的处理方法,包括以下步骤:步骤一:采集语音信息作为训练数据,对训练数据进行发音标注,并以字为单元构建基于前馈神经网络结构的声学模型;步骤二:获取语料信息,对其进行分词提取并生成分词文本,将分词文本训练生成语言模型;步骤三:对原始声音依次进行声道转换处理、预加重处理、分帧处理以及加窗处理后,得到预处理声音;步骤四:对预处理声音进行小波变换生成频谱图,提取频谱图的声学特征并对所述声学特征进行向量化,得到声学特征向量,将声学特征向量输入到声学模型和语音模型中,得到文本信息。具体地,进行预加重处理时本文档来自技高网...

【技术保护点】
1.一种语音转文字的处理方法,包括以下步骤:/n步骤一:采集语音信息作为训练数据,对训练数据进行发音标注,并以字为单元构建基于前馈神经网络结构的声学模型;/n步骤二:获取语料信息,对其进行分词提取并生成分词文本,将分词文本训练生成语言模型;/n步骤三:对原始声音依次进行声道转换处理、预加重处理、分帧处理以及加窗处理后,得到预处理声音;/n步骤四:对预处理声音进行小波变换生成频谱图,提取频谱图的声学特征并对所述声学特征进行向量化,得到声学特征向量,将声学特征向量输入到声学模型和语音模型中,得到文本信息。/n

【技术特征摘要】
1.一种语音转文字的处理方法,包括以下步骤:
步骤一:采集语音信息作为训练数据,对训练数据进行发音标注,并以字为单元构建基于前馈神经网络结构的声学模型;
步骤二:获取语料信息,对其进行分词提取并生成分词文本,将分词文本训练生成语言模型;
步骤三:对原始声音依次进行声道转换处理、预加重处理、分帧处理以及加窗处理后,得到预处理声音;
步骤四:对预处理声音进行小波变换生成频谱图,提取频谱图的声学特征并对所述声学特征进行向量化,得到声学特征向量,将声学特征向量输入到声学模型和语音模型中,得到文本信息。


2.根据权利要求1所述的语音转文字的处理方法,其特征在于:进行预加重处理时,将经过声道转换处理的原始声音通过高通滤波器,得到加重音频信号
s(n)=x(n)-αx(n-1);
其中x(n)是原始声音信号在n时刻的采样值,x(n-1)是原始声音信号在n-1时刻的采样值,0.95≤α≤0.99;
所述高通滤波器的传递函数H(z)=1-a*z-1;a为预加重系数,z为对所述加重音频信号进行处理过程中的变化频域。


3.根据权利要求1所述的语音转文字的处理方法,其特征在于:对原始声音进行预加重处理后得到加重音频信号;对加重音频信号进行加窗处理时,将加重音频信号与布莱克曼窗函数相乘得到加窗声音信号,其中布莱克曼窗函数





4.根据权利要求...

【专利技术属性】
技术研发人员:胡增孙有效刘雨晴
申请(专利权)人:中用科技有限公司
类型:发明
国别省市:安徽;34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1