一种语音转换后文本纠错方法技术

技术编号:26731123 阅读:31 留言:0更新日期:2020-12-15 14:32
本发明专利技术的一种语音转换后文本纠错方法,包括如下步骤:S100、输入语音信息,输出特征向量;S200、将特征向量输入到HMM声学模型,输出得到音素信息;S300、进行逐音扫描后与网络词库T1进行匹配,如果匹配成功,则输出文本,如果匹配失败,则与标准词库T2进行匹配;S400、将各个词与词库T2进行匹配,如果匹配成功,则输出文本结果,如果匹配失败,则继续步骤S500;S500、对匹配失败的词进行读音判断,对词进行逐字扫描和近似音转换;S600、将转换后的词重新进行步骤S300和S400。在语音识别文本匹配过程中,将匹配失败的词语进行读音替换,组成新词,来纠正由于口音造成的语音识别文本转换错误。

【技术实现步骤摘要】
一种语音转换后文本纠错方法
本专利技术属于语音识别转换
,具体来说是一种语音转换后文本纠错方法。
技术介绍
与机器进行语音交流,让机器明白你说什么,这是人们长期以来梦寐以求的事情。中国物联网校企联盟形象得把语音识别比做为机器的听觉系统。语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的技术。语音识别技术主要包括特征提取技术、模式匹配准则及模型训练技术三个方面。语音识别技术车联网也得到了充分的引用,例如:只需口述即可设置目的地直接导航,安全、便捷。语音识别是一门交叉学科。近二十年来,语音识别技术取得显著进步,开始从实验室走向市场。人们预计,未来10年内,语音识别技术将进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。语音识别技术所涉及的领域包括:信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等。如何提高语音识别的准确率以及识别速度,是该领域技术人员努力的方向;目前,由于人们说话带有口音,甚至有区别很大的方言,给语音识别造成了较大的困难,因此需要提出解决方案。
技术实现思路
1.专利技术要解决的技术问题本专利技术的目的在于解决现有的语音识别准确率不高的问题。2.技术方案为达到上述目的,本专利技术提供的技术方案为:本专利技术的一种语音转换后文本纠错方法,包括如下步骤:S100、输入语音信息,进行语音特征提取得到LPCC(线性预测倒谱系数),Mel倒谱系数,输出特征向量;S200、将特征向量输入到HMM(隐马尔可夫模型)声学模型,输出得到音素信息;S300、以单个音,两个音,三个音,四个音的方式进行逐音扫描,将各个词先与网络词库T1进行匹配,如果匹配成功,则输出文本,如果匹配失败,则与标准词库T2进行匹配;S400、将各个词与词库T2进行匹配,如果匹配成功,则输出文本结果,如果匹配失败,则继续步骤S500;S500、对匹配失败的词进行读音判断,对词进行逐字扫描,并进行近似音转换;S600、将转换后的词重新进行步骤S300和S400。优选的,所述步骤S500中匹配失败的词进行转换重新匹配的次数大于6次时结束匹配,输出匹配失败。优选的,所述网络词库T1为存储有最新流行词的数据库。优选的,所述标准词库T2通过如下方法建立:(1)收集训练语料,将人民日报基本标注语料库作为训练语料;(2)将训练语料进行逐句扫描,以两标点符号作为短句判断依据,抽取短句进行逐词扫描;(3)对训练语料标注库按其词性标注对词语进行词性判断,按以下5种词性进行分类,分为副词,名词,动词,形容词,量词,并将这些词直接存入词库;(4)以名词,动词,形容词作为中心词进行搭配;(5)当训练语料到达末尾,则统计各搭配Qi出现的频次Pi,并设定频次判断阈值α为90%,若Pi大于阈值α,则将搭配存入词库,否则舍弃。优选的,所述步骤S500中的近似音转换包括首字母转换和发音转换。优选的,所述首字母转换具体为若该字的首字母为F或者H,则对该字进行首字母F、H之间的替换,与原来剩下的字进行重新组词。优选的,所述首字母转换具体为若该字的首字母为L、M、N或者R,则进行首字母L、M、N、R之间的替换,与原来剩下的字进行重新组词。优选的,所述发音转换具体为该字的发音存在Z、C、S与Zh、Ch、Sh平翘舌音的转换,则将则进行平翘舌的转换并与原来剩下的字进行重新搭配。3.有益效果采用本专利技术提供的技术方案,与现有技术相比,具有如下有益效果:本专利技术的一种语音转换后文本纠错方法,包括如下步骤:S100、输入语音信息,进行语音特征提取得到LPCC(线性预测倒谱系数),Mel倒谱系数,输出特征向量;S200、将特征向量输入到HMM(隐马尔可夫模型)声学模型,输出得到音素信息。S300、以单个音,两个音,三个音,四个音的方式进行逐音扫描,将各个词先与网络词库T1进行匹配,如果匹配成功,则输出文本,如果匹配失败,则与标准词库T2进行匹配;S400、将各个词与词库T2进行匹配,如果匹配成功,则输出文本结果,如果匹配失败,则继续步骤S500;S500、对匹配失败的词进行读音判断,对词进行逐字扫描,并进行近似音转换;S600、将转换后的词重新进行步骤S300和S400。在现有语音识别文本转换基础上,对匹配词库进行更新,根据词语搭配规则进行搭配,添加词组并存入词库,添加网络流行词存入词库,来提高语音文本转换后文本语义的准确率。在语音识别文本匹配过程中,将匹配失败的词语进行读音替换,组成新词,来纠正由于口音造成的语音识别文本转换错误。附图说明图1为本专利技术的一种语音转换后文本纠错方法的流程图;图2为本专利技术的具体纠错过程的流程图。具体实施方式为了便于理解本专利技术,下面将参照相关附图对本专利技术进行更全面的描述,附图中给出了本专利技术的若干实施例,但是,本专利技术可以以许多不同的形式来实现,并不限于本文所描述的实施例,相反地,提供这些实施例的目的是使对本专利技术的公开内容更加透彻全面。除非另有定义,本文所使用的所有的技术和科学术语与属于本专利技术的
的技术人员通常理解的含义相同;本文中在本专利技术的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本专利技术;本文所使用的术语“及/或”包括一个或多个相关的所列项目的任意的和所有的组合。实施例1参照图1和图2,本实施例的一种语音转换后文本纠错方法,包括如下步骤:S100、输入语音信息,进行语音特征提取得到LPCC(线性预测倒谱系数),Mel倒谱系数,输出特征向量;S200、将特征向量输入到HMM(隐马尔可夫模型)声学模型,输出得到音素信息;S300、以单个音,两个音,三个音,四个音的方式进行逐音扫描,将各个词先与网络词库T1进行匹配,如果匹配成功,则输出文本,如果匹配失败,则与标准词库T2进行匹配;S400、将各个词与词库T2进行匹配,如果匹配成功,则输出文本结果,如果匹配失败,则继续步骤S500;S500、对匹配失败的词进行读音判断,对词进行逐字扫描,并进行近似音转换;S600、将转换后的词重新进行步骤S300和S400。步骤S500中匹配失败的词进行转换重新匹配的次数大于6次时结束匹配,输出匹配失败。网络词库T1为存储有最新流行词的数据库。标准词库T2通过如下方法建立:(1)收集训练语料,将人民日报基本标注语料库作为训练语料;(2)将训练语料进行逐句扫描,以两标点符号作为短句判断依据,抽取短句进行逐词扫描;(3)对训练语料标注库按其词性标注对词语进行词性判断,按以下5种词性进行分类,分为副词,名词,动词,形容词,量词,并将这些词直接存入词库;(4)以名词,动词,形容词作为中心词进行搭配;(5)当训练语料到达末尾,则统计各本文档来自技高网
...

【技术保护点】
1.一种语音转换后文本纠错方法,其特征在于,包括如下步骤:/nS100、输入语音信息,进行语音特征提取得到LPCC(线性预测倒谱系数),Mel倒谱系数,输出特征向量;/nS200、将特征向量输入到HMM(隐马尔可夫模型)声学模型,输出得到音素信息;/nS300、以单个音,两个音,三个音,四个音的方式进行逐音扫描,将各个词先与网络词库T1进行匹配,如果匹配成功,则输出文本,如果匹配失败,则与标准词库T2进行匹配;/nS400、将各个词与词库T2进行匹配,如果匹配成功,则输出文本结果,如果匹配失败,则继续步骤S500;/nS500、对匹配失败的词进行读音判断,对词进行逐字扫描,并进行近似音转换;/nS600、将转换后的词重新进行步骤S300和S400。/n

【技术特征摘要】
1.一种语音转换后文本纠错方法,其特征在于,包括如下步骤:
S100、输入语音信息,进行语音特征提取得到LPCC(线性预测倒谱系数),Mel倒谱系数,输出特征向量;
S200、将特征向量输入到HMM(隐马尔可夫模型)声学模型,输出得到音素信息;
S300、以单个音,两个音,三个音,四个音的方式进行逐音扫描,将各个词先与网络词库T1进行匹配,如果匹配成功,则输出文本,如果匹配失败,则与标准词库T2进行匹配;
S400、将各个词与词库T2进行匹配,如果匹配成功,则输出文本结果,如果匹配失败,则继续步骤S500;
S500、对匹配失败的词进行读音判断,对词进行逐字扫描,并进行近似音转换;
S600、将转换后的词重新进行步骤S300和S400。


2.根据权利要求1所述的一种语音转换后文本纠错方法,其特征在于:所述步骤S500中匹配失败的词进行转换重新匹配的次数大于6次时结束匹配,输出匹配失败。


3.根据权利要求1所述的一种语音转换后文本纠错方法,其特征在于:所述网络词库T1为存储有最新流行词的数据库。


4.根据权利要求1所述的一种语音转换后文本纠错方法,其特征在于,所述标准词库T2通过如下方法建立:
(1)收集训练语料,将人民日报基本标注语料库作为训练语料;
(2...

【专利技术属性】
技术研发人员:徐涵许召辉马翼平陈年生范光宇饶蕾章弘凯
申请(专利权)人:中航华东光电上海有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1