The invention belongs to the field of speech recognition, text processing, and discloses a method for text recognition based on speech recognition error correction processing method, solve the traditional technology requires a lot of manual intervention and correction of low efficiency, but not the error correction problem of proper names. The method comprises the following steps: a text to speech recognition after the error analysis, and determine the text sentence belongs to the field of B.; according to predefined rules of grammar to correcting sentence segmentation, divided into redundant parts as well as the core part of C.; use a search engine to determine the core part of the candidate sentence set fuzzy string matching proprietary thesaurus D.; calculating the similarity score according to the edit distance, respectively to the redundant part and the core part of error correction. E. combines the redundant and core parts after the error correction, and then outputs the error correction results.
【技术实现步骤摘要】
一种基于领域识别的对语音识别后文本纠错的方法
本专利技术属于语音识别文本处理领域,具体涉及一种基于领域识别的对语音识别后文本纠错的方法。
技术介绍
近年来,人工智能的需求和发展日益增加,让计算机正确的理解人类的语言成为重中之重。语音识别主要可以分为前处理和后处理过程,前处理过程主要包括了语音信号处理的过程,对人类/用户所说的话进行参数提取分析,集中在语音信号的处理;语音后处理则涉及到了音节到汉字的转变,换言之,即是把语音信号信息转为计算机可识别的内码的过程。实际语音识别后处理过程中,由于语音输入者(讲话人)可能的心理或者情绪的起伏、方言口音等问题,造成语速过快/过、声调变高/低、发音失真等共振峰和音调变化,产生语音识别信号错误,从而无法正确表达用户(讲话人)的真实内容给计算机做后续处理。本申请着重语音识别后处理领域的后文本处理技术。目前语音识别后的文本主要的错误主要分为以下三类:同音字/同音词,比如,是\市\时;近音字/近音词,比如,幸福\信服;外因造成的漏音、冗余、前后粘连,比如,我/我的。现有有效能够应用在实际中语音识别后文本处理技术主要都是基于统计或者基于规则的方法。采用替换字表结合主词典,通过加字和换字对侦测出来的错误字串提供纠错建议的纠错算法。但该算法的局限性在于纠错建议局限于纠错字表,同时,此方法涉及大量的人工介入建立大批量的可替代词以及可能出现的错词、错字,同时此方法涉及大量的检索步骤,在某些特定场景下无法保证速度要求,鲁棒性不强。再则,从大量语料以及实例中挖掘其可能存在的关联关系,加入统计模型,此方法不需要词典,依靠的是词与词之间的关系。但 ...
【技术保护点】
一种基于领域识别的对语音识别后文本纠错的方法,其特征在于,包括以下步骤:a.对语音识别后的文本进行识错分析,并初步确定文本语句所属领域;b.根据预定义的语法规则对待纠错句子进行切分,划分为冗余部分以及核心部分;c.利用搜索引擎进行字符串模糊匹配确定句子核心部分的候选专有词库集;d.根据编辑距离计算相似度得分,分别对冗余部分和核心部分纠错;e.对纠错后的冗余部分和核心部分进行融合,然后输出纠错结果。
【技术特征摘要】
1.一种基于领域识别的对语音识别后文本纠错的方法,其特征在于,包括以下步骤:a.对语音识别后的文本进行识错分析,并初步确定文本语句所属领域;b.根据预定义的语法规则对待纠错句子进行切分,划分为冗余部分以及核心部分;c.利用搜索引擎进行字符串模糊匹配确定句子核心部分的候选专有词库集;d.根据编辑距离计算相似度得分,分别对冗余部分和核心部分纠错;e.对纠错后的冗余部分和核心部分进行融合,然后输出纠错结果。2.如权利要求1所述的一种基于领域识别的对语音识别后文本纠错的方法,其特征在于,还包括步骤:f.识别的原错误语句和对应的纠错结果加入混淆词库集,供以后的语音识别学习和训练。3.如权利要求1所述的一种基于领域识别的对语音识别后文本纠错的方法,其特征在于,步骤a具体包括:将语音识别后的文本进行词元组合,并通过Bigrams模型对比不同词频文件进行识别,对识别后的词元进行两两组合,一直到整个句子组合识别完毕,选择识别错误词最少的词频库对应的领域为初步确定的领域;其中,词频文件由各个领域多个专有名词库组成。4.如权利要求1所述的一种基于领域识别的对语音识别后文本纠错的方法,其特征在于,步骤b具体包括:根据预先训练的句式规则对待纠错句子进行切割,将句子分为冗余部分和核心部分,记录下待纠错句子的句式规则,并且将句子冗余部分和核心部分全部转化为拼音。5.如权利要求1所述的一种基...
【专利技术属性】
技术研发人员:杨鑫,刘楚雄,唐军,
申请(专利权)人:四川长虹电器股份有限公司,
类型:发明
国别省市:四川,51
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。