一种基于领域识别的对语音识别后文本纠错的方法技术

技术编号:17363623 阅读:38 留言:0更新日期:2018-02-28 13:39
本发明专利技术属于语音识别文本处理领域,其公开了一种基于领域识别的对语音识别后文本纠错的方法,解决传统技术中的处理方法需要大量人工介入,纠错效率低,而且无法对专有名称进行纠错的问题。该方法包括以下步骤:a对语音识别后的文本进行识错分析,并初步确定文本语句所属领域;b.根据预定义的语法规则对待纠错句子进行切分,划分为冗余部分以及核心部分;c.利用搜索引擎进行字符串模糊匹配确定句子核心部分的候选专有词库集;d.根据编辑距离计算相似度得分,分别对冗余部分和核心部分纠错。e.对纠错后的冗余部分和核心部分进行融合,然后输出纠错结果。

A method for correcting text error after speech recognition based on domain recognition

The invention belongs to the field of speech recognition, text processing, and discloses a method for text recognition based on speech recognition error correction processing method, solve the traditional technology requires a lot of manual intervention and correction of low efficiency, but not the error correction problem of proper names. The method comprises the following steps: a text to speech recognition after the error analysis, and determine the text sentence belongs to the field of B.; according to predefined rules of grammar to correcting sentence segmentation, divided into redundant parts as well as the core part of C.; use a search engine to determine the core part of the candidate sentence set fuzzy string matching proprietary thesaurus D.; calculating the similarity score according to the edit distance, respectively to the redundant part and the core part of error correction. E. combines the redundant and core parts after the error correction, and then outputs the error correction results.

【技术实现步骤摘要】
一种基于领域识别的对语音识别后文本纠错的方法
本专利技术属于语音识别文本处理领域,具体涉及一种基于领域识别的对语音识别后文本纠错的方法。
技术介绍
近年来,人工智能的需求和发展日益增加,让计算机正确的理解人类的语言成为重中之重。语音识别主要可以分为前处理和后处理过程,前处理过程主要包括了语音信号处理的过程,对人类/用户所说的话进行参数提取分析,集中在语音信号的处理;语音后处理则涉及到了音节到汉字的转变,换言之,即是把语音信号信息转为计算机可识别的内码的过程。实际语音识别后处理过程中,由于语音输入者(讲话人)可能的心理或者情绪的起伏、方言口音等问题,造成语速过快/过、声调变高/低、发音失真等共振峰和音调变化,产生语音识别信号错误,从而无法正确表达用户(讲话人)的真实内容给计算机做后续处理。本申请着重语音识别后处理领域的后文本处理技术。目前语音识别后的文本主要的错误主要分为以下三类:同音字/同音词,比如,是\市\时;近音字/近音词,比如,幸福\信服;外因造成的漏音、冗余、前后粘连,比如,我/我的。现有有效能够应用在实际中语音识别后文本处理技术主要都是基于统计或者基于规则的方法。采用替换字表结合主词典,通过加字和换字对侦测出来的错误字串提供纠错建议的纠错算法。但该算法的局限性在于纠错建议局限于纠错字表,同时,此方法涉及大量的人工介入建立大批量的可替代词以及可能出现的错词、错字,同时此方法涉及大量的检索步骤,在某些特定场景下无法保证速度要求,鲁棒性不强。再则,从大量语料以及实例中挖掘其可能存在的关联关系,加入统计模型,此方法不需要词典,依靠的是词与词之间的关系。但是,此方法对于不常出现的词语组合,尤其是同音词的纠错困难,同时还有对于缺字或者漏子的情况无法做到一个很好的纠错。同时,在电视端,如果识别后的句子中带有专有电影名、演员名或者歌曲名等专有名称没有正确的识别或者纠正,将极大的降低后续开发的正确率以及用户体验效果。
技术实现思路
本专利技术所要解决的技术问题是:提出一种基于领域识别的对语音识别后文本纠错的方法,解决传统技术中的处理方法需要大量人工介入,纠错效率低,而且无法对专有名称进行纠错的问题。本专利技术解决其技术问题所采用的技术方案是:一种基于领域识别的对语音识别后文本纠错的方法,包括以下步骤:a.对语音识别后的文本进行识错分析,并初步确定文本语句所属领域;b.根据预定义的语法规则对待纠错句子进行切分,划分为冗余部分以及核心部分;c.利用搜索引擎进行字符串模糊匹配确定句子核心部分的候选专有词库集;d.根据编辑距离计算相似度得分,分别对冗余部分和核心部分纠错;e.对纠错后的冗余部分和核心部分进行融合,然后输出纠错结果。作为进一步优化,还包括步骤:f.识别的原错误语句和对应的纠错结果加入混淆词库集,供以后的语音识别学习和训练。作为进一步优化,步骤a具体包括:将语音识别后的文本进行词元组合,并通过Bigrams模型对比不同词频文件进行识别,对识别后的词元进行两两组合,一直到整个句子组合识别完毕,选择识别错误词最少的词频库对应的领域为初步确定的领域;其中,词频文件由各个领域多个专有名词库组成。作为进一步优化,步骤b具体包括:根据预先训练的句式规则对待纠错句子进行切割,将句子分为冗余部分和核心部分,记录下待纠错句子的句式规则,并且将句子冗余部分和核心部分全部转化为拼音。作为进一步优化,步骤c具体包括:对确定后的句子核心部分进行分词,再利用搜索引擎whoosh对分词后的结果在步骤a中初步确定的领域内进行进行字符串模糊匹配。作为进一步优化,步骤d具体包括:d1.冗余部分纠错:直接利用拼音对比正确词库的拼音,基于编辑距离计算相似性得分,选取合适的阈值,选择超过阈值中相似度得分的最高正确词组为冗余部分可接受的纠错候选结果;d2.核心部分纠错:根据确定的候选专有词库集,通过预先训练得到的句式规则,将候选的专有词库集根据句式规则进行排列组合,得到候选核心句集,计算核心句集与待纠错的核心句编辑距离相似性得分,根据不同的句式规则,确定合适的阈值,选择超过阈值中相似度得分最高的候选句作为核心部分可接受的纠错候选结果。作为进一步优化,步骤e具体包括:根据步骤b中记录下的待纠错句子的句式规则对冗余部分可接受的纠错候选结果以及核心部分可接受的纠错候选结果进行融合作为最佳纠错结果,并输出该最佳纠错结果。作为进一步优化,步骤f具体包括:构建混淆词库集,将识别的错误语句和对应的纠错结果建立映射关系,以供之后的纠错分析以及纠错优化。本专利技术的有益效果是:不需要额外的人工建立可能出错的混淆词库集,仅通过现有的正确词库集就可以利用现有媒体库、数据直接开始进行语音识别后的文本纠错,减少因为数据集不够而无法建立有效的纠错的流程。同时,对每一次的错误识别文本和纠错结果进行自动记录并关联,在达到一定的数据集规模后,能够对收集到的真实和有针对性的数据进行机器学习,建立更加合理的基于特征和自学习的模型,相比直接进行大规模的语料挖掘爬虫得到的数据更加准确真实,增强了可实践性和鲁棒性。再则,因为将文本转换为拼音进行文本纠错后,解决了可能出现的同音词和多音字的问题,不需要计算机再进行一次额外判断识别后的中文字段是否为多音字或者同音字,减少了速度损耗。此外,通过直接对整句进行基于编辑距离的得分计算,解决了因为发音或者用户(讲话人)口误所存在的多字、漏字、前后粘连等问题。加之,使用Bigrams模型和whoosh搜索引擎进行初步领域确定和下属领域的精确化,减少了因最后精确匹配可能出现数据集过大而产生的大量时间损耗的问题。附图说明图1为本专利技术中的基于领域识别的对语音识别后文本纠错的方法流程图;图2为对核心部分纠错的处理流程图。具体实施方式本专利技术旨在提出一种基于领域识别的对语音识别后文本纠错的方法,解决传统技术中的处理方法需要大量人工介入,纠错效率低,而且无法对专有名称进行纠错的问题。本专利技术采用了Bigram模型和whoosh搜索引擎对输入文本进行领域判断,Bigram通过引入马尔科夫假设,解决了n-grams中数据稀疏和参数空间过大的问题,假设一个词的出现仅依赖于前面出现的一个词,从而建立字与字之间的关系。而whoosh搜索引擎帮助建立领域判别,根据输入的文本建立索引,能够快速的实现模糊匹配的候选集识别,提升多领域的语义识别后文本纠错速度。具体而言,首先,利用Bigrams模型进行识错并且确定大领域,然后利用搜索引擎whoosh使用模糊匹配确定下属领域得到候选词\句集,最后通过训练得到的句式规则进行组成候选句,通过计算基于编辑距离的相似得分计算对比正确词库得出正确语句。在具体实现上,本专利技术中的基于领域识别的对语音识别后文本纠错的方法如图1所示,其包括以下步骤:1、对语音识别后的文本进行识错分析,并初步确定文本语句所属领域;本步骤中,将语音识别后的文本进行词元组合,并通过Bigrams模型对比不同词频文件进行识别,对识别后的词元进行两两组合,一直到整个句子组合识别完毕,选择识别错误词最少的词频库对应的领域为初步确定的领域;其中,词频文件主要由各个领域专有等个专有名词库组成,比如电影词频库由电影名人(演员、导演等),电影名字组成,音乐由歌手名、歌曲类别等组成。Bigram引入马尔本文档来自技高网
...
一种基于领域识别的对语音识别后文本纠错的方法

【技术保护点】
一种基于领域识别的对语音识别后文本纠错的方法,其特征在于,包括以下步骤:a.对语音识别后的文本进行识错分析,并初步确定文本语句所属领域;b.根据预定义的语法规则对待纠错句子进行切分,划分为冗余部分以及核心部分;c.利用搜索引擎进行字符串模糊匹配确定句子核心部分的候选专有词库集;d.根据编辑距离计算相似度得分,分别对冗余部分和核心部分纠错;e.对纠错后的冗余部分和核心部分进行融合,然后输出纠错结果。

【技术特征摘要】
1.一种基于领域识别的对语音识别后文本纠错的方法,其特征在于,包括以下步骤:a.对语音识别后的文本进行识错分析,并初步确定文本语句所属领域;b.根据预定义的语法规则对待纠错句子进行切分,划分为冗余部分以及核心部分;c.利用搜索引擎进行字符串模糊匹配确定句子核心部分的候选专有词库集;d.根据编辑距离计算相似度得分,分别对冗余部分和核心部分纠错;e.对纠错后的冗余部分和核心部分进行融合,然后输出纠错结果。2.如权利要求1所述的一种基于领域识别的对语音识别后文本纠错的方法,其特征在于,还包括步骤:f.识别的原错误语句和对应的纠错结果加入混淆词库集,供以后的语音识别学习和训练。3.如权利要求1所述的一种基于领域识别的对语音识别后文本纠错的方法,其特征在于,步骤a具体包括:将语音识别后的文本进行词元组合,并通过Bigrams模型对比不同词频文件进行识别,对识别后的词元进行两两组合,一直到整个句子组合识别完毕,选择识别错误词最少的词频库对应的领域为初步确定的领域;其中,词频文件由各个领域多个专有名词库组成。4.如权利要求1所述的一种基于领域识别的对语音识别后文本纠错的方法,其特征在于,步骤b具体包括:根据预先训练的句式规则对待纠错句子进行切割,将句子分为冗余部分和核心部分,记录下待纠错句子的句式规则,并且将句子冗余部分和核心部分全部转化为拼音。5.如权利要求1所述的一种基...

【专利技术属性】
技术研发人员:杨鑫刘楚雄唐军
申请(专利权)人:四川长虹电器股份有限公司
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1