【技术实现步骤摘要】
本专利技术涉及自然语言处理
,特别涉及一种对语音识别后文本进 行检错并纠错的方法。
技术介绍
语音识别技术是一种让机器通过识别和理解,把人类的语言转变为相应 的文本的技术,其最终目的是让机器听懂人类的语言,实现人类与机器 的自由交流。然而,现有语音识别后文本中经常会有很多错误,也即语音识 别率并不是很高,从而影响了人类与机器之间的正常交流,因此,提高语音 识别率成了语音识别技术中的当务之急。为了提高语音识别率,也就需要对语音识别后文本进行检错并纠错。
技术实现思路
有鉴于此,本专利技术提供了 一种对语音识别后文本进行检错并纠错的方 法,以提高语音识别率、实现人类与机器的自由交流。为达到上述目的,本专利技术的技术方案具体是这样实现的,用于对语音识别后文本 中的文本句进行检错,并对检错后文本句中的错误词语进行纠错,包括按照所述语音识别后文本中的文本句所属领域,分别创建包含有N元语法 值集合的第二语法知识库,包含有核心词集合的第二语义知识库,以及第二语 境知识库,其中,第二语境知识库包含有核心词、由包含核心词的文本句形成 的实例、以及所述核心词与其实例中除该核心词之外的其它词语的语境关联度 集合;并且,所述第二语法知识库独立于包含有通用语法知识的第一语法知识 库,所述第二语义知识库独立于包含有通用语义知识的第一语义知识库;将所述语音识别后文本中的文本句转换成拼音形式的文本句,从所述第二语法知识库中获取所述拼音形式的文本句的N元语法值,将N元语法值大于阈 值7^的N个拼音对应的词语和所述第二语义知识库中的核心词的并集作为所述 语音识别后文本中的文本句的锚点词, ...
【技术保护点】
一种对语音识别后文本进行检错并纠错的方法,用于对语音识别后文本中的文本句进行检错,并对检错后文本句中的错误词语进行纠错,其特征在于,该方法包括: 按照所述语音识别后文本中的文本句所属领域,分别创建包含有N元语法值集合的第二语法知识库,包含有核心词集合的第二语义知识库,以及第二语境知识库,其中,第二语境知识库包含有核心词、由包含核心词的文本句形成的实例、以及所述核心词与其实例中除该核心词之外的其它词语的语境关联度集合;并且,所述第二语法知识库独立于包含有通用语法知识的第一语法知识库,所述第二语义知识库独立于包含有通用语义知识的第一语义知识库; 将所述语音识别后文本中的文本句转换成拼音形式的文本句,从所述第二语法知识库中获取所述拼音形式的文本句的N元语法值,将N元语法值大于阈值T↓[1]的N个拼音对应的词语和所述第二语义知识库中的核心词的并集作为所述语音识别后文本中的文本句的锚点词,其中,所述N为自然数; 查找所述第二语境知识库,获取每个锚点词对应的实例;基于第二语境知识库中的语境关联度和第一语义知识库中的语义相似度,计算所述语音识别后文本中的文本句中的每个词语与每个所述获取的实例中所有词 ...
【技术特征摘要】
1、一种对语音识别后文本进行检错并纠错的方法,用于对语音识别后文本中的文本句进行检错,并对检错后文本句中的错误词语进行纠错,其特征在于,该方法包括按照所述语音识别后文本中的文本句所属领域,分别创建包含有N元语法值集合的第二语法知识库,包含有核心词集合的第二语义知识库,以及第二语境知识库,其中,第二语境知识库包含有核心词、由包含核心词的文本句形成的实例、以及所述核心词与其实例中除该核心词之外的其它词语的语境关联度集合;并且,所述第二语法知识库独立于包含有通用语法知识的第一语法知识库,所述第二语义知识库独立于包含有通用语义知识的第一语义知识库;将所述语音识别后文本中的文本句转换成拼音形式的文本句,从所述第二语法知识库中获取所述拼音形式的文本句的N元语法值,将N元语法值大于阈值T1的N个拼音对应的词语和所述第二语义知识库中的核心词的并集作为所述语音识别后文本中的文本句的锚点词,其中,所述N为自然数;查找所述第二语境知识库,获取每个锚点词对应的实例;基于第二语境知识库中的语境关联度和第一语义知识库中的语义相似度,计算所述语音识别后文本中的文本句中的每个词语与每个所述获取的实例中所有词语的词语相关度,并根据所述词语相关度计算所述获取的实例与所述语音识别后文本中的文本句的文本相关度,获取每个锚点词对应的实例中文本相关度最大的实例;基于第二语境知识库中的语境关联度和第一语义知识库中的语义相似度,计算所述语音识别后文本中的文本句中的词语与所述获取的每个锚点词对应的实例中文本相关度最大的实例的词语相关度,如果所述词语相关度大于阈值T3,则将所述词语作为正确词语,将所述语音识别后文本中的文本句中正确词语以外的其它词语作为错误词语;从第一语法知识库中获取候选词语,如果所述候选词语与所述获取的文本相关度最大的实例和谐,则将所述候选词语替换所述错误词语。2、 如权利要求1所述的方法,其特征在于,所述创建第二语法知识库包括 搜索所述语音识别后文本中的文本句所属领域中的文本,将所述搜索到的文本中所有的文本句转换成拼音形式的文本句,建立所述拼音形式的文本句的 N元语法模型,将得到的N元语法模型进行平滑处理,得到所述第二语法知识 库。3、 如权利要求1所述的方法,其特征在于,所述创建第二语义知识库包括 搜索所述语音识别后文本中的文本句所属领域中的文本,并设定所述语音识别后文本中的文本句所属领域中的语境词为种子词库,分别计算所述搜索到 的文本中的文本句与所述语境词共同出现在同 一个文本句中的频数,将频数最 高的前三位词语加入到种子词库中,得到新种子词库,基于新种子词库对所述搜索到的文本进行卡方4全验,将卡方检验后得到的 所述搜索到的文本中每个词语的总卡方值大小进行排序,从所述排序后的词语 中取出卡方值大于某一阈值的词语作为核心词,得到所述第二语义知识库,所 述阈值的大小由所需选取得核心词数量来确定。4、 如权利要求3所述的方法,其特征在于,所述创建第二语境知识库包括 搜索所述语音识别后文本中的文本句所属领域中的文本,基于所...
【专利技术属性】
技术研发人员:李蕾,龙丽霞,王兴建,王骏,
申请(专利权)人:李蕾,龙丽霞,王兴建,王骏,
类型:发明
国别省市:11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。