当前位置: 首页 > 专利查询>李蕾专利>正文

一种对语音识别后文本进行检错并纠错的方法技术

技术编号:6593430 阅读:367 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种对语音识别后文本进行检错并纠错的方法,用于依次 对语音识别后文本中的文本句进行检错并纠错:分别创建所述语音识别后文 本中的文本句所属领域的第二语法知识库、第二语义知识库和第二语境知识 库;基于所述第二语法知识库和所述第二语义知识库定位文本句中的锚点 词,并基于所述第二语境知识库抽取所述定位的锚点词的实例;基于第一语 义知识库和所述抽取的实例对文本句进行检错;基于第一语法知识库和所述 抽取的实例对检错后得到的错误词语进行纠错。应用本发明专利技术所述的方法,能 够对语音识别后文本进行准确的检错并纠错,从而提高语音识别率、实现人 类与机器的自由交流。

【技术实现步骤摘要】

本专利技术涉及自然语言处理
,特别涉及一种对语音识别后文本进 行检错并纠错的方法。
技术介绍
语音识别技术是一种让机器通过识别和理解,把人类的语言转变为相应 的文本的技术,其最终目的是让机器听懂人类的语言,实现人类与机器 的自由交流。然而,现有语音识别后文本中经常会有很多错误,也即语音识 别率并不是很高,从而影响了人类与机器之间的正常交流,因此,提高语音 识别率成了语音识别技术中的当务之急。为了提高语音识别率,也就需要对语音识别后文本进行检错并纠错。
技术实现思路
有鉴于此,本专利技术提供了 一种对语音识别后文本进行检错并纠错的方 法,以提高语音识别率、实现人类与机器的自由交流。为达到上述目的,本专利技术的技术方案具体是这样实现的,用于对语音识别后文本 中的文本句进行检错,并对检错后文本句中的错误词语进行纠错,包括按照所述语音识别后文本中的文本句所属领域,分别创建包含有N元语法 值集合的第二语法知识库,包含有核心词集合的第二语义知识库,以及第二语 境知识库,其中,第二语境知识库包含有核心词、由包含核心词的文本句形成 的实例、以及所述核心词与其实例中除该核心词之外的其它词语的语境关联度 集合;并且,所述第二语法知识库独立于包含有通用语法知识的第一语法知识 库,所述第二语义知识库独立于包含有通用语义知识的第一语义知识库;将所述语音识别后文本中的文本句转换成拼音形式的文本句,从所述第二语法知识库中获取所述拼音形式的文本句的N元语法值,将N元语法值大于阈 值7^的N个拼音对应的词语和所述第二语义知识库中的核心词的并集作为所述 语音识别后文本中的文本句的锚点词,其中,所述N为自然数;查找所述第二语境知识库,获取每个锚点词对应的实例;基于第二语境知 识库中的语境关联度和第一语义知识库中的语义相似度,计算所述语音识别后度,并根据所述词语相关度计算所述获取的实例与所述语音识别后文本中的文 本句的文本相关度,获取每个锚点词对应的实例中文本相关度最大的实例; 基于第二语境知识库中的语境关联度和第一语义知识库中的语义相似度,计算所述语音识别后文本中的文本句中的词语与所述获取的每个锚点词对应的 实例中文本相关度最大的实例的词语相关度,如果所述词语相关度大于阈值7;, 则将所述词语作为正确词语,将所述语音识别后文本中的文本句中正确词语以 外的其它词语作为错误词语;从第一语法知识库中获取候选词语,如果所述候选词语与所述获取的文 本相关度最大的实例和谐,则将所述候选词语替换所述错误词语。由上述的技术方案可见,本专利技术所采用的对语音识别后文本进行检错并 纠错的方法,是分别对语音识别后文本中的每一个文本句进行检错、并对检 错后的文本句中的错误词语进行纠错的。由于该方法中所采用的第二语法知 识库、第二语义知识库和第二语境知识库都是针对所述语音识别后文本中的 文本句所属领域创建的,而且通过上述创建的特定领域的第二语法知识库和 第二语义知识库来获取锚点词,也就使得获取的锚点词是特定领域下的,并 通过该特定领域下的锚点词来获取实例,进一步地,通过实例来计算其与所 述语音识别后文本中中的文本句的文本相关度,也就使得在对文本句进行检 错纠错时充分结合了文本句所属领域下的语法、语义以及语境知识,能够对 语音识别后文本进行准确的检错并纠错,从而提高语音识别率、实现人类与机器的自由交流。 附图说明图1为本专利技术对语音识别后文本进行检错并纠错的工作流程图。图2为本实施例所采用的第二语法知识库的创建方法的工作流程图。 图3为本实施例所采用的第二语义知识库的创建方法的工作流程图。 图4为本专利技术采用第二语法知识库定位锚点词的工作流程图。 图5为本专利技术抽取实例的工作流程图。图6为本专利技术所采用的第二语境知识库的创建方法的工作流程图。 图7为本专利技术所采用的检错方法的工作流程图。 图8为本专利技术所采用的纠错方法的工作流程图。具体实施例方式为解决现有技术中存在的问题,本专利技术提出一种检错并纠错语音识别后 文本的方法,即基于实例对语音识别后文本进行检错并纠错确定好每个文 本句中的锚点词,抽取所述确定的锚点词的实例,并才艮据所述抽取的实例对文本句进行检错并纠错,由于该方法中所采用的第二语法知识库、第二语义 知识库和第二语境知识库都是针对所述语音识别后文本中的文本句所属领域创建的,而且通过上述创建的特定领域的第二语法知识库和第二语义知识 库来获取锚点词,也就使得获取的锚点词是特定领域下的,并通过该特定领 域下的锚点词来获取实例,进一步地,通过实例来计算其与所述语音识别后 文本中中的文本句的文本相关度,也就使得在对文本句进行检错纠错时充分 结合了文本句所属领域下的语法、语义以及语境知识,能够对语音识别后文 本进行准确的检错并纠错,从而提高语音识别率、实现人类与机器的自由交流。在介绍具体的实现方案之前,首先介绍一下文本句的概念,目标词、核 心词、语境词和锚点词这四个词的概念,语境知识库、语法知识库和语义知识库这三个知识库的积无念以及文本相关度、词语相关度、语境关联度和语义 相似度的概念。文本句是指具有完整结构的一个句子,例如以逗号结尾的一句话,或以 句号结尾的一句话等。目标词是从研究对象的角度来说的,即所要研究的目标对应的词语;核 心词和语境词是从使用功能的角度来说的,其中,核心词是针对一个特定领 域来说的,是最能体现一个特定领域中的具有代表意义的词语,语境词则是 针对一个目标词来说的,且一个词语既可以是核心词又可以是语境词;锚点 词是指被语音识别后文本中的被识别为正确的可能性很高的词语,是作为本 专利技术检错并纠错语音识别后文本的基准点的词语。语境知识库是用于提供特定领域中的语境相关知识的一种知识库;语法 知识库是用于提供与语法相关内容的一种知识库;语义知识库是用于提供表 现各种语义知识的 一种知识库。文本相关度是指两个文本句之间的相关程度;词语相关度是指两个文本 句中其中某一个文本句的某个词语与另 一个文本句的词语之间的相关程度, 它由语境关联度和语义相似度两部分组成,其中,语境关联度是指某个特定 领域中的两个词语在同一个文本句中共现的概率,而语义相似度是两个词语 在意义上的相近程度。基于上述介绍,本专利技术所述方案的具体实现包括按照所述语音识别后文本中的文本句所属领域,分别创建包含有N元语法 值集合的第二语法知识库,包含有核心词集合的第二语义知识库,以及第二语 境知识库,其中,第二语境知识库包含有核心词、由包含核心词的文本句形成的实例、以及所述核心词与其实例中除该核心词之外的其它词语的语境关联度 集合;并且,所述第二语法知识库独立于包含有通用语法知识的第一语法知识 库,所述第二语义知识库独立于包含有通用语义知识的第 一语义知识库;语法知识库中获取所述拼音形式的文本句的N元语法值,将N元语法值大于阈9值石的N个拼音对应的词语和所述第二语义知识库中的核心词的并集作为所述 语音识别后文本中的文本句的锚点词,其中,所述N为自然数;查找所述第二语境知识库,获取每个锚点词对应的实例;基于第二语境知 识库中的语境关联度和第一语义知识库中的语义相似度,计算所述语音识别后 文本中的文本句中的每个词语与每个所述获取的实例中所有词语的词语相关 度,并#4居所述词语相关度计算所述获取的实例与所述语音识别后文本文档来自技高网...

【技术保护点】
一种对语音识别后文本进行检错并纠错的方法,用于对语音识别后文本中的文本句进行检错,并对检错后文本句中的错误词语进行纠错,其特征在于,该方法包括: 按照所述语音识别后文本中的文本句所属领域,分别创建包含有N元语法值集合的第二语法知识库,包含有核心词集合的第二语义知识库,以及第二语境知识库,其中,第二语境知识库包含有核心词、由包含核心词的文本句形成的实例、以及所述核心词与其实例中除该核心词之外的其它词语的语境关联度集合;并且,所述第二语法知识库独立于包含有通用语法知识的第一语法知识库,所述第二语义知识库独立于包含有通用语义知识的第一语义知识库; 将所述语音识别后文本中的文本句转换成拼音形式的文本句,从所述第二语法知识库中获取所述拼音形式的文本句的N元语法值,将N元语法值大于阈值T↓[1]的N个拼音对应的词语和所述第二语义知识库中的核心词的并集作为所述语音识别后文本中的文本句的锚点词,其中,所述N为自然数; 查找所述第二语境知识库,获取每个锚点词对应的实例;基于第二语境知识库中的语境关联度和第一语义知识库中的语义相似度,计算所述语音识别后文本中的文本句中的每个词语与每个所述获取的实例中所有词语的词语相关度,并根据所述词语相关度计算所述获取的实例与所述语音识别后文本中的文本句的文本相关度,获取每个锚点词对应的实例中文本相关度最大的实例; 基于第二语境知识库中的语境关联度和第一语义知识库中的语义相似度,计算所述语音识别后文本中的文本句中的词语与所述获取的每个锚点词对应的实例中文本相关度最大的实例的词语相关度,如果所述词语相关度大于阈值T3,则将所述词语作为正确词语,将所述语音识别后文本中的文本句中正确词语以外的其它词语作为错误词语; 从第一语法知识库中获取候选词语,如果所述候选词语与所述获取的文本相关度最大的实例和谐,则将所述候选词语替换所述错误词语。...

【技术特征摘要】
1、一种对语音识别后文本进行检错并纠错的方法,用于对语音识别后文本中的文本句进行检错,并对检错后文本句中的错误词语进行纠错,其特征在于,该方法包括按照所述语音识别后文本中的文本句所属领域,分别创建包含有N元语法值集合的第二语法知识库,包含有核心词集合的第二语义知识库,以及第二语境知识库,其中,第二语境知识库包含有核心词、由包含核心词的文本句形成的实例、以及所述核心词与其实例中除该核心词之外的其它词语的语境关联度集合;并且,所述第二语法知识库独立于包含有通用语法知识的第一语法知识库,所述第二语义知识库独立于包含有通用语义知识的第一语义知识库;将所述语音识别后文本中的文本句转换成拼音形式的文本句,从所述第二语法知识库中获取所述拼音形式的文本句的N元语法值,将N元语法值大于阈值T1的N个拼音对应的词语和所述第二语义知识库中的核心词的并集作为所述语音识别后文本中的文本句的锚点词,其中,所述N为自然数;查找所述第二语境知识库,获取每个锚点词对应的实例;基于第二语境知识库中的语境关联度和第一语义知识库中的语义相似度,计算所述语音识别后文本中的文本句中的每个词语与每个所述获取的实例中所有词语的词语相关度,并根据所述词语相关度计算所述获取的实例与所述语音识别后文本中的文本句的文本相关度,获取每个锚点词对应的实例中文本相关度最大的实例;基于第二语境知识库中的语境关联度和第一语义知识库中的语义相似度,计算所述语音识别后文本中的文本句中的词语与所述获取的每个锚点词对应的实例中文本相关度最大的实例的词语相关度,如果所述词语相关度大于阈值T3,则将所述词语作为正确词语,将所述语音识别后文本中的文本句中正确词语以外的其它词语作为错误词语;从第一语法知识库中获取候选词语,如果所述候选词语与所述获取的文本相关度最大的实例和谐,则将所述候选词语替换所述错误词语。2、 如权利要求1所述的方法,其特征在于,所述创建第二语法知识库包括 搜索所述语音识别后文本中的文本句所属领域中的文本,将所述搜索到的文本中所有的文本句转换成拼音形式的文本句,建立所述拼音形式的文本句的 N元语法模型,将得到的N元语法模型进行平滑处理,得到所述第二语法知识 库。3、 如权利要求1所述的方法,其特征在于,所述创建第二语义知识库包括 搜索所述语音识别后文本中的文本句所属领域中的文本,并设定所述语音识别后文本中的文本句所属领域中的语境词为种子词库,分别计算所述搜索到 的文本中的文本句与所述语境词共同出现在同 一个文本句中的频数,将频数最 高的前三位词语加入到种子词库中,得到新种子词库,基于新种子词库对所述搜索到的文本进行卡方4全验,将卡方检验后得到的 所述搜索到的文本中每个词语的总卡方值大小进行排序,从所述排序后的词语 中取出卡方值大于某一阈值的词语作为核心词,得到所述第二语义知识库,所 述阈值的大小由所需选取得核心词数量来确定。4、 如权利要求3所述的方法,其特征在于,所述创建第二语境知识库包括 搜索所述语音识别后文本中的文本句所属领域中的文本,基于所...

【专利技术属性】
技术研发人员:李蕾龙丽霞王兴建王骏
申请(专利权)人:李蕾龙丽霞王兴建王骏
类型:发明
国别省市:11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1