自动文本校正制造技术

技术编号:3045151 阅读:237 留言:0更新日期:2012-04-11 18:40
本发明专利技术提供了一种为语音-文本转录系统生成文本转换规则的方法。该文本转换规则是通过比较由该语音-文本转录系统生成的有错训练文本和正确参考文本而生成的。有错和参考文本的比较允许获得一组文本转换规则,通过对该训练文本严格应用和随后与该参考文本比较而评估该组文本转换规则。对文本转换规则的评估提供了一种确定哪一个自动生成的文本转换规则提供该有错文本的增强或退化的充分方案。以这种方式,仅选择该组文本转换规则中确保增强该有错文本的那些文本转换规则。以这种方式,可以有效补偿自动语音识别或自然语言处理系统的系统错误。

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术涉及通过使用与相应正确参考文本的比较而自动校正错误文本的领域。由于各种原因,语音-文本转换方法所生成的文本文档通常不是没有错误的。尽管自动语音识别(ASR)和自然语言处理(NLP)系统的技术发展水平已经提供了关于语音-文本转换和自动插入非言语标点、自动文本分段、标题插入、自动编排日期、单元、缩写等的可观性能,但是所得到的文本仍然存在系统错误。例如,自动语音识别系统会将一个特定单词误译为相似发音的单词。而且,自动语音识别系统所使用的词典或字典中的条目可能会存在错误。因而,当在提供的语音中识别出该特定字典条目时,该自动语音识别或语音转录系统会系统生成错误拼写的单词。一般地,所有ASR和NLP系统都是易于出错的。特别地,复杂的语音-文本转换器通常对于复杂任务显示高出错率,例如当必须执行多个格式化操作时会受到ASR系统的识别错误的妨碍。尽管这些事实是众所周知的,然而没有一种通用的方案来检测和消除ASR和NLP系统的系统错误。文献US 2002/0165716公开了当在语音识别期间使用共识性解码(consensus decoding)时减少错误数量的技术,一般地,对于在实时语音识别期间抽取的模糊集(confusion set)应用多个校正规则。该校正规则是在该语音识别系统的训练期间确定的,其需要使用许多训练模糊集。使用一个学习过程来生成多个可能的规则,称为模板规则,其可以被应用到该训练模糊集。该学习过程还根据该模板规则确定校正规则。该校正规则对于该实时模糊集处理以从该模糊集中选择假想词,其中该假想词不必须是具有最高分值的单词。在文献US 2002/0165716中,通过使用许多训练模糊集来确定校正规则,该训练模糊集是通过共识性解码从字格(word lattice)转换得来的。该字格相应地由解码器使用该识别器的词典条目生成。以这种方式,校正规则的确定和获得是基于该语音识别系统的词典。以这种方式,该识别器的词典以外的词是不可用的,因而确定校正规则的整个过程是基于该语音识别系统中已知的词。此外,每个模糊集包括一个识别词和一组能够替换该识别词的可选词,即该组提供了用另一单个词替换单个词的机会,其中潜在地包括了对应于删除的“空字(empty word)”。因此,本专利技术的目的是提供一种检测和消除任何类型的给定文本的系统错误的通用方案,该文本可以通过与ASR或NLP特定训练数据、词典或其他预定文本数据库无关的ASR或NLP系统生成。本专利技术提供了一种通过使用至少一个有错训练文本和相应的正确参考文本来生成用于自动文本校正的文本转换规则的方法。本专利技术的方法比较至少一个有错训练文本和该正确参考文本,并且通过使用该训练文本和参考文本之间的偏差来获得一组文本转换规则。这些偏差是通过该有错训练文本和正确参考文本之间的比较来检测的。在获得一组文本转换规则之后,通过对该训练文本应用每个转换规则而评估该组文本转换规则。取决于这种对于该文本转换规则的评价,选择该组评估文本转换规则中的至少一个用于该自动文本校正。该有错训练文本可以通过自动语音识别系统或任何其他类型的语音-文本转换系统提供。该参考文本相应地对应于该训练文本,并且应当是无错误的。该正确参考文本可以由ASR和/或NLP系统的识别文本的校对者人工生成。可选地,可以为本专利技术的文本校正系统即可以用于执行本专利技术方法的系统提供任意参考文本,典型地为电子形式,并且可以通过将该参考文本作为语音输入到ASR和/或NLP系统和接收转录的文本作为由该ASR和/或NLP系统生成的有错训练文本而生成该有错训练文本。该生成文本转换规则的方法还使用了检测该参考文本和有错训练文本之间的偏差。偏差检测绝不仅限于词-词比较,而是还可以包括短语-短语比较,其中每个短语具有该文本的一组单词。而且,该训练文本和参考文本之间的偏差可以是指语音-文本转录系统可能产生的任何类型的可能错误。以这种方式,将检测和分类该有错训练文本中的任何类型的错误。对检测错误的分类典型地是指文本的置换、插入或删除。例如,该训练文本中的每个单词可以被指定到参考文本中的相应单词,从而当该两个单词完全匹配时被标记为正确。如果一个特定单词被该ASR和/或NLP系统误译,例如该系统将“bone”转录为“home”,那么可以将单词“home”标记为用单词“bone”置换。在其他将多个单词转录为一个单词或者反之的情形,可以通过删除或插入来标记该检测的偏差,典型地与置换相结合。这可以例如用于当把“a severe”误译为“weird”时。每个检测偏差典型地被分配到正确参考文本的相应单词。训练文本的文本部分与相应正确文本部分的对齐可以通过使用一些标准技术来完成,例如最小编辑距离或Levenshtein对齐。基于错误文本部分与相应正确文本部分之间的分配或对齐和适当的分类,可以生成文本转换规则。对于以上给出的例子,其中“a severe”被误译为“weird”,一个文本转换规则可以规定总是要用“a severe”来替换“weird”。然而,这一文本转换规则可能不对应于该ASR或NLP系统的系统错误,当一致地应用到文本时,每个出现的单词“weird”都会被替换为“asevere”,而不考虑是否存在单词“weird”被正确转录的其他情形。文本转换规则的生成可以以与基于转换的学习(TBL)相似的方式完成,该基于转换的学习是在获得用于校正标记过程的转换规则的框架中已知的,其中将一些语法信息或语义内容与单词流对齐。根据本专利技术,对基于转换的学习进行修改和适应以便将参考文本与错误文本部分对齐。为了区分重复、系统的和偶然、不能再现的错误,必须评估已经自动生成的文本转换规则。因而,必须确定哪一个生成的文本转换规则对应于该语音-文本转录过程的系统错误。该评估典型地这样完成,对训练文本应用每一个生成的文本转换规则,随后与参考文本进行比较以确定一个文本转换规则是否提供了错误消除或者其应用导致向训练文本中引入了更多错误。即使一个生成的文本转换规则可以消除一个特定的错误,它也会向训练文本的正确文本部分中引入多个附加的错误。对该组文本转换规则的评估允许对该文本转换规则进行排列级别,以便直观地仅选择在应用到训练文本时改善该训练文本的那些文本转换规则。因而,该自动生成的文本转换规则组中的仅仅那些文本转换规则被选择和提供到自动文本校正,以检测和消除ASR和/或NLP系统的系统错误。根据本专利技术一个优选实施例,根据训练文本和参考文本的文本区域的对齐来实现文本转换规则的获得。这些文本区域规定了相邻和/或非相邻的短语和/或单个或多个单词和/或数字和/或标点符号。以这种方式,本专利技术的方法可以广泛应用到任意类型的文本片段或文本区域,而不论它们是否表示单词、标点符号、数字或其组合。这些训练文本和参考文本的文本区域之间的分配或对齐可以通过单词-单词映射来实现,例如用其相应的正确的参考部分来替换一个错误单词。因为单词-单词分配(assignment)经常是不确定的,所以该方法绝不仅限于单词-单词映射。而且,训练文本和参考文本之间的分配可以在一个较大的范围内进行。因而,一个具有多个单词的文本可以被划分成无错和有错区域。基于这种划分,可以在全部错误区域之间执行映射以减少不确定性和学习更长距离的短语-短本文档来自技高网...

【技术保护点】
一种通过使用至少一个有错训练文本(204)和相应的正确参考文本(200)来生成用于自动文本校正的文本转换规则(210,212,214)的方法,包括步骤:比较该至少一个有错训练文本和该正确参考文本,通过使用该训练文本和参考文本之间的偏差来获得一组文本转换规则(210,212,214),该偏差是通过该比较来检测的,通过对该训练文本应用每个转换规则而评估该组文本转换规则,选择该组评估的文本转换规则中的至少一个用于自动文本校正。

【技术特征摘要】
【国外来华专利技术】EP 2004-9-30 04104789.51.一种通过使用至少一个有错训练文本(204)和相应的正确参考文本(200)来生成用于自动文本校正的文本转换规则(210,212,214)的方法,包括步骤比较该至少一个有错训练文本和该正确参考文本,通过使用该训练文本和参考文本之间的偏差来获得一组文本转换规则(210,212,214),该偏差是通过该比较来检测的,通过对该训练文本应用每个转换规则而评估该组文本转换规则,选择该组评估的文本转换规则中的至少一个用于自动文本校正。2.如权利要求1所述的方法,其中相对于该训练文本和参考文本的文本区域(216,218)之间的分配而获得文本转换规则(210,212,214),该文本区域规定了连续和/或不连续的短语和/或单个或多个单词和/或数字和/或标点符号。3.如权利要求1所述的方法,其中文本转换规则(210,212,214)包括训练文本的文本区域(216)和参考文本的文本区域(218)之间的至少一个分配,该文本转换规则还使用了规定该分配适用情形的应用条件(220)。4.如权利要求1所述的方法,其中评估该组文本转换规则(210,212,214)利用单独评估该组文本转换规则中的每个文本转换规则,文本转换规则的评估还使用了错误减少度量,并且包括步骤对训练文本(204)应用该文本转换规则以生成转换的训练文本,确定多个正计数,其表示应用该文本转换规则多久能消除该训练文本的错误,确定多个负计数,其表示应用该文本转换规则多久能在该训练文本中生成错误,通过使用正和负计数的数量来获得该文本转换规则的错误减少度量。5.如权利要求4所述的方法,其中评估该组文本转换规则(210,212,214)包括一个迭代评估过程,其中一个迭代包括步骤通过使用错误减少度量来对该组文本转换规则排列级别,对训练文本应用最高级别的文本转换规则以生成第一转换的训练文本,基于参考文本和第一转换的训练文本来获得第二组文本转换规则,并且其中,随后的迭代包括对该第二组文本转换规则进行第二次评估和第二次级别排列。6.如权利要求4所述的方法,其中评估该组文本转换规则(210,212,214)包括如果该第一和第二文本转换规则实质上涉及该训练文本的一个或多个相同的文本区域,丢弃该组文本转换规则中的第一和第二文本转换规则中的第一文本转换规则;并且其中,如果该第一文本转换规则被评估为比第二文本转换规则更差,则丢弃该第一文本转换规则。7.如权利要求1所述的方法,其中获得该组文本转换规则(210,212,214)和/或应用条件使用了至少一个词类。8.如权利要求1所述的方法,其中该文本转换规则...

【专利技术属性】
技术研发人员:J彼德斯E马图索夫
申请(专利权)人:皇家飞利浦电子股份有限公司
类型:发明
国别省市:NL[荷兰]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利