自动文本校正制造技术

技术编号：3045151 阅读：237 留言：0更新日期：2012-04-11 18:40

本发明专利技术提供了一种为语音－文本转录系统生成文本转换规则的方法。该文本转换规则是通过比较由该语音－文本转录系统生成的有错训练文本和正确参考文本而生成的。有错和参考文本的比较允许获得一组文本转换规则，通过对该训练文本严格应用和随后与该参考文本比较而评估该组文本转换规则。对文本转换规则的评估提供了一种确定哪一个自动生成的文本转换规则提供该有错文本的增强或退化的充分方案。以这种方式，仅选择该组文本转换规则中确保增强该有错文本的那些文本转换规则。以这种方式，可以有效补偿自动语音识别或自然语言处理系统的系统错误。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术涉及通过使用与相应正确参考文本的比较而自动校正错误文本的领域。由于各种原因，语音-文本转换方法所生成的文本文档通常不是没有错误的。尽管自动语音识别(ASR)和自然语言处理(NLP)系统的技术发展水平已经提供了关于语音-文本转换和自动插入非言语标点、自动文本分段、标题插入、自动编排日期、单元、缩写等的可观性能，但是所得到的文本仍然存在系统错误。例如，自动语音识别系统会将一个特定单词误译为相似发音的单词。而且，自动语音识别系统所使用的词典或字典中的条目可能会存在错误。因而，当在提供的语音中识别出该特定字典条目时，该自动语音识别或语音转录系统会系统生成错误拼写的单词。一般地，所有ASR和NLP系统都是易于出错的。特别地，复杂的语音-文本转换器通常对于复杂任务显示高出错率，例如当必须执行多个格式化操作时会受到ASR系统的识别错误的妨碍。尽管这些事实是众所周知的，然而没有一种通用的方案来检测和消除ASR和NLP系统的系统错误。文献US 2002/0165716公开了当在语音识别期间使用共识性解码(consensus decoding)时减少错误数量的技术，一般地，对于在实时语音识别期间抽取的模糊集(confusion set)应用多个校正规则。该校正规则是在该语音识别系统的训练期间确定的，其需要使用许多训练模糊集。使用一个学习过程来生成多个可能的规则，称为模板规则，其可以被应用到该训练模糊集。该学习过程还根据该模板规则确定校正规则。该校正规则对于该实时模糊集处理以从该模糊集中选择假想词，其中该假想词不必须是具有最高分值的单词。在文献US 2002/0...

【技术保护点】
一种通过使用至少一个有错训练文本（２０４）和相应的正确参考文本（２００）来生成用于自动文本校正的文本转换规则（２１０，２１２，２１４）的方法，包括步骤：比较该至少一个有错训练文本和该正确参考文本，通过使用该训练文本和参考文本之间的偏差来获得一组文本转换规则（２１０，２１２，２１４），该偏差是通过该比较来检测的，通过对该训练文本应用每个转换规则而评估该组文本转换规则，选择该组评估的文本转换规则中的至少一个用于自动文本校正。

【技术特征摘要】
【国外来华专利技术】EP 2004-9-30 04104789.51.一种通过使用至少一个有错训练文本(204)和相应的正确参考文本(200)来生成用于自动文本校正的文本转换规则(210，212，214)的方法，包括步骤比较该至少一个有错训练文本和该正确参考文本，通过使用该训练文本和参考文本之间的偏差来获得一组文本转换规则(210，212，214)，该偏差是通过该比较来检测的，通过对该训练文本应用每个转换规则而评估该组文本转换规则，选择该组评估的文本转换规则中的至少一个用于自动文本校正。2.如权利要求1所述的方法，其中相对于该训练文本和参考文本的文本区域(216，218)之间的分配而获得文本转换规则(210，212，214)，该文本区域规定了连续和/或不连续的短语和/或单个或多个单词和/或数字和/或标点符号。3.如权利要求1所述的方法，其中文本转换规则(210，212，214)包括训练文本的文本区域(216)和参考文本的文本区域(218)之间的至少一个分配，该文本转换规则还使用了规定该分配适用情形的应用条件(220)。4.如权利要求1所述的方法，其中评估该组文本转换规则(210，212，214)利用单独评估该组文本转换规则中的每个文本转换规则，文本转换规则的评估还使用了错误减少度量，并且包括步骤对训练文本(204)应用该文本转换规则以生成转换的训练文本，确定多个正计数，其表示应用该文本转换规则多久能消除该训练文本的错误，确定多个负计数，其表示应用该文本转换规则多久能在该训练文本中生成错误，通过使用正和负计数的数量来获得该文本转换规则的错误减少度量。5.如权利要求4所述的方法，其中评估该组文本转换规则(210，212，214)包括一个迭代评估过程，其中一个迭代包括步骤通过使用错误减少度量来对该组文本转换规则排列级别，对训练文本应用最高级别的文本转换规则以生成第一转换的训练文本，基于参考文本和第一转换的训练文本来获得第二组文本转换规则，并且其中，随后的迭代包括对该第二组文本转换规则进行第二次评估和第二次级别排列。6.如权利要求4所述的方法，其中评估该组文本转换规则(210，212，214)包括如果该第一和第二文本转换规则实质上涉及该训练文本的一个或多个相同的文本区域，丢弃该组文本转换规则中的第一和第二文本转换规则中的第一文本转换规则；并且其中，如果该第一文本转换规则被评估为比第二文本转换规则更差，则丢弃该第一文本转换规则。7.如权利要求1所述的方法，其中获得该组文本转换规则(210，212，214)和/或应用条件使用了至少一个词类。8.如权利要求1所述的方法，其中该文本转换规则...

【专利技术属性】
技术研发人员：J彼德斯，E马图索夫，
申请(专利权)人：皇家飞利浦电子股份有限公司，
类型：发明
国别省市：NL[荷兰]

全部详细技术资料下载我是这个专利的主人