用于语言处理的方法和装置制造方法及图纸

技术编号:2820877 阅读:146 留言:0更新日期:2012-04-11 18:40
一种用于语言增强的方法,包括:接收文本;识别文本内的语法结构;以及为文本的至少一个原始部分建议至少一个替代文本部分,所述替代文本部分与原始部分的语法结构一致,并且与原始部分具有基本相同的含意,但是传达不同的印象。装置也被描述和要求保护。

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术涉及自然语言处理,尤其涉及语言增强(language enhancement)。
技术介绍
传统现有技术自然语言处理(NLP)应用包括许多类型的语言助手,其中包括(i)拼写检查器,其检查文本内的各个单词的拼写;(ii)遣法检查器,其检査文本内的句子的语法;(iii)辞典(thesaurus),其提 供文本内的单词的同义词;以及(iv)习语(idiom)处理器,其翻译习 语。拼写检查器传统现有技术拼写检查器检查各个单词的拼写错误,并提供更正建 议。 一种常见的拼写检查器是Microsoft Word内使用的那种,这种拼写检 查器用红色下划线标志误拼写的单词,并且在用户右键点击带红色下划线 的单词时提供更正建议。拼写检査器可在用户动态输入字符串时实时(on-the-fly)工作,或者作为一次对整个文档的批处理来工作。拼写检査器的 应用例如包括字处理器、带光学字符识别的扫描仪和电子语音到文本录音 电话机。Rosenbaum的美国专利No. 3995254描述了搜索预定义的列表以査找 误拼写的单词。Travis的美国专利No. 5604897描述了使用常见误拼写单词及其建议 更正的数据库。Yoshimura的美国专利No. 4799188使用共同后缀来使误拼写单词与建 议更正相关联。Saito等的美国专利No. 5148367描述了使用概率表来确定对于误拼写 单词的建议更正。'Nidson的美国专利5970492描述了基于因特网的拼写检査器。Mogilevsky的美国专利No. 5787451描述了使用背景拼写检查来减轻 实时拼写检査器的时间延迟。但是,Mogilevsky的技术适合于本地拼写检 査器应用,而对于基于因特网的拼写检查器效果不好,这是因为背景拼写 检查只有在数据被在因特网上传送时才工作。上述Nielson的用于基于因 特网的拼写检査的美国专利5970492并不解决时间延迟减轻的问题。其他拼写检查器在以下专利中描述Glickman的美国专利No. 4498148、 Kucera的美国专利No. 4580241 、 Heard等的美国专利No. 4689768、 Duncan IV等的美国专利No. 4797855、 Yoshimura的美国专利 No. 4799191、 McCourt等的美国专利No. 4829472、 Suzuki的美国专利No. 4842428、 Frisch等的美国专利No. 4873634、 Itoh等的美国专利No. 4903206 、 Kobayashi等的美国专利No. 4915546、 Kojima的美国专利No. 4980855、 Kobayashi的美国专利No. 4995740、 Hardy等的美国专利No. 5203705、 Shibaoka的美国专利No. 5215388、 McWherter的美国专利No. 5218536 、 Travis的美国专利No. 5765180、 Makita的美国专利No. 5802537、 Goldberg的美国专利No. 6219453以及Lawrence的美国专利No. 6393444。语法检查器传统现有技术语法检査器分析分句和整个句子而不是个体单词,以检 查不正确的语法使用。 一种常见的语法检查器是Microsoft Word内使用的 那种,这种语法检查器以绿色下划线标志语法错误,并且在用户右键点击 带绿色下划线的文本时提供更正建议。语法检查器可在用户动态输入字符 串时实时工作,或者作为一次对整个文档的批处理来工作。语法检査器的 应用例如包括字处理、信息检索和语言翻译。拼写检查器一般在个体单词的粒度上进行处理,而语法检査器一般在 分句或句子的粒度上进行处理。许多语法检查器通过将句子解析成包括名词、代词、形容词、动词、副词、介词和连词的语言结构来进行操作--与语言教学过程中句子被图解的方式类似。现有技术自然语言解析器(parsers)有两大类型依照句法的 (syntactic)和依照语义的(semantic)。句法解析器是基于语法规则的。 这种解析器一般是通过基于查找字典(lookup dictionary)得出句子的解析 树(parse tree)来进行操作的。句子中的每个单词被识别为一个功能结 构,并且被表示为树中的一个节点。被称为规则(rule)或公式 (formula)的句法模板模式被与解析后的句子相适配,并且最适当的规则 被确定。存在两类用于句法解析的算法自下而上的分析(bottom-up analysis)禾卩自上而下的分析(top-down analysis)。自下而上的分析通过 以下方式进行操作首先识别并标记句子中的各个单词,然后分析句子。 自上而下的分析通过以下方式进行操作首先将句子匹配到预定义的句法 模板,然后分析各个单词。句法解析器所面临的许多挑战之一是单词使用 的歧义(ambiguity);即,同一个单词可以按不同方式来使用。Hemphill等的美国专利No. 5083268描述了解析器和预测器 (predictor)的使用,并且通过同意或反对单词组合来识别可允许的句 子。Hutchins的美国专利No. 4994966描述了基于规则的语法检查器,其 基于"好规则"和"坏规则",其中坏规则描述相对于好规则的语法偏 差。Zamora等的美国专利No. 4887212描述了按以下阶段分析句子的句法 解析器隔离、词素分析(morphological analysis)、字典查找、单词专家 规则、动词群组分析和分句分析。Bespalko的美国专利No. 5224038和Schabes等的美国专利No. 5610812描述了基于规则来标记词性(parts of speech)。Kucera等的美国专利No. 4878750、 Schabes等的美国专利No. 5799629、 Schultz的美国专利No. 5822731和Haug等的美国专利No. 6292771描述了使用基于统计参数的概率表来检查其单词已被标记的句子的语法。Kutsumi等的美国专利No. 5353221禾口 Horiguchi等的美国专利No. 6243669描述了通过确定上下文(context)来克服歧义的翻译系统。Fein等的美国专利No. 6012075描述了在用户空闲期间进行背景语法 检査,以便减轻实时语法检査器的时间延迟。另一方面,语义解析器是基于对句子中使用的单词的上下文的理解或 领会的,从而更擅长处理歧义。Lange等的美国专利No. 4674065描述了基于同音词和易混词的数据库 来确定单词在其中被错误使用的上下文,并且建议替代方案。Adi的美国专利No. 4849898描述了用于在两个单词或措辞之间关联含 意的方法。Hemphill等的美国专利No. 5083268描述了预测给定单词之后的词性。Zaenen等的美国专利No. 5642522描述了通过将单词与其相邻单词进 行匹配来根据其上下文分析该单词。Dahlgren等的美国专利No. 5794050描述了用于检索的自然语言理解 系统。Sanfilippo的美国专利No, 6260008描述了相关单词的依照句法的歧义 消除。Segond本文档来自技高网...

【技术保护点】
一种用于语言增强的方法,包括: 接收文本; 识别所述文本内的语法结构;以及 为所述文本的至少一个原始部分建议至少一个替代文本部分,所述替代文本部分与所述原始部分的语法结构一致,并且具有与所述原始部分基本相同的含意,但是传达不同的印象。

【技术特征摘要】
【国外来华专利技术】...

【专利技术属性】
技术研发人员:约尔奥维尔里然布里纳尔
申请(专利权)人:怀特斯莫克公司
类型:发明
国别省市:US[美国]

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1