当前位置: 首页 > 专利查询>微软公司专利>正文

使用机器翻译技术标识释义的方法和系统技术方案

技术编号:2863340 阅读:296 留言:0更新日期:2012-04-11 18:40
本发明专利技术从关于一公共事件书写的一不同文档聚类获取一文本片段组。该文本片段组然后经受文本对齐技术,以从该文本中的文本片段标识释义。本发明专利技术也可用于生成释义。

【技术实现步骤摘要】

本专利技术涉及标识文本中的释义,尤其涉及使用机器翻译技术来标识并生成释义。
技术介绍
释义的识别和生成是自然语言处理系统的许多应用的一个关键方面。能够识别文本的两个不同片段在意义上等效令系统能够更智能地表现。本领域的工作的基本目标是生成一种当操纵诸如词汇、单词顺序、阅读级别和简明程度等特征时能够重述一段文本,而同时保留其语义内容的程序。可从释义标识和生成获益的一个示例性应用包括问题答复系统。例如,考虑问题“John Doe何时辞职?”,其中实体“John Doe”是一个著名的人物。可能诸如全球计算机网络(或在全球计算机网络上发表文章的新闻报告系统)等大型数据语言资料库已包含了回答该问题的文本。事实上,这一语言资料库可能已包含了回答该问题的文本,并以与该问题完全一样的词句来表达。因此,常规的搜索引擎可以毫无困难地找出匹配该问题的文本,并由此返回适当的结果。然而,当搜索诸如内联网上的较小的数据语言资料库时,这一问题将变得更困难。在这一情况下,即使小型数据语言资料库可包含回答该问题的文本,回答可以不同于该问题的词句来表达。作为示例,以下句子都回答了上述问题,但是以不同于该问题的词句来表达。John Doe昨天辞职。John Doe昨天离开他的职位。John Doe昨天离开他的政府岗位。John Doe昨天下台。昨天,John Doe决定寻找新的职业挑战。由于这些回答与问题不同地表达,仅在搜索的语言资料库中给出这些文本回答,常规的搜索引擎可能在返回较佳的结果时遇到困难。解决释义识别和生成的问题的现有系统包括试图在有限的上下文中解决问题的大量手写代码工作。例如,大量手写代码系统试图在各种各样表达同一事物的不同方式和命令及控制系统可接受的形式之间建立映射。当然,这是极其困难的,因为代码的作者可能无法考虑到用户表达某一事物的每一不同的方式。因此,研究机构的焦点从手动工作改变为释义标识和生成的自动方法。针对自动标识文本释义关系的系统的近期的作品包括D.Lin和P.Pantel的DIRT-DISCOVERY OF INFERENCE REULS FROM TEXT,Proceedings ofACMSIGKEDD Conference on Knowledge Discovery and Data Mining(知识发现和数据挖掘ACMSIGKDD研讨会学报)第323-328页(2001)。该DIRT文章在新闻专线数据的经分析的语言资料库中检查链接相同的“锚点(anchor point)”(即,相同或相似的单词)的依赖路径的分布性属性。并未充分利用新闻数据的任何特殊属性,因为所分析的语言资料库被简单地看作一个单语言数据的大型来源。基本思想是链接相同或相似单词的高频率依赖性图形路径本身可能在意义上相似。当用完一千兆字节的报纸数据时,系统标识诸如以下模式X由Y解答。X解答Y。X找出Y的解答。X试图解答Y。DIRT系统被限于十分有限的“三重”关系的种类,如“X动词Y”。涉及释义标识的另一文章是Y.Shinyama、S.Sekine、K.Sudo和R.GRisham的“AUTOMATIC PARAPHRASE ACQUISITION FROM NEWS ARTICLES”,人类语言技术研讨会学报,圣地亚哥,加利福尼亚州(HLT 2002)。在Shinyama等人的文章中,观察到描述同一事件的不同报纸的文章通常举例说明了释义关系。该论文描述了一种依赖于命名的实体(如,人、地点、日期和地址)在同一话题或同一日的不同报纸上保持不变的假设的技术。使用现有的信息检索系统将文章聚合成,例如“谋杀”或“职员”分组或聚类(cluster)。使用统计附标来注释命名实体,并且数据然后服从于形态和句法分析,以生成合成依赖性树。在每一聚类内,基于其所包含的命名实体来聚合句子。例如,以下句子被聚合,因为它们共享相同的四个命名实体Nihon Yamamuri玻璃公司的副总裁被Osamu Kuroda晋升为总裁。Nihon Yamamuri玻璃公司在周一决定将副总裁Osamu Kuroda晋升为总裁。给定命名实体中的重叠,假定这些句子由释义关系链接。Shinyama等人然后试图使用信息提取领域的现有方法标识链接这些句子的模式。Shinyama等人也试图学习十分简单的短语级模式,但是该技术受其对命名实体锚点的依赖的限制。没有这些简单标识的锚接,Shinyama等人不能从一对句子中学到任何东西。Shinyama等人学习的模式都集中在特定域中特定类型的实体和某一类型的事件之间的关系上。结果相当差,尤其是当训练句子几乎不包含命名实体时。另一文章也涉及释义。在Barzilay R.和L.Lee的“LEARNING TOPARAPHRASEAN UNSUPERVISED APPROACH USING MULTIPLE-SEQUENCE ALIGNMENT”,HLT/NAACL学报(2003),埃德蒙顿,加拿大中,使用议题检测软件来聚合来自单个来源,以及来自若干年的有价值数据的主题类似的报纸文章。更具体地,Barzilay等人试图标识描述恐怖事件的文章。他们然后聚合来自这些文章的句子,以找出共享一个基本总体形式或共享多个关键词的句子。这些聚类用作用于构建允许某些替代元素的句子的模板模型的基础。简言之,Barzilay等人集中在找出不同事件的类似描述上,即使这些事件可能在若干年前出现。这一按照形式分组句子的焦点意味着该技术无法找出某些更感兴趣的释义。同样,Barzilay和Lee需要一种强单词顺序类似性,以将两个句子分类成相似的。例如,他们甚至无法将事件描述的主动/被动变化分类成相关的。Barzilay等人的学习的模板释义关系从共享一个总体固定的单词顺序的一组句子中得出。该系统学习的释义相当于该较大固定结构内的灵活性的区域。也应当注意,Barzilay和Lee看似在建议一种生成模式时在文学上是独一无二的。本部分所讨论的其它作品仅针对识别释义。另一论文,Barzilay和McKeown的“Extracting Paraphrases From a ParallelCorpus”,ACL/EACL学报(2001),依赖于单个源文档的多个翻译。然而,Barzilay和McKeown特别地将他们的作品与机器翻译技术区别开来。他们声称,如果没有相关的句子中单词之间的完整匹配,无法使用“在MT社团中基于纯净的平行语言资料库开发的方法”。由此,Barzilay和McKeown反对标准机器翻译技术可应用于学习单语言释义的任务的想法。另一现有技术系统也涉及释义。该系统依赖于单个来源的多个翻译以构建释义关系的有限陈述表示。B.Pang、K.Knight和D.Marcu的“SYNTAX BASEDALIGNMENT OF MULTIPLE TRANSLATIONEXTRACTING PARAPHRASESAND GENERATING NEW SENTENCES”,NAACL-HLT学报,2003。又一现有技术也涉及释义识别。Ibrahim Ali的“EXTRACTINGPARAPHRASES FROM ALIGNED CORPORA”,硕士论文,MIT(2002),位于HTT本文档来自技高网...

【技术保护点】
一种训练释义处理系统的方法,其特征在于,它包括:接收一相关文本聚类;从所述聚类中选择一文本片段组;以及使用文本对齐来标识所述组中的文本片段中的文本之间的释义关系。

【技术特征摘要】
US 2003-11-12 10/706,1021.一种训练释义处理系统的方法,其特征在于,它包括接收一相关文本聚类;从所述聚类中选择一文本片段组;以及使用文本对齐来标识所述组中的文本片段中的文本之间的释义关系。2.如权利要求1所述的方法,其特征在于,使用文本对齐包括使用统计文本对齐来对齐所述组中的文本片段中的单词;以及基于所对齐的单词标识所述释义关系。3.如权利要求2所述的方法,其特征在于,使用文本对齐包括使用统计文本对齐来对齐所述组中的文本片段中的多单词短语;以及基于所对齐的多单词短语标识所述释义关系。4.如权利要求1所述的方法,其特征在于,使用文本对齐包括使用启发式单词对齐来对齐所述组中的文本片段中的单词;以及基于所对齐的单词标识所述释义关系。5.如权利要求4所述的方法,其特征在于,使用文本对齐包括使用启发式文本对齐来对齐所述组中的文本片段中的多单词短语;以及基于所对齐的多单词短语标识所述释义关系。6.如权利要求1所述的方法,其特征在于,它还包括基于所标识的释义关系计算一对齐模型。7.如权利要求6所述的方法,其特征在于,它还包括接收一输入文本;以及基于所述对齐模型生成所述输入文本的释义。8.如权利要求1所述的方法,其特征在于,选择一文本片段组包括基于所述文本片段中的众多共享单词选择所述组的文本片段。9.如权利要求1所述的方法,其特征在于,它还包括在接收一聚类之前,标识所述相关文本的聚类。10.如权利要求9所述的方法,其特征在于,标识一聚类包括访问多个文档;以及将由不同的作者关于一公共主题书写的文档标识为相关文档的聚类。11.如权利要求10所述的方法,其特征在于,选择一文本片段组包括将每一聚类中的所述相关文档的期望文本片段分组成一相关文本片段组。12.如权利要求11所述的方法,其特征在于,标识文档包括标识在彼此的预定时间内书写的文档。13.如权利要求11所述的方法,其特征在于,访问多个文档包括访问关于一公共事件书写的多个不同的新闻文章。14.如权利要求13所述的方法,其特征在于,访问多个不同的新闻文章包括访问由不同的通讯社书写的多个不同的新闻文章。15.如权利要求14所述的方法,其特征在于,分组期望的文本片段包括将每一聚类中的每一新闻文章的预定数量的句子分组成所述相关文本片段...

【专利技术属性】
技术研发人员:CB夸克CJ布罗克特WB多兰
申请(专利权)人:微软公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1