从多语言网站构建多语言的对象层次结构的方法和系统技术方案

技术编号:3882053 阅读:167 留言:0更新日期:2012-04-11 18:40
本发明专利技术提出了从多语言网站构建多语言的对象层次结构的方法和系统。本发明专利技术的方法包括:输入一多语言网站中的所有网页;按不同语言将网站拆分成多个子网站,每个子网站中的网页具有相同语言;抽取对应于每个子网站的单语言对象层次结构,并记录对象与相应网页之间的对应关系;确定不同子网站中的不同语言网页之间的平行关系;以及根据抽取出的每个子网站的单语言对象层次结构、对象与网页之间的对应关系、以及所确定的不同语言的网页之间的平行关系,来生成对应于该多语言网站的多语言对象层次结构。相对于现有技术,本发明专利技术可以大大提高多语言层次结构抽取效率、结果准确性以及可扩展性。

【技术实现步骤摘要】

本专利技术一般地涉及信息抽取,更具体而言,涉及Web挖掘以及从多语言网站构建 多语言的对象层次结构的方法和系统。
技术介绍
当前,计算机已经成为现代生活必不可少的工具,它可以帮助用户找到感兴趣的 信息,这在当今大量信息在Web上不断积累的因特网时代尤其明显。虽然计算机在进行诸 如计算、存储或搜索之类的信息处理时速度很快,但其无法理解信息,这成为智能信息处理 的主要障碍。为了解决这个问题,最近用于智能信息处理的语义相关研究变得非常流行。例 如,在 T.Berners-Lee 等题为 “The Semantic Web”(Scientific American,2001 年 5 月, 第 28-37 页)、Nigel Shabolt 等题为“The Semantic Web Revisited,,(IEEE Intelligent Systems 21 (3),第 96-101 页,2006 年 5 月、6 月)以及 E. Hyvonen (编者)的题为“Semantic Web Kick-Off in Finland-Vision, Technologies, Research, and Applications,,(HIIT Publications, 2002-001, Helsinki Institute for Information Technology (HUT), Helsinki,Finland,第304页)的论文中都描述了的相关技术。它们的主要用途是帮助计 算机理解信息的内容和含义。基于某些算术逻辑,例如描述逻辑和框架逻辑,根据人工智能 (AI)传统规律的知识表示以及现在流行的Web信息处理技术,诸如万维网联盟(W3C)之类 的标准制订组织正在积极制订XML (可扩展标记语言)、RDF (资源描述框架)和OWL (Web本 体语言)等标准并且正在推广语义技术采用的规则语言,例如Web规则语言和规则标记语 言。而且,很多研发商、企业和相关从业者也已经开始建立和采用相关工具集、产品,甚至实 际应用来使得基于语义的智能信息利用成为可能。但是,为了使用计算机的强大计算能力 和语义相关标准向Web用户提供不同的智能信息利用服务,领域知识在其中扮演非常关键 的角色。因此,领域知识的建立成为一个急需解决的重要问题。同时,由于Web的普及,全世 界被联系的更加紧密,怎样在使用各种不同语言的人们之间建立无缝的、顺畅的交流通道, 因此建立的领域知识同样也需要包含各种语言的版本,并且在这些多语言版本之间建立有 准确的对应关系。而如何建立存在对应关系的多语言的领域知识,则又是领域知识建立问 题中的一个难题。本体(Ontology)是一种用于形式化表示领域知识的文档。本体中定义了一个领 域中的概念/对象以及概念/对象之间的关系。本体中定义的概念/对象之间的关系包含 各种各样的关系,比如“属于”,“位于”等等。而在实际应用中最普遍的概念关系是“属于” 或者“是....的子概念”这类包含关系,比如概念“个人计算机”是概念“计算机”的一个子 概念。只定义有这种包含关系的轻量级本体称为层次结构(Hierarchy),层次结构在实际应 用中常常体现为分类体系或者目录结构等等。在已有的论文及专利中,有一些涉及到层次结构的抽取方法,但是绝大多数都只 是从单语言的数据源中抽取单语言的层次结构。而对于多语言的层次结构抽取问题,已有工作不是很多。所谓多语言的层次结构指层次结构中的概念/对象拥有多语言的描述或者定义。下面介绍几篇现有的多语言层次结构相关的论文及专利。H. -C. Yang、D. -ff. Chen、C. _H. Lee 在论文"A multilingual hierarchy mapping method based on GHSOM” (发表于ICICIC,08会议论文集)(下称“参考文献1”)中介绍 了一种建立多语言层次结构的方法收集一组多语言的平行文档(parallel documents,即 同一个文档有不同的语言版本),并且手工将这些文档的平行关系(即哪些文档实际上是 同一个文档的不同语言版本)标记出来。然后对这个文档集的每一个单语言子集进行层次 结构抽取,抽取出来的即为多个单语言的层次结构。最后根据之前标注的文档的平行关系, 为这些单语言的层次结构之间建立对应关系。J. Daude、L. Padro、G. Rigau 在论文"Mapping Multilingual Hierarchies Using Relaxation Labeling” (发表于EMNLP/VLC,99会议论文集)(下称“参考文献2”)中介绍 了一种对已抽取出来的单语言层次结构之间建立对应关系的方法。他们利用的是一个外部 的多语言词典,基于语言分析技术来判断不同语言的概念/对象名称之间的对应关系,从 而建立层次结构之间的对应关系。题为"Multilingual terminology extraction system,,的欧洲专禾丨J EP0887748B1 (下称“参考文献3”)介绍了一种从多语言文档中抽取相对应的多语言概念术 语的方法。该方法需要将术语的某个语言的表示作为输入,然后将文档表示成一个词语组 成的网络,通过分析多语言文档对应的词语网络之间的相似性关系,来得到术语的另外一 种语言的表示。P. Resnik>N. A.的ifei:“The Web as a parallel corpus"(M^i1 Computational Linguistic的2003年第3期)(下称“参考文献4”)没有涉及到层次结构或者知识的抽 取,但他们介绍了一种自动建立多语言文档之间的平行关系的方法。他们使用Web上的网 页作为文档集合,利用不同网页的Html结构之间的相似性,来识别出不同语言网页之间的 平行关系。在上面提及的相关解决方案中,参考文献1的方法需要人工建立文档之间的平行 关系,这种方法效率很低,需要花费大量时间和人力,且扩展性很差,对于大规模多语言层 次结构的建立不具有适用性。参考文献2的方法将层次结构的抽取与多语言之间的对应区 分为两个完全独立的过程,在进行多语言对应时缺少抽取时的上下文环境,仅仅借助外部 的多语言词典,难以得到较高的准确率。参考文献3的方法适用的前提条件是用于抽取概 念术语的多语言的文档必须已经确定为是同一文档的多语言版本,并且需要给定至少一个 用某种语言表示的术语作为驱动,因此该方法无法适用于当多语言文档还未确定是否存在 平行关系的场合,以及无法用于抽取新概念术语,另外,这种方法没有提及到概念之间关系 的抽取,无法用于建立层次结构。参考文献4的方法虽然可以被借鉴来确定用于抽取层次 结构的多语言文档之间是否具有平行关系,但该方法只能判断文档之间的对应关系,不能 确定文档内部元素之间的对应关系,于是不能直接应用于多语言层次结构的抽取与对应, 因为层次结构中的概念对象很可能是与文档的某一部分相对应,而不是与整篇文档相对 应。综上,现有方法对于多语言层次结构抽取仍然存在不足,集中体现在他们不能实 现抽取过程以及多语言对应的完全自动化,不具有足够的运行效率以及柔性和可扩展性, 尤其当面对新的知本文档来自技高网...

【技术保护点】
一种从多语言网站中抽取多语言的对象层次结构的方法,包括:输入一多语言网站中的网页;按不同语言将所述网站拆分成多个子网站,每个子网站中的网页具有相同语言;抽取对应于每个子网站的单语言对象层次结构,并记录对象与相应网页之间的对应关系;确定不同子网站中的不同语言网页之间的平行关系;以及根据抽取出的每个子网站的单语言对象层次结构、对象与网页之间的对应关系、以及所确定的不同语言的网页之间的平行关系,来生成对应于所述多语言网站的多语言对象层次结构。

【技术特征摘要】

【专利技术属性】
技术研发人员:赵彧李建强
申请(专利权)人:日电中国有限公司
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1