一种在文档中获得一个或多个关键元素的设备和方法技术

技术编号:7098244 阅读:211 留言:0更新日期:2012-04-11 18:40
本申请公开了一种在文档中获得一个或多个关键元素的方法和设备。该方法包括:抽取该文档的结构元素,所述结构元素至少包含标题元素,其中,该文档包括多个结构上的层,所述结构上的层至少包含标题层,且每个结构元素对应于各自的层;确定除了标题层以外的一层中的被抽取的结构元素在其对应的层内的层内权重;确定所述被抽取的结构元素与除了其对应的层和标题层以外的其他层中的结构元素之间的跨层权重;确定所述被抽取的结构元素与标题元素之间的全局权重;组合所述被抽取的结构元素的层内权重、跨层权重和全局权重来确定所述被抽取的结构元素的最后权重;以及根据所述一层中的结构元素的最后权重,来获得所述一层中的一个或多个关键元素。

【技术实现步骤摘要】

本申请一般涉及文本处理,且更具体地,涉及用于获得关键元素的文本处理。
技术介绍
随着网络中出现的文档越来越多,越来越需要从各个文档中获得代表该文档信息的关键词或关键句子来便于搜索文档、生成文档摘要等等。人们已经越来越关注如何更准确地从文档中获得关键元素。获得的关键词或关键句子越准确,则通过该关键词或关键句子进行搜索得到所期望的文档的可能性越大,且通过该关键词或关键句子生成的文档摘要更确切地表示了文档的信息。从文档中获得关键元素的一种传统的技术是TextRank (文本分级)方法,这在 Rada Mihalcea 禾口 Paul Tarau 的论文"TextRank :Bring Order into Texts,,中可以找至Ij 相关描述,其全文被引用合并于此。TextRank模型从自然语言的文档中提取词或句子元素, 然后将这些词或句子元素作为图的节点来打分,其基本思想是当一个节点链接到另一节点时,给该另一节点加一分。而且该节点的分值越高,该节点的重要程度越高。通过计算这些节点的最后分值来获得每个节点的重要程度,以便得到关键的词元素或关键的句子元素。 但是,该TextRank方法只考虑同一类型(例如词或句子)的元素之间的链接关系,而不考虑不同类型的元素之间(例如,词和句子之间)的关系。通过这种方法计算的节点的分值不能更准确地表示该元素的重要程度,因此会导致通过关键词或关键句子搜索得不到想要得到的结果。从文档中获得关键元素的另一传统的技术是在专利W02006/001906,Graph-based ranking algorithms for text processing 巾白勺一禾中i^ffl ISjfe^biim、一禾中自Μ * 形式的文本的方法,其全部内容被引用附于此。该方法包括从自然语言文本中确定同种类型(例如,词或句子)的多个文本单元,把这多个文本单元与多个图节点关联起来,并且确定至少两个文本单元之间的至少一个连接关系。但是,该专利主要关注于独立的句子与句子之间和字与字之间的关系,即同种类型的文本单元之间的关系,也不考虑句子和字之间的关系,因此同样,通过这种方法得到的同种类型的文本单元之间的关系也不能准确地表示该文本单元在整个文档中的重要程度,因此会导致通过关键词或关键句子搜索得不到想要得到的结果。从文档中获得关键元素的另一传统的技术是Xiaojun Wan等的“Towards an iterative reinforcement approach for simultaneous document summarization and keyword extraction". (ACL),2007中提出的一种关键词获得方法,其全部内容被引用附于此。该方法基于句子与词之间的关系。但是,该方法不考虑文档标题对文档中的句子和词的影响。而且该方法也不涉及其他文本元素(例如,区域、段落等)之内或之间的关系。因此同样,通过这种方法得到的同种类型的文本单元之间的关系也不能准确地表示该文本单元在整个文档中的重要程度。因此,需要一种改进的、更准确地得到在文档中的文本元素的重要程度以便得到关键元素的方法和设备。
技术实现思路
关键元素获得和文本摘要都瞄准从文档中获得精准的能够代表该文的信息的关键元素。现有技术中的一般技术方案都是关注于使用独立的句子、词以及他们之间的关系。 但是,文档的物理结构并没有充分地被挖掘。因此,现有技术中的获得关键元素的方案都不能准确地表示该文本元素在整个文档中的重要程度,因此所获得的关键元素不能恰当地代表整个文档的内容信息,从而导致无法通过该关键元素得到期望的文档搜索结果,也无法获得确切的文档摘要。根据本申请的一个方面,提供一种在文档中获得一个或多个关键元素的方法,包括以下步骤抽取该文档的结构元素,所述结构元素至少包含标题元素,其中,该文档包括多个结构上的层,所述结构上的层至少包含标题层,且每个结构元素对应于各自的层;确定除了标题层以外的一层中的被抽取的结构元素在其对应的层内的层内权重;确定所述被抽取的结构元素与除了其对应的层和标题层以外的其他层中的结构元素之间的跨层权重;确定所述被抽取的结构元素与标题元素之间的全局权重;组合所述被抽取的结构元素的层内权重、跨层权重和全局权重来确定所述被抽取的结构元素的最后权重;以及根据所述一层中的结构元素的最后权重,来获得所述一层中的一个或多个关键元素。根据本申请的另一方面,还提供一种在文档中获得一个或多个关键元素的设备, 包括抽取装置,抽取该文档的结构元素,所述结构元素至少包含标题元素,其中,该文档包括多个结构上的层,所述结构上的层至少包含标题层,且每个结构元素对应于各自的层;层内权重确定装置,确定除了标题层以外的一层中的被抽取的结构元素在其对应的层内的层内权重;跨层权重确定装置,确定所述被抽取的结构元素与除了其对应的层和标题层以外的其他层中的结构元素之间的跨层权重;全局权重确定装置,确定所述被抽取的结构元素与标题元素之间的全局权重;最后权重确定装置,组合被抽取的结构元素的层内权重、跨层权重和全局权重来确定所述被抽取的结构元素的最后权重;以及关键元素获得装置,根据所述一层中的被抽取的结构元素的最后权重,来获得所述一层中的一个或多个关键元素。因此,本申请可以实现更准确地计算文档中的结构元素的重要程度,从而更准确地得到文档中的关键结构元素,以便利用这些关键结构元素来进行一系列相关应用。附图说明图1示意性地示出了根据本专利技术的一个实施例的获得一个或多个关键元素的方法;图2通过树结构示意性地示出了根据本专利技术的一种实施例、文档的结构元素的关系;图3是示意性地具体示出了根据本专利技术的一种实施例、组合不同元素的层内权重、跨层权重和全局权重的整体算法图;图4示意性地示出了根据本专利技术的一种实施例、建立词、字层的层内关系;图5示意性地示出了根据本专利技术的一种实施例、计算层内权重时使用的TextRank 的基于图的算法;图6示意性地示出了根据本专利技术的一种实施例、计算跨层关系时使用的命中矩阵;以及图7示意性地示出了根据本专利技术的一个实施例的获得一个或多个关键元素的设备。具体实施例方式下面结合附图详细描述本专利技术的各个实施例。但是,注意,这些实施例仅是举例, 而不是限制。图1示意性地示出了根据本专利技术的一个实施例的获得一个或多个关键元素的方法100。该方法100包括步骤S101,抽取该文档的结构元素。如上所述,该结构元素可以包含标题元素。该文档可以包括多个结构上的层,这些结构上的层可以至少包含标题层。且每个结构元素对应于各自的层。该方法100还包括步骤S102,确定除了标题层以外的一层中的被抽取的结构元素在其对应的层内的层内权重。该方法100还包括步骤S103,确定所述被抽取的结构元素与除了其对应的层和标题层以外的其他层中的结构元素之间的跨层权重。该方法100还包括步骤S104,确定所述被抽取的结构元素与标题元素之间的全局权重。该方法100还包括步骤S105,组合所述被抽取的结构元素的层内权重、跨层权重和全局权重来确定所述被抽取的结构元素的最后权重。该方法100还包括步骤S106,根据所述一层中的结构元素的最后权重,来获得所述一层中的一个或多个关键元素。如此,可以通过组合本文档来自技高网
...

【技术保护点】
1.一种在文档中获得一个或多个关键元素的方法,包括以下步骤:a)抽取该文档的结构元素,所述结构元素至少包含标题元素,其中,该文档包括多个结构上的层,所述结构上的层至少包含标题层,且每个结构元素对应于各自的层;b)确定除了标题层以外的一层中的被抽取的结构元素在其对应的层内的层内权重;c)确定所述被抽取的结构元素与除了其对应的层和标题层以外的其他层中的结构元素之间的跨层权重;d)确定所述被抽取的结构元素与标题元素之间的全局权重;e)组合所述被抽取的结构元素的层内权重、跨层权重和全局权重来确定所述被抽取的结构元素的最后权重;以及f)根据所述一层中的结构元素的最后权重,来获得所述一层中的一个或多个关键元素。

【技术特征摘要】

【专利技术属性】
技术研发人员:谢宣松姜珊珊孙军郑继川赵利军
申请(专利权)人:株式会社理光
类型:发明
国别省市:JP

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1