用于创建文档摘要的系统和方法技术方案

技术编号:2854457 阅读:189 留言:0更新日期:2012-04-11 18:40
本发明专利技术提供了一种用于创建文档摘要的系统和方法,所述系统和方法基于输入的检索条件检索文档并基于输入的摘要创建条件从所检索的文档中提取适合于摘要的范围。所述文档摘要创建系统包括基于输入的范围设置条件在所检索的文档中设置候选范围的候选范围设置部(35),所述候选范围之一被提取作为摘要。为提取适合于摘要的部分,提取由候选范围设置部(35)设置的候选范围之一。

【技术实现步骤摘要】

技术介绍
本专利技术适用于一种用于创建摘要的技术,该技术基于问题内容从文档中提取适合于摘要的范围以创建摘要。特别地,本专利技术涉及一种用于创建文档摘要的能调整候选范围的系统和方法,所述候选范围之一被提取作为摘要。在基于使用自然语言构建的问题内容从文档中提取适合于摘要的范围来创建摘要的常规的文档摘要创建系统中,依照如下所示的过程明确地创建摘要,例如日本专利申请KOKAI公告号2003-256425中所公开的。首先,对使用自然语言构建的问题进行语素分析并将其划分为单词。通过将每个获得的单词与字典数据相比较而进行语义分析。确定特定单词的含义(时间、人物、地点等等)。然后,在能被用于摘要的目标的多个文档上类似地执行语素和语义分析。根据使用例如“新行单元”或“句点单元”的文档单元的固定选择方法来提取摘要目标范围,即,每一能被用作摘要候选的范围(以下称为“候选范围”)。然后,对于每个被提取的候选范围,将语素和语义分析结果与在问题上执行的语素和语义分析结果相比较。比较结果显示的具有高度一致性的候选被确定为问题的摘要。然而,这种常规的文档摘要创建方法存在如下描述的问题。该方法使用固定的方法来选择候选范围。即,通过“认为新行单元为一个文档”的这样一种固定的选择方法,如果在逐条列记部分的情况下为每个语义单元创建新行,则整个逐条列记部分就不能被选择用作候选范围。例如,将考虑一种情况,其中,从例如以下所示的一个目标文档中提取问题“什么是常规的摘要方法?”的摘要。(目标文档)“通过常规的摘要技术,<新行1> 1.对使用自然语言构建的问题进行语素分析并将其划分为单词。进一步地,基于语义分析,确定特定单词的含义(时间、人物、地点等等)。<新行2> 2.也对一组摘要目标文档进行语素和语义分析。目标范围被认为符合固定的选择方法,即,例如“新行单元”或“句点单元”的文档单元。将在每个目标范围上执行的语素和语义分析结果与在问题上执行的语素和语义分析结果相比较。最相近的目标范围被确定为文档的摘要。<新行3> 这就是怎样执行常规的摘要技术。”<新行4> 以上目标文档具有4个新行。不过,将通过新行从彼此之中分离出来的每个范围认为是一个候选范围。因此,对于问题“什么是常规的摘要方法”,无法将整个目标文档提供作为摘要,尽管其适合作为摘要。
技术实现思路
考虑到上述情况做出本专利技术。本专利技术的目的是提供创建文档摘要的能任意设置候选范围的系统和方法,所述候选范围之一被提取作为问题的摘要。为了实现以上专利技术目的,本专利技术使用了下面描述的方法。本专利技术提供创建文档摘要的系统和方法,所述系统和方法基于输入检索条件检索文档,并基于输入摘要创建条件从所检索的文档中提取适合于摘要的范围,其中,基于输入范围设置条件在所检索的文档中设置候选范围,所述的候选范围之一被提取作为摘要。为提取适合于摘要的部分,提取被设置的候选范围之一。范围的设置条件包括例如限制了所检索文档的至少一个限制条件和候选范围的格式条件。可以通过交互输入接收装置输入这样的范围设置条件。将涉及上述相关系统和方法的本专利技术制作成允许计算机执行上述过程的程序。使用上述方法的本专利技术甚至能从用各种表达形式的文档中提取适合作为摘要的部分。进一步地,设置范围设置条件能够限制将要检索的文档以及仔细指定候选范围。因此,能够创建更精确的摘要。将在以下的描述中提出本专利技术的其它目标和优点,部分目标和优点通过描述将显而易见,或者可以通过实施本专利技术而认识到。可以依靠在下文中具体指出的手段及组合而实现并获得本专利技术的目标和优点。附图说明被并入并且组成说明书一部分的附图示例了本专利技术的实施例,并与上面给出的综述及下面对实施例的详细描述一起用于解释本专利技术的原理。附图1是示出了根据本专利技术实施例的用于创建文档摘要的方法所应用的文档摘要创建系统的示例的功能框图;附图2是示出了用于输入摘要创建条件、检索条件和范围设置条件的交互输入屏幕的示例的概图;附图3是详细示出了检索引擎的功能配置的示例的框图;附图4是示出了根据本专利技术实施例的用于创建文档摘要的方法所应用的文档摘要创建系统的操作流程图;附图5是示出了由文档检索部所检索的文档的示例的图;附图6是示出了被设置了候选范围的文档的示例的图;附图7是示出了被设置了候选范围的另一个文档的示例的图;及附图8是示出了由摘要提取部所提取的摘要的示例的图。具体实施例方式参照附图,将给出实施本专利技术的最佳模式的描述。附图1是示出了根据本专利技术实施例的用于创建文档摘要的方法所应用的文档摘要创建系统的示例的功能框图。根据本专利技术实施例的文档摘要创建系统10包括通过例如因特网的通信网络12连接在一起的客户端20和服务器30。服务器30基于客户端20输入的检索条件来检索文档。进一步地,服务器30通过基于客户端20输入的摘要创建条件提取适合于摘要的候选范围来创建文档摘要,所述候选范围被包括在基于客户端20输入的范围设置条件在所检索的文档中设置的那些候选范围中。客户端20包括通过通信网络12与服务器30传送和接收数据的通信部22,包括如键盘和鼠标(未示出)的输入工具以使用户可以使用输入工具输入例如检索条件、摘要创建条件和范围设置条件的数据的输入部24,以及包括了例如用于显示通过通信部22从服务器30接收的数据和由输入部24输入的如检索条件、摘要创建条件和范围设置条件的数据的显示器的显示部26。为了从输入部24输入如检索条件、摘要创建条件和范围设置条件的数据,用户可以在显示部26上显示交互输入屏幕,并根据显示部26上显示的交互输入屏幕输入数据。图2是示出了在显示部26上显示的便于用户可以从输入部24完全地输入摘要创建条件、检索条件和范围设置条件的交互输入屏幕40的示例的概图。输入屏幕40包括摘要创建条件输入部42、检索条件输入部44和范围设置条件输入部48。摘要创建条件输入部42包括应用复选部43a和问题输入部43b。为设置摘要创建条件,用户选中应用复选部43a(图2中示出了选中标记)并在问题输入部43b上输入使用自然语言构建的用于创建摘要的问题。检索条件输入部44包括被选中以指定需要搜索的数据库名的应用复选部45a、用于输入包括在数据库部37中的被指定和搜索的多个数据库38(#1,#2,.....,#n)之一的名的数据库名输入部45b、被选中以指定将被检索的文档的资源(例如,URL)的应用复选部46a、如果应用复选部46a被选中则用于输入资源名的资源名输入部46b、被选中以指定如关键词、更新日期和文件格式的检索条件的申请复选部47a、以及如果应用复选部47a被选中则用于输入检索条件的检索条件输入部47b。范围设置条件输入部48是用于输入范围设置条件的部,范围设置条件在文档中设置候选范围,所述候选范围之一被提取作为摘要。范围设置条件输入部48包括基选择部49和格式设置部50。为将候选范围指定为新行赋予最高优先权,用户在基选择部49中选中应用复选部49a。为将候选范围指定为句点赋予最高优先权,用户在基选择部49中选中应用复选部49b。对于在基选择部49中指定的优选项,在格式设置部50中设置更加详细的格式条件。对于将如图中的51b,5本文档来自技高网
...

【技术保护点】
一种基于输入的检索条件检索文档并且基于输入的摘要创建条件从所检索的文档中提取适合于摘要的范围的文档摘要创建系统,所述系统的特征在于包括:被配置用于基于输入的范围设置条件在所检索的文档中设置候选范围的候选范围设置部,所述的候选范围之一 被提取作为摘要, 其中,为了提取适合于摘要的部分,提取由候选范围设置部设置的候选范围之一。

【技术特征摘要】
JP 2004-9-29 284674/20041.一种基于输入的检索条件检索文档并且基于输入的摘要创建条件从所检索的文档中提取适合于摘要的范围的文档摘要创建系统,所述系统的特征在于包括被配置用于基于输入的范围设置条件在所检索的文档中设置候选范围的候选范围设置部,所述的候选范围之一被提取作为摘要,其中,为了提取适合于摘要的部分,提取由候选范围设置部设置的候选范围之一。2.根据权利要求1所述的文档摘要创建系统,其特征在于,所述范围设置条件包括限定了将要检索的文档的至少一个限定条件和候选范围的格式条件。3.根据权利要求2所述的文档摘要创建系统,其特征在于,还包括了被配置用于接受范围设置条件的输入的交互输入接受部。4.根据权利要求1所述的文档摘要创建系统,其特征在于,还包括...

【专利技术属性】
技术研发人员:高知尾胜彦笹气光一
申请(专利权)人:株式会社东芝东芝解决方案株式会社
类型:发明
国别省市:JP[日本]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1