确认技术文档内容的方法和系统技术方案

技术编号:2845737 阅读:180 留言:0更新日期:2012-04-11 18:40
一种文档自动确认系统,其经训练能够提取出特定领域的实体以及与它们文字关联的物理特性、抽象特性或者是关系特性,这一点如电子文档中所描述的那样。系统的训练可通过一组示例文档来实现,这些文档表示了该领域并由一领域专家以某种方式手工标出从而识别出各种类型的实体以及与它们关联的一组可记录的特性。带着一专门领域词汇(如词典),该训练后的系统就能自动处理属于同一领域的新的文档,并能在任意数目的内容条件规则上测试所提取出的信息,这些规则必须由该领域专家指定从而确认出新文档的完整性和有效性。

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术涉及一种通过信息提取然后将所提取出的信息与一组规则相比较从而对文档特别是技术文档的内容进行确认的方法和系统。
技术介绍
当前,大多数信息是以电子文档或文件的形式从一个人转移到另一个人或者是从一个地方转移到另一个地方的,这些信息主要以文本的形式表示出来。文本型电子文档的形式非常多。其包括较短格式的电子邮件、布告信息、新闻、法律文档、科学研究论文、完整的新闻杂志或期刊、以及整整的书集或百科全书。在这些文档中,我们能定义其中一类并将其归类于技术文档。技术文档在这里被定义为那些符合一组通常可接受的规则或者甚至是有关特定形式规则的文档。简单地说,这类规则可将技术文档的内容按照“who(谁)”“what(什么)”“when(何时)”“where(何地)”“how(如何)”进行说明。即,这些规则会提出如下的问题●“文档中希望表达的实体是什么?”●“实体的有效印刷表示形式是什么?”●“如果有的话,文档的逻辑部分是什么?”●“实体与文档的哪一部分相关联?”●“如果可行的话,实体在文档中按什么顺序表示出来?”●“文档中不同实体之间的关系如何?”尽管所有的文档均可适用于这些规则,但对于技术文档来说相对于这种规则总存在着两个事实,而这两个事实对于非技术文档来说并不总是成立。这两个事实是●技术文档不满足至少一个这些规则的即表明该文档对于熟悉该文档主题的人员来说是不完整的或者是无效的;以及●技术文档能满足所有这些规则的即表明该文档对于熟悉该文档主题的人员来说是完整并且完全有效的。换句话说,只有技术文档才具有完全清晰的文法结构,从而在形式上完全符合一组有限的规则或者是确认说明,并且确保有唯一的一组规则适用于属于某一特定主题的所有技术文档。这些技术文档例如可包括●用来制造食品的原料表;●一公司客户产品的用户手册;●程序语言中的各种计算机程序的程序指令;●用来在互联网上生成网页的超文本结构语言;●列明化学产品的化学及物理特性的化学数据表;●餐馆的菜单;●公司产品线如计算机、汽车甚至是房子的销售册子。在许多工业领域中,技术文档通常都表示一种通用及方便的方法,通过该方法,一类产品的不同生产商能让客户将他们的产品与其它生产商的产品进行对比。此外,在已经建立起的大中型工业中,通常有一个或多个管理组织,其作用(其中之一)是在其工业领域中在所有的产品上建立并尽可能地推行某些标准。这些标准可以是有关产品质量的标准,也可以是工作地点安全的标准等。在存在管理组织的情况下,技术文档被用来确定一件产品是否符合这些标准的相关规定。通常的情况是,符合要求包括技术文档内容的完整性以及该文档中所述的产品符合标准的程度。这是因为只有当与该产品相关的信息(即技术文档的内容)是完整准确的,才能判断一产品是否符合规定。确定是否符合的任务最终要落到该管理组织中的一个或多个人员上,其必须让专家经培训后知道这组规则从而确定是否符合(或不符合)一技术文档以及其所描述的产品。实际上,通常需要用到专家的知识才能掌握一产品的相关技术信息,这一点限制了消费者使其不能完整地评估出一产品的质量。由此,确保一产品信息的完整性以及确保一产品符合标准的任务就从非专业的消费者转移到管理组织中经过训练(即专业)的人员。然而,这里还存在一个问题就是专家,由于他们具有非常专业的知识,因此其数量有限。在人员上,不可能有一群专家来评估每一市场段中所有信息的质量,这里,产品的品种数以百万,而且还有许多新的产品不断加入。因此,唯一一种切实可行的对技术文档进行确认的方法就是采用对总体采样的方法。也就是说,监控当局的官员仅核对现有所有技术文档中的一个随机(至少是半随机)部分。这就意味着大多数进入市场段的技术文档在到达产品用户之前未经确认,其中有相当一部分会包含错误或者是不完整的信息从而有可能导致产品的用户处于危险的状态。技术文档的确认绝对是一个适于自动处理的问题。现有的用来自动解决这一问题的方法是由专家来进行,其通常以规则的形式来将他们的知识“编码”成一个专门的计算机程序,然后再由该程序“模拟”专家的分析过程来试图解决一个问题或者是回答一个问题(如,“本文档中的这个信息是否正确和完整?”),事实上,专家系统仅表示一个专门的计算机程序,这种程序现在已有许多应用。现有专家系统包括公开日为2000年4月11日的、Jacobs等人的、名称为“System for screening of medical decision making incorporatinga knowledge base”的美国专利文献US6,049,794;公开日为1996年12月10日的、McIlroy等人的、名称为“Health care management system for managingmedical treatments and comparing user proposed and recommended resourcesfor treatment”的美国专利文献US5,583,758;公开日为1989年2月7日的、Hardy等人的、名称为“Basic expert system tool”的美国专利文献US4,803,641;以及公开日为1997年4月8日的、Puckett的、名称为“Diagnostic expert system for hierarchically decomposed knowledge domains”的美国专利文献US5,619,621。然而,纯粹的专家系统,如上述的专家系统,需要以一种完全一致的并且结构化的格式来输入数据。它们通常被实施为问题回答系统以便一个(非专业的)用户输入需要核实或确认的信息。换句话说,在对文档内容进行确认的领域中,用户必须作为一个“有学问的人”,其能够提取出具有不同布局或者是不同格式结构的不同电子文档中的对应实体,然后将所提取出来的数据以统一的格式提交给专家系统以便评估。这样的专家系统仅能解决一部分问题。对于其它的问题,即那些需要大量烦杂人工劳动来将文档的内容转录给专家系统的问题来说,自然语言处理(natural language processing,NLP)提供了一种解决方案。特别是信息提取系统形式的NLP系统,其能学习从而识别出一特定领域中有意义的实体,然后将这类实体从其前面没有遇到的文档的相同领域中提取出来。信息提取领域中的现有技术包括公开日为2001年7月17日的、Paik等人的、名称为“Information extraction system and method usingconcept-relation-concept(CRC)triples”的美国专利文献US6,263,335;公开日为1998年11月24日的、Huffman的、名称为“Method for learning localsyntactic relationships for use in example-based information-extraction-patternlearning”的美国专利文献US5,841,895;公开日为2001年4月3日的、Boguraev的、名称为“Method for extracting knowledge from 本文档来自技高网...

【技术保护点】
一种应用于自由文本文档上进行内容确认的方法,该方法包括:a)从该自由文本文档中提取出多个半结构化的表述;b)将一逻辑推理机应用于该半结构化表述上;以及c)对该逻辑推理机的输出进行翻译以便用于后续的操作。

【技术特征摘要】
【国外来华专利技术】SG 2003-11-21 200307192-51.一种应用于自由文本文档上进行内容确认的方法,该方法包括a)从该自由文本文档中提取出多个半结构化的表述;b)将一逻辑推理机应用于该半结构化表述上;以及c)对该逻辑推理机的输出进行翻译以便用于后续的操作。2.如权利要求1的方法,其中的文档为技术文档。3.如权利要求1或2的方法,其中的后续操作涉及下面的一个或多个操作i)提供一个指示,其表明该文档的内容是有效的;ii)将任何失败了的确认规则关联起来;以及iii)基于任何失败了的确认规则来对文档的内容进行修订。4.如权利要求3的方法,其中将那些失败了的确认规则关联起来的操作包括将那些失败了的确认规则关联并突显给操作人员。5.如权利要求3或4的方法,其中将那些失败了的确认规则关联起来的操作进一步包括将所关联的半结构化表述关联起来或者是与文档的原始内容相对应。6.如权利要求3至5之一的方法,其中对文档的内容进行修订的操作进一步基于对应的文档原始内容进行的。7.如前述任一权利要求的方法,其中的半结构化表述包括具体的实体以及它们的属性。8.如权利要求7的方法,其中具体实体的属性包括定性属性、定量属性或者是逻辑属性,或者是它们与其它实体的关系。9.如权利要求7或8的方法,其中一个或多个所述实体直接对应于的一个用文字语言定义的物理或抽象概念。10.如权利要求7到9之一的方法,其中一个或多个所述实体包括高级别的实体,其属性表示低级别的实体,提供与它们对应的高一级实体有关的更为详细的特性。11.如前述任一权利要求的方法,其中的逻辑推理机由一结构化的确认规则列表构造出来。12.如权利要求11的方法,其进一步包括由该结构化的确认规则列表构造出这个逻辑推理机。13.如权利要求11或12的方法,其中结构化的确认规则由该文档领域中的一个权威规定。14.如权利要求13的方法,其中该领域的权威包括由下面各项所构成的组中的一个或多个专家、书、以及其它权威性的信息源。15.如前述任一权利要求的方法,其中的逻辑推理机包括一推理网络。16.如前述任一权利要求的方法,其中的逻辑推理机包括一个处理程序,其表示为一个决策树,或者是另一种确定状态转移图表。17.如前述任一权利要求的方法,其中的自由文本文档包括由下面各项所构成组中的一个或多个文本、图像、音频和视频。18.如前述任一权利要求的方法,其中结构化确认规则列表包括一个由一种正式的陈述性语言撰写的条件语句列表。19.如权利要求18的方法,其中的每一个条件语句均包括一前提部分和一结果部分。20.如权利要求19的方法,其中的前提部分包括一个由多个独立的条件检验段构成的列表,其在逻辑上通过“AND”、“OR”或“NOT”这样的逻辑算符序列组合起来。21.如权利要求20的方法,其中每一个条件检验段均包括一个用于该领域中相关实体的逻辑限制、关系限制或定性限制。22.如权利要求19到21之一的方法,其中的结果部分包括由下面各项构成的组中的一个或多个一组被突显的实体、一个被显示的错误信息以及一个更正操作。23.如前述任一权利要求的方法,其进一步包括显示由下面各项构成的组中的一个或多个半结构化的表述,确认规则列表,半结构化表述与确认规则之间的关系,以及半结构化表述或文本文档的原始内容以及任一失败的确认规则之间的突显部分。24.如前述任一权利要求的方法,其进一步包括获取用户指令,其形式为下面各项所构成的组中的任意一个或多个新的确认规则、修改后的确认规则以及修改后的文档内容。25.一种应用于自由文本文档上进行内容确认的系统,该系统包括一装置,其用来从自由文本文档中提取出多个半结构化的表述;一装置,其用来将一逻辑推理机应用于该半结构化表述上;以及一...

【专利技术属性】
技术研发人员:赖鸿麟陈亚辉
申请(专利权)人:新加坡科技研究局
类型:发明
国别省市:SG[新加坡]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1