【技术实现步骤摘要】
【国外来华专利技术】
本专利技术涉及一种通过信息提取然后将所提取出的信息与一组规则相比较从而对文档特别是技术文档的内容进行确认的方法和系统。
技术介绍
当前,大多数信息是以电子文档或文件的形式从一个人转移到另一个人或者是从一个地方转移到另一个地方的,这些信息主要以文本的形式表示出来。文本型电子文档的形式非常多。其包括较短格式的电子邮件、布告信息、新闻、法律文档、科学研究论文、完整的新闻杂志或期刊、以及整整的书集或百科全书。在这些文档中,我们能定义其中一类并将其归类于技术文档。技术文档在这里被定义为那些符合一组通常可接受的规则或者甚至是有关特定形式规则的文档。简单地说,这类规则可将技术文档的内容按照“who(谁)”“what(什么)”“when(何时)”“where(何地)”“how(如何)”进行说明。即,这些规则会提出如下的问题●“文档中希望表达的实体是什么?”●“实体的有效印刷表示形式是什么?”●“如果有的话,文档的逻辑部分是什么?”●“实体与文档的哪一部分相关联?”●“如果可行的话,实体在文档中按什么顺序表示出来?”●“文档中不同实体之间的关系如何?”尽管所有的文档均可适用于这些规则,但对于技术文档来说相对于这种规则总存在着两个事实,而这两个事实对于非技术文档来说并不总是成立。这两个事实是●技术文档不满足至少一个这些规则的即表明该文档对于熟悉该文档主题的人员来说是不完整的或者是无效的;以及●技术文档能满足所有这些规则的即表明该文档对于熟悉该文档主题的人员来说是完整并且完全有效的。换句话说,只有技术文档才具有完全清晰的文法结构,从而在形式上完全符合一组有限的规则或者是确认 ...
【技术保护点】
一种应用于自由文本文档上进行内容确认的方法,该方法包括:a)从该自由文本文档中提取出多个半结构化的表述;b)将一逻辑推理机应用于该半结构化表述上;以及c)对该逻辑推理机的输出进行翻译以便用于后续的操作。
【技术特征摘要】
【国外来华专利技术】SG 2003-11-21 200307192-51.一种应用于自由文本文档上进行内容确认的方法,该方法包括a)从该自由文本文档中提取出多个半结构化的表述;b)将一逻辑推理机应用于该半结构化表述上;以及c)对该逻辑推理机的输出进行翻译以便用于后续的操作。2.如权利要求1的方法,其中的文档为技术文档。3.如权利要求1或2的方法,其中的后续操作涉及下面的一个或多个操作i)提供一个指示,其表明该文档的内容是有效的;ii)将任何失败了的确认规则关联起来;以及iii)基于任何失败了的确认规则来对文档的内容进行修订。4.如权利要求3的方法,其中将那些失败了的确认规则关联起来的操作包括将那些失败了的确认规则关联并突显给操作人员。5.如权利要求3或4的方法,其中将那些失败了的确认规则关联起来的操作进一步包括将所关联的半结构化表述关联起来或者是与文档的原始内容相对应。6.如权利要求3至5之一的方法,其中对文档的内容进行修订的操作进一步基于对应的文档原始内容进行的。7.如前述任一权利要求的方法,其中的半结构化表述包括具体的实体以及它们的属性。8.如权利要求7的方法,其中具体实体的属性包括定性属性、定量属性或者是逻辑属性,或者是它们与其它实体的关系。9.如权利要求7或8的方法,其中一个或多个所述实体直接对应于的一个用文字语言定义的物理或抽象概念。10.如权利要求7到9之一的方法,其中一个或多个所述实体包括高级别的实体,其属性表示低级别的实体,提供与它们对应的高一级实体有关的更为详细的特性。11.如前述任一权利要求的方法,其中的逻辑推理机由一结构化的确认规则列表构造出来。12.如权利要求11的方法,其进一步包括由该结构化的确认规则列表构造出这个逻辑推理机。13.如权利要求11或12的方法,其中结构化的确认规则由该文档领域中的一个权威规定。14.如权利要求13的方法,其中该领域的权威包括由下面各项所构成的组中的一个或多个专家、书、以及其它权威性的信息源。15.如前述任一权利要求的方法,其中的逻辑推理机包括一推理网络。16.如前述任一权利要求的方法,其中的逻辑推理机包括一个处理程序,其表示为一个决策树,或者是另一种确定状态转移图表。17.如前述任一权利要求的方法,其中的自由文本文档包括由下面各项所构成组中的一个或多个文本、图像、音频和视频。18.如前述任一权利要求的方法,其中结构化确认规则列表包括一个由一种正式的陈述性语言撰写的条件语句列表。19.如权利要求18的方法,其中的每一个条件语句均包括一前提部分和一结果部分。20.如权利要求19的方法,其中的前提部分包括一个由多个独立的条件检验段构成的列表,其在逻辑上通过“AND”、“OR”或“NOT”这样的逻辑算符序列组合起来。21.如权利要求20的方法,其中每一个条件检验段均包括一个用于该领域中相关实体的逻辑限制、关系限制或定性限制。22.如权利要求19到21之一的方法,其中的结果部分包括由下面各项构成的组中的一个或多个一组被突显的实体、一个被显示的错误信息以及一个更正操作。23.如前述任一权利要求的方法,其进一步包括显示由下面各项构成的组中的一个或多个半结构化的表述,确认规则列表,半结构化表述与确认规则之间的关系,以及半结构化表述或文本文档的原始内容以及任一失败的确认规则之间的突显部分。24.如前述任一权利要求的方法,其进一步包括获取用户指令,其形式为下面各项所构成的组中的任意一个或多个新的确认规则、修改后的确认规则以及修改后的文档内容。25.一种应用于自由文本文档上进行内容确认的系统,该系统包括一装置,其用来从自由文本文档中提取出多个半结构化的表述;一装置,其用来将一逻辑推理机应用于该半结构化表述上;以及一...
【专利技术属性】
技术研发人员:赖鸿麟,陈亚辉,
申请(专利权)人:新加坡科技研究局,
类型:发明
国别省市:SG[新加坡]
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。