专业性技术文档的文档检索系统技术方案

技术编号:20117687 阅读:24 留言:0更新日期:2019-01-16 12:03
本申请公开了用于操作数据处理系统以识别包括多个文档和由所述多个文档示例的多个概念的库中的文档的方法、以及存储用于使数据处理系统执行该方法的指令的计算机可读介质。所述方法包括:使数据处理系统从库中识别与用户提供的检索关键词匹配的候选文档;使数据处理系统产生将候选文档中包含的概念相互关联的主题图形;和基于主题图形对候选文档进行聚类。对于每个聚类,数据处理系统显示该聚类中的所述候选文档的概要以及表征该聚类的聚类名称。

Document Retrieval System for Professional Technical Documents

This application discloses a method for operating a data processing system to identify documents in a library comprising multiple documents and multiple concepts from the multiple document examples, and a computer readable medium for storing instructions for enabling the data processing system to execute the method. The method includes: enabling data processing system to identify candidate documents matching search keywords provided by users from the database; enabling data processing system to generate subject graphics that correlate concepts contained in candidate documents; and clustering candidate documents based on subject graphics. For each cluster, the data processing system displays a summary of the candidate documents in the cluster and the cluster name representing the cluster.

【技术实现步骤摘要】
专业性技术文档的文档检索系统
技术介绍
测量系统的改进已经使得产生包括基于软件的控制器的系统,所述控制器可以操作标的测量设备来进行目录不断增加的特定测量。该目录的剪切尺寸使得从不具吸引力的目录中选择测量协议。基于使用关键词检索缩小目录的方案也取得了有限的成功,因为检索需要用户具有特定仪器的操作技能级别。很多用户缺乏有关的操作技能水平。此外,对于相同或类似的函数,在不同测量设备中使用的函数定义可以随设备而异,这取决于购买设备的型号、安装的软件、或许可证类型。通过使用很多现代仪器中包括的机载数据处理系统来尝试减轻这种检索问题已经取得有限的成功。这些搜索引擎通常检索包括每个测量协议的说明性文本的测量协议的数据库。搜索引擎要求用户输入一个或多个关键词并选择满足显示给用户的关键词检索的所有协议。用户然后必须滚动浏览目录并选择候选协议以详细查看说明性文本。此外,用户必须熟悉文档的专用词汇。如果用户选择过宽的关键词,则目录太多。如果用户选择的关键词太窄,则可能会错过所需的协议。
技术实现思路
本专利技术包括用于操作数据处理系统以识别包括多个文档和由所述多个文档示例的多个概念的库中的文档的方法、以及存储用于使数据处理系统执行该方法的指令的计算机可读介质。所述方法包括:使数据处理系统从库中识别与用户提供的检索关键词匹配的候选文档;使数据处理系统产生将候选文档中包含的概念相互关联的主题图形(topicalgraph);和基于主题图形对候选文档进行聚类。对于每个聚类,数据处理系统显示该聚类中的所述候选文档的概要以及表征该聚类的聚类名称。在本专利技术的一个方面中,所述方法使得数据处理系统产生文本索引,该文本索引在库中的每个候选检索关键词的多个文档的每一个中指定一个位置。在另一方面,所述方法使数据处理系统产生概念索引,该概念索引为多个文档中的每个概念指定一个位置以及指定该概念与多个文档中的所述概念中的另一概念之间的关系。在另一方面,概念索引包括指定该文档与所述概念中的所述另一概念之间关系的强度的权重。在另一方面,所述关系包括:亲代-子代关系,属种概念(genericconcept-specificconcept)关系,一个概念是另一概念的一部分或一个属性的关系,一个概念是另一概念的同义词的关系,整体和整体的局部的关系,和问题和解决方案的关系。在另一方面,所述关系包括将文档之一中的概念关键词与概念之一相关联的概念关键词关系。在另一方面,主题图形中的概念各自包括描述该概念的概念名称,并且其中聚类名称是包括在该聚类中的候选文档中的概念之一的概念名称。在另一方面,概念索引是从本体知识数据库中导出的。在另一方面,聚类之一的概念名称包括该聚类之一内的两个概念所共有的亲代概念的名称。在另一方面,聚类之一的概念名称包括该聚类之一内的大多数概念所共有的亲代概念的名称。在另一方面,概念名称是聚类之一内的所有概念所共有的名称。在另一方面,该方法包括接收来自用户的聚类名称之一和接收另一个检索关键词,和使数据处理系统产生候选文档,所述候选文档代表所述多个文档中属于该所述聚类名称之一的那些和之前选择的文档。在另一方面,主题图形中的每个概念包括与该概念相关联的概念关键词的目录,并且当显示候选文档的概要时,数据处理系统显示与对应于该聚类名称的概念相关联的概念关键词。在另一方面,数据处理系统响应于用户选择概念关键词之一,除了使用检索关键词之外还使用显示的概念关键词之一来进行对文档的另一检索。本专利技术还包括具有指令的计算机可读介质,当将指令加载到数据处理系统上的处理器中时,所述指令使数据处理系统执行上面讨论的检索方法。在另一方面,计算机可读介质还存储由数据处理系统用来从库产生主题图形的本体数据库。在另一方面,库与计算机可读介质分离。本专利技术包括:1.一种用于操作数据处理系统以识别包括多个文档和由所述多个文档示例的多个概念的库中的文档的方法,所述方法包括:使所述数据处理系统从所述库中识别与用户提供的检索关键词匹配的候选文档;使所述数据处理系统产生将所述候选文档中包含的概念相互关联的主题图形;基于所述主题图形对所述候选文档进行聚类;以及对于每个聚类,显示该聚类中的所述候选文档的概要以及表征该聚类的聚类名称。2.项1所述的方法,其还包括使所述数据处理系统产生文本索引,所述文本索引在所述库中的每个候选检索关键词的所述多个文档的每一个中指定一个位置。3.项1所述的方法,其还包括使所述数据处理系统产生概念索引,所述概念索引为所述多个文档中的每个概念指定一个位置以及指定该概念与所述多个文档中的所述概念中的另一概念之间的关系。4.项3所述的方法,其中所述概念索引还包括指定所述文档与所述概念中的所述另一概念之间的所述关系的强度的权重。5.项3所述的方法,其中所述关系包括亲代-子代关系,属种概念关系,一个概念是另一概念的一部分或一个属性的关系,一个概念是另一概念的同义词的关系,整体和整体的局部的关系,和问题和解决方案的关系。6.项3所述的方法,其中所述关系包括将所述文档之一中的概念关键词与所述概念之一相关联的概念关键词关系。7.项3所述的方法,其中所述主题图形中的所述概念各自包括描述该概念的概念名称,并且其中所述聚类名称是包括在所述聚类中的所述候选文档中的所述概念之一的所述概念名称。8.项3所述的方法,其中所述概念索引是从本体知识数据库中导出的。9.项1所述的方法,其中所述聚类之一的所述概念名称包括该所述聚类之一内的所述概念中的两个概念所共有的亲代概念的名称。10.项1所述的方法,其中所述聚类之一的所述概念名称包括该所述聚类之一内的大多数所述概念所共有的亲代概念的名称。11.项1所述的方法,其中所述概念名称是所述聚类之一中的所有概念所共有的名称。12.项1所述的方法,其还包括接收来自所述用户的所述聚类名称之一和接收另一个检索关键词,和使所述数据处理系统产生候选文档,所述候选文档代表所述多个文档中属于该所述聚类名称之一的那些和之前选择的文档。13.项7所述的方法,其中所述主题图形中的每个概念包括与该概念相关联的概念关键词的目录,并且其中当显示所述候选文档的所述概要时,所述数据处理系统显示与对应于所述聚类名称的所述概念相关联的所述概念关键词。14.项13所述的方法,其中所述数据处理系统响应于用户选择所述概念关键词之一,除了使用所述检索关键词之外还使用所述显示的概念关键词之一来进行对所述文档的另一检索。15.一种具有指令的计算机可读介质,当将所述指令加载到数据处理系统上的处理器中时,所述指令使得所述数据处理系统执行检索方法,所述检索方法识别包括多个文档和由所述多个文档示例的多个概念的库中的文档,所述检索方法包括:使所述数据处理系统从所述库中识别与用户提供的检索关键词匹配的候选文档;使所述数据处理系统产生将所述候选文档中包含的概念相互关联的主题图形;基于所述主题图形对所述候选文档进行聚类;和对于每个聚类,显示该聚类中的所述候选文档的概要以及表征该聚类的聚类名称。16.项15所述的计算机可读介质,其中所述计算机可读介质还存储由所述数据处理系统用来从所述库产生所述主题图形的本体数据库。17.项16所述的计算机可读介质,其中所述库与所述计算机可读介质分离。附图说明图1是根据本专利技术第一实施方式的检索系统的本文档来自技高网...

【技术保护点】
1.一种用于操作数据处理系统以识别包括多个文档和由所述多个文档示例的多个概念的库中的文档的方法,所述方法包括:使所述数据处理系统从所述库中识别与用户提供的检索关键词匹配的候选文档;使所述数据处理系统产生将所述候选文档中包含的概念相互关联的主题图形;基于所述主题图形对所述候选文档进行聚类;以及对于每个聚类,显示该聚类中的所述候选文档的概要以及表征该聚类的聚类名称。

【技术特征摘要】
2017.06.30 US 15/640,1221.一种用于操作数据处理系统以识别包括多个文档和由所述多个文档示例的多个概念的库中的文档的方法,所述方法包括:使所述数据处理系统从所述库中识别与用户提供的检索关键词匹配的候选文档;使所述数据处理系统产生将所述候选文档中包含的概念相互关联的主题图形;基于所述主题图形对所述候选文档进行聚类;以及对于每个聚类,显示该聚类中的所述候选文档的概要以及表征该聚类的聚类名称。2.权利要求1所述的方法,其还包括使所述数据处理系统产生概念索引,所述概念索引为所述多个文档中的每个概念指定一个位置以及指定该概念与所述多个文档中的所述概念中的另一概念之间的关系。3.权利要求2所述的方法,其中所述概念索引还包括指定所述文档与所述概念中的所述另一概念之间的所述关系的强度的权重。4.权利要求2所述的方法,其中所述关系包括选自以下的关系:亲代-子代关系,属种概念关系,一个概念是另一概念的一部分或一个属性的关系,一个概念是另一概念的同义词的关系,整体和整体的局部的关系,将所述文档之一中的概念关键词与所述概念之一相关联的概念关键词关系,和问题和解决方案的关系。5.权利要求2所述的方法,其中所述主题图形中的所述概念各自包括描述该概念的概念名称,并且其中所述聚类名称是包括在所...

【专利技术属性】
技术研发人员:浦智则
申请(专利权)人:是德科技股份有限公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1