用于进行对象检索的分布式计算机数据库系统和方法技术方案

技术编号:2870657 阅读:238 留言:0更新日期:2012-04-11 18:40
分布式计算机数据库系统包括一个或多个前端计算机和由网络互连起来、成为一个检索包括图象、声音和视频流以及普通和结构化文档的对象的搜索引擎的一个或多个计算机节点。查询是一个与要检索的对象格式相同的对象。将来自用户的查询发送到一个前端计算机,后者将查询传递到搜索引擎的称为内部节点的一个计算机节点。内部节点从查询抽取特征,然后散列这些特征。将每个散列特征发送到网络上的一个节点。网络上每个接收到散列特征的节点,用散列特征在其各自的数据库分区上进行检索。各本地数据库的检索结果由内部节点收集。(*该技术在2019年保护过期,可自由使用*)

【技术实现步骤摘要】

本专利技术涉及计算机数据库系统,更具体来说涉及分布式计算机数据库系统。本领域中一般都认识到,在过去十几年中,信息处理的性质的两个重大变化是,从以字母数字文本处理为主到多媒体处理的转变,从前是分离的计算机由网络连接起来,而网络又由内部网和因特网连接起来。第一种变化导致计算机上的计算机图像变得与文本一样普通。第二种变化导致大量的文本和多媒体信息能为人们所用。信息向人们开放程度的这种提高,是以查找相关信息的难度的增加为代价的。a)基于单词的搜索引擎人们已经开发了辅助信息检索的搜索引擎,但是它们主要还是基于将查询中的单词与文本文档中的单词匹配。实际上,这意味着它们一般不能有效地检索图像和其它种类的多媒体的特征。基于单词的系统和基于非单词的系统目前采用独立和截然不同的方法来抽取相关信息。一种从基于单词的数据库抽取信息的方法是提交查询形式的信息请求。根据查询,计算机能从数据库抽取与查询所规定信息相关的信息。抽取的信息可用于确定查询与数据库中对象之间的“相似”或“相关”程度。人们已经开发了各种计算机实现的相似性测量(similarity measure),用于在查询和数据库信息是自然语言的文档时,比较查询与数据库中的对象。余弦测量(cosine measure)是一种常用的相似性测量。余弦测量的表达公式是COS(v,w),其中向量v表示查询,向量w表示文档。这些向量所在的空间中,每个可能的单词(或同义词集)代表空间的一维。要了解关于余弦测量的进一步信息,可参考G.Salton的《自动文本处理》(Automatic Text Processing,Addison-Wesley,Reading,MA,1989),G.Salton、J.Allen和C.Buckley的《大型文本文件的自动构造和检索》(Automatic structuring and retrieval of large text files,Comm.ACM,3797-108,1994)。b)基于非单词的搜索引擎如上所述,基于非单词的的技术采用的抽取相关信息的方法与基于单词的系统所使用的截然不同。基于非单词的信息检索技术用于例如医学中从人体图象抽取诊断信息时是有益的。肺癌是最难治疗的癌症之一。早期发现对于提高生还率来说是重要的。胸部CT扫描比传统的X光胸透技术更有效,但是CT扫描产生的需要检查的图象更多,这就必然要用计算机辅助执行大规模的筛选程序。CT图象的计算机辅助诊断,要求抽取大量的特征,诸如肺区、血管、气泡和肿瘤。这些特征的检测要用计算机实现的阀值算法并作剔除CT扫描仪的制造物的修匀。这些特征又具有涉及诸如它们的形状、面积、厚度和在肺中的位置等属性的复杂结构。在计算机上实现检查这类特征的这类算法时,采用对象数据库是有用的。对象数据库是一批按照某种数据模型组织并存储在计算机存储介质上的数据或信息对象。每个信息对象以及数据对象都有一个类型,诸如图象、声音或视频流,例如文本文件或结构化文档。每个信息都由一个对象标识符(OID)唯一地标识。OID可以是因特网统一资源定位器(URL)或某种其它形式的标识符,诸如本机对象标识符(local object identifier)。含有图象、声音和/或视频流的数据库不但能包括信息对象本身,也能包括特征和元数据(meta data)。用于这种数据库的数据模型能支持许多抽象层次上的信息的表示,这些层次包括1.数据表示层,它含有信息对象的实际数据。2.数据对象层,它存储从信息对象抽取的数据对象(诸如线和区域)。这个层上的对象没有域解释(domain interpretation)。3.域对象层,它将一个域对象与数据对象层的每个对象关联4.域事件层,它将域对象互相关联,提供空间或时间关系的语义表示。数据对象层(即上述的层2)的特征可以表示为一组独立于域的数据,诸如线和区域。域层(即上述的层3和4)的特征可以表示为一组按域关系彼此相关的域对象。考察另一个医学例子。乳房X光术是早期检查乳腺癌的一种最有效的方法。乳腺癌是妇女患癌的一个主要原因。人工阅读乳房X光片耗费人力,所以计算机辅助是必不可少的。乳房X光片中有非常多已经判明是对正确诊断有重要意义的特征,诸如凝结的微钙化体(clustered micro calcifications)、星形损伤(stellate lesions)和肿瘤。这些每个都能表示为一组具有复杂结构的医学域对象。例如,星形损伤具有由spincules环绕的中央体(central mass)构成的复杂结构。而spincules又有复杂的星形结构。抽取这些复杂的域对象以及它们互相之间的关系,对于乳腺癌的有效检查是重要的。图象、声音和视频流的特征可以在计算机中表示为一组存储在数据库中的数据结构。特征可以划分为以下类型·不能直接从信息对象抽取的、通常描述的是关于信息对象的其它数据的特征,诸如摄影者姓名或拍摄日期。这种特征称为元数据。·能在插入数据库时直接从信息对象抽取的特征。·不到需要时不作计算的特征。特征可以简单到是一个诸如图象亮度的属性的值,但是许多特征更为复杂,因此是用复杂的数据结构表示的。这种复杂特征的一个例子是,乳房X光片中星形损伤的结构的表示。一般来说,可以通过分析文档从结构化文档中抽取特征,以产生数据结构;可以通过使用已经为在计算机上的实现而开发的许多特征抽取算法中的一个算法从非结构化文档中抽取特征。如结构化文档的情况一样,从非结构化文档中抽取特征也产生数据结构。人们已经为诸如图象、声音和视频流的多媒体开发了大量的各种特征抽取算法。要探讨这类算法,应当参考由编辑A.Del Bimbo编辑的《第9届图象分析与处理国际研讨会会刊》(标题原文The Ninth International Conference on Image Analysis and Processing,卷1311,Springer,1997年9月)。例如,医学图象一般用边沿检查算法(edge detection algorithms)来抽取数据对象,而用特定于域的知识将数据对象分类为有医学意义的对象,诸如血管、损伤和肿瘤。傅立叶和弱波变换以及许多过滤算法也用于特征抽取。例如,弱波分析已经被用来特征化区域的纹理和确定形状(诸如字母)而不管该形状在图象内的位置或方向。表示特征的数据结构一般符合数据库的某个数据模型,数据模型决定了所允许的分量(component)种类和属性值。每个特征可以具有一个或多个与表示该特征的数据结构的分量关联的值。在最简单的情况中,数据结构可以有一个单一的、具有一个关联值的分量,特征可以由对象的一个属性来表示。更复杂的特征可以由若干互相关联的、每个都有属性值的分量来表示。处于域层的数据模型经常被称为主体(ontology)。主体为诸如医学的特定域内的知识建立模型。主体可包括概念网络(concept network)、专业词汇、语法形式和推理规则。特别地,主体定义对象可拥有的特征以及如何从对象抽取特征。对象的每个特征都有一个关联的权重(weight)来代表该特征的“强度”或者说对象具有该特征的程度。当前用于从信息对象抽取特征的系统使用的主体非常简单,此外,主体在系统的设计中是隐式的,不是系统的本文档来自技高网...

【技术保护点】
一种在具有由网络连接的多个内部节点和多个查询节点的分布式计算机数据库系统中用模糊查询进行信息检索的方法,该方法包含的步骤为:A)选择所述多个内部节点的一个第一内部节点;B)由所述被选择的内部节点从用户给出的查询中抽取多个特征 ;C)由所述被选择的内部节点将所述多个抽取特征的每个抽取特征分割成多个查询片断;D)由所述被选择的内部节点散列所述多个查询片断的每个所述查询片断,散列查询片断有一个第一部分和一个第二部分;E)由所述被选择的内部节点将 所述多个散列查询片断的每个所述散列查询片断传输到由各散列查询片断的所述第一部分指示的多个查询节点中的相应查询节点;F)由所述查询节点运用相应散列查询片断的所述第二部分按照位于所述查询节点上的本地散列表来访问数据;G)由各个根 据所述各自的散列查询片断访问数据的所述查询节点将对应于所述被访问数据的多个对象标识符返回给所述被选择的内部节点。

【技术特征摘要】
...

【专利技术属性】
技术研发人员:KP巴克劳斯基
申请(专利权)人:贾格有限公司
类型:发明
国别省市:US[美国]

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1