用于知识导航和发现的数据结构、系统和方法技术方案

技术编号:4608669 阅读:172 留言:0更新日期:2012-04-11 18:40
本文公开了能精确信息检索和提取并因此方便相关和关联发现的数据结构、系统、方法和计算机程序产品。本发明专利技术利用了名为“Knowlet”的新的数据结构,该数据结构结合了概念间关系的多个属性和值。当文本包含了许多重复的事实陈述,Knowlet仅记录两个概念之间的关系一次,关系的属性和值基于多个重复陈述的情况而变化,增加共现值和关联值。本发明专利技术的方法使得Knowlet空间与文本空间相比增长最小,这在大量数据库、相关本体/主题词表、以及需要知识导航和知识(相关、关联、和/或其他)发现的情况下非常有用。

【技术实现步骤摘要】
【国外来华专利技术】 相关申请的交叉引用本申请涉及下列申请人的共同未决申请,并要求下列申请的权益美国临时专利申请号为61/064345,在2008年2月28日提交的名称为"用 于知识导航和发现的增强型系统和方法";美国临时专利申请号为61/064211,在2008年2月21曰提交的名称为"用 于知识导^^和发现的系统和方法";美国临时专利申请号为_,在2008年3月19日提交的名称为"用于知识导^L和发现的增强型系统和方法";美国临时专利申请号为_,在2008年3月26日提交的名称为"用于通过智能网络的知识导航和发现的系统和方法";美国临时专利申请号为60/909072,在2007年3月30日提交的名称为"用 于知识发现的方法和目标";美国非临时专利申请号为_,在2008年3月31日提交的名称为"数据结构,用于知识导航和发现的增强型系统和方法";以上所述的申请原 文通过参考而合并到本文。
总的来说,本专利技术涉及用于导航大量数据的数据结构、系统、方法和计算 机程序产品,特别是涉及用于导航大量数据中发现的概念的数据结构、系统、 方法和计算机程序产品,以方便知识发现过程。
技术介绍
在当今的信息时代,信息正以惊人的步^^皮创建着。例如,据估计在全球,公共 互联网已经超iti百亿页信息,分布在超过l亿个网站上,并且每天都在增长。这样的增长不仅来自于网站操作者"正式"发布的新闻报道、科学研究、网络日志(或博 客)等等,而M来自于数量众多的公众。也f^L说,互联网的海量数据的网页是由 于各种"维基(Wiki)"类网站增长的结果,这些典型的协作式网站使得用户可以轻 卡W也、通常没有太多限制的进行》务改。(一个维基网站允i"封可人使用一网页浏览器 iM扁辑、删除或修改已经^^^在网站上的内容,该内容包括其他作者的作品。)由于信息正以惊人的速度被创建,互联网服务中数据务賭的一个合适的例子就是,定位和分析某些信息的相关部分/A^殳有^i脉这样成为与人类社会的所有方面都相关的重^"f壬务,尽管其仍是一个劳动密集型任务。由于大量信息已经^皮编码为自然语言文本,在大量文本库中发琐bNi关信息的"金块"通常被称为"文拟乞掘"。两个进行文拟織的主要方法最终;^i为一一信息检索(IR)和信息炎取(正)。 信綠索找到文档信息检索问题与图书馆和档案馆的起源一样古老。 一旦书籍或其它包^f言息的媒 介被存储,它们就必须被找到。目录和索引^于访问大量》1域的通用工具。在计算 机时代,很多文4^皮数字化,计算才/ux具被开发^大量j)琉中索引和检索文档。这 些工具的使用者通常使用"关4建字"或句子来查询数据库,传统的结果是被认为与查 询相关的出版物的一个清单。例如,查询"查找讨论肺癌的新疗法的文件"将可育腿 回描述用于治疗肺癌的药物的临床试验的文件出处。使用计算机用于信,y企索的研究和;l^可以追溯到19世纪50年代。多种算法和 应用禾踏被开发出来,科学研究者每天^f躺信,y企索工具,因为许多书籍目#^(也 信息源可以在线^JU。例如,^JU Google或者yahoo!搜索网站;^^典型的信息一企索 (IR)任务。从方法的角yliW,信息趁索可以被分类为三种不同方法布尔搜索法、 概率搜索法和向量空间搜索法。最广泛使用的一个生物医学书籍目录数据库是PubMed,该数据库^JI]布尔模型。 例如,上述的查询#^被转换为类似于"肺癌AND疗法"的搜索。尽管PubMed对 ^JD关键词检索提供了许多改进,但是它仍然受到布尔搜索的典型^A的局限非常 M的查询如"论文AND讨论AND新疗法AND肺癌"可能通常返回很少结果 甚至于没有返回结果。而且,结果依赖于所基于的词和布尔查询,对结果基于相关性 进行排序通常不可能。概率搜索法和向量空间4叟索法#^是供了用来处J對青确查询一个更复杂的工具。对 于向量空间检索法,ij琉的文档和查询都以在文本中最重要的词(即关键词)的一个 向量来^4。例如,向量(论文,讨论,新疗法,肺癌》^JJl述查询。数值^4分配 的重要性。在文档和查询被转换为向量后,通常计算在查询向量和文档向量之间的角 度。两个向量之间的角皿小,向f^^目似,或者,换句"^i兌,这些文档越与查询 相似或相关。向量空间查询的结果是在向量空间上与查询相似的一组文档清单。相对 于布尔查询系统,第一个主要改进f议结果能够被排序。第二个主要改itA即使如果 所有查询的词不都在<封可一篇文档中,在大多数f青况下系统可以仍然返回相关的结果。 一般的,查询越精确或全面,结果;^^精确。 信息炎取找到事实当信息检索查询获得了 一个与用户的查询潜在相关的出版物的清单时,用 户仍然必需通过阅读获得的文献以提取相关信息。例如,回到上文查询的例子, 用户可能不会感兴趣于简单的看到描述用于肺癌的新疗法的论文清单,而是可 能更加愿意看到这些新疗法的实际清单。因此,投入了相当大的努力来研究信 息提取的方法。信,y是取(正)的一个重要方法是预定义某个事实或事实组合的模板。例如,一 个生化^不仅包括不同的反应物,iiit常包^劲某介分子(即催化剂)。此外,这种 反应通常位于特定细胞上,甚至位于细胞的特定部分上。提耳堪法将首先搜索文本中 提及一个或多个^ji物的部分,然后例3喊过将细胞类型的名称解释为^1位置,来试图:t賴;f對反。在许多情况下,需^f顿高级自然语言处理(NLP)技术,因为不互 换^Jt和目标是非常重要的。同时,还需要语义分析以提取需要的实际含义。句子"服 用顺铂的肺癌患者显示出一些好转"并不意味着该药物顺柏^JI]于治疗肺癌的。有关 顺钼是一种药物、以刻申癌是一种疾病的知识,将极大的有利于计算"顺输治疗肺癌"的关系。对这种解释的计算工作量i^^过""il殳的信,y企索(IR)的工作量,逸"tW释了为什么对信息炎取(正)的研究和J^L仅仅是近年^特定系统中才产生了足够4青确的结果。鄉"卜发现虽然数字记录信息的爆炸使得^^射口检索ihA畏惧,但同时^ij开了用于知i。波 现的兴趣途径。贯穿人类历史,研究人员结合现有资料与预感制订假设,并随后进行检验。人类吸收信息的能力是有限的,但是,通过处理大量的信息以产生 假设的计算工具在研究中非常有前景。这一领域中两种主要的方式方法被开发 出来,即,相关发现和关联发现。相关发现DonSwanson教授的先驱研究获得了已通过实验证明的新的科学假设。参 见Swanson, D.R. "Undiscovered public knowledge", Library Quarterly, 1986; 56: 103-118,其全部内容通过参考而合并入本文。Swanson的々£设是如果一篇科 学论文提及了 A和B之间的关系,并且另 一篇论文指出了 B和C之间的关系, 然后假设,A和C是相关的,这并不需要必须存在这种关系的实际记录。由 于目前的科学是高度专业化和细分化,指出A-B关系的论文可能是专攻于C 的研究者未知和不能理解的。例如,Swanson的第一个发现,爱斯基摩人的饮 食中鱼类较多,摄入鱼油(A)中的脂肪酸被认为能降低血小板聚集和血液教 度(B)。爱斯基摩人因此有关心脏疾病的发病率较低。在一个不相关的研究 雷诺氏疾病(C)的医学训练中,本文档来自技高网...

【技术保护点】
一种创建数据结构以方便知识导航和发现的方法,包括: (a)将至少一个数据库载入到计算机存储器中,该至少一个数据库包含与一领域相关的多个记录; (b)将至少一个主题词表载入到所述计算机存储器中,其中所述至少一个主题词表包含N个与所 述领域相关的概念; (c)给所述主题词表的N个概念中的每个概念分配一个独特的标识符; (d)建立所述N个概念中的每个概念在所述至少一个数据库的所述多个记录中的位置的索引; (e)使用所述索引在所述至少一个数据库内搜索所述多 个记录,以确定N个概念中的每对概念之间的语义关系; (f)使用搜索步骤(e)的结果计算N个概念中的每对概念之间的Z个语义关系值; (g)将下列内容存储到所述计算机存储器中:(i)对应于所述N个概念中的一个概念的所述独特标识符中的 至少一个;和(ii)对应于所述N个概念中的所述一个概念与其他N-1个概念之间的所述Z个语义关系值; 由此,所述Z个语义关系值表示在至少一主题词表中所述N个概念中的所述一个概念如何与其他N-1个概念相关联。

【技术特征摘要】
【国外来华专利技术】...

【专利技术属性】
技术研发人员:艾伯特蒙斯尼古拉斯巴里斯克里斯廷奇切斯特巴兰德蒙斯埃里克温马利根马克韦伯
申请(专利权)人:纽科股份有限公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1