关系网络制造技术

技术编号:2827723 阅读:218 留言:0更新日期:2012-04-11 18:40
说明了一种计算机实现的用于生成关系网络的系统和过程。该系统提供了待相关联的数据项的集合,并生成可变长度数据矢量以代表每一个数据项内的关键词项之间的关系。该系统可以用来生成文档、图像或任何其他类型的文件的关系网络。然后,可以查询此关系网络,以发现该数据项集合内的关键词项之间的关系。

【技术实现步骤摘要】
【国外来华专利技术】对相关申请的交叉引用本专利申请以2005年6月6日提出的美国临时专利申请No.60/688,242为基础要求优先权,这里引用了该申请的全部内容作为参考。关于联邦政府赞助的研究和开发的声明本专利技术是根据合同No.DE-AC02-05CH11231在美国能源部支持的工作过程中作出的。政府对本专利技术具有某些权限。
本专利技术涉及基于矢量的信息存储和检索系统。具体来说,本专利技术涉及用于存储、生成和检索上下文矢量以构建和可视化信息的关系网络的系统。
技术介绍
基于短语或关键字的搜索是用于对电子数据进行搜索的常用方法。通过关键字进行的搜索会在整个信息数据库中进行搜索,以查找搜索查询中的单词的实例。然而,通过关键字进行的搜索不会给出基于相关性的结果;除了搜索查询中的单词的实例之外,搜索查询结果常常还包括彼此没有相关性或关系的项目。例如,打算搜索技术公司Apple的产品的用户可能输入搜索查询“Apple”。然而,搜索结果将可能包括涉及水果苹果、带有音乐标记Apple的歌曲等等。因此,基于短语进行的搜索的搜索查询结果常常与用户的搜索意图毫无共同之处。将一个对象与另一个对象相关联的搜索方法常常被用来代替通过关键字进行的搜索,以便提供与搜索者的意图相关的搜索查询结果。这样的基于关系的搜索方法有很大的不同,范围从精确的到一般的各种各样的方法。涉及文本对象的方法在精确性和方法、质量和数-->量方面可以有很大的不同。例如,标题为“System and Method ofContext Vector Generation and Retrieval”的美国专利No.5,619,709的专利技术人Caid等人依靠上下文矢量生成和陈旧的神经网络方法而不是更加先进的自动关联方法。美国专利No.6,816,857的专利技术人Weissman等人使用距离计算方法来确定关系,以便在网站上放置基于意思的广告,或在当前使用的搜索引擎中评定文档相关性。然而,这些基于关系的搜索没有模拟人在分析相关信息以将对象彼此相关联时所使用的过程。从感兴趣的对象开始,研究人员通常在某些上下文本内进行研究,并形成在读取和分析文献的过程中收集的信息之间的关系。在此灵活的过程中,所感兴趣的上下文可以随着发现的信息或研究人员的思维过程而变化,变得精炼,或移动并呈现新的方向。在研究人员完成研究过程之后,给他留下了涉及特定主题或所感兴趣的上下文的有价值的信息集合。例如,如果研究人员的感兴趣的对象是音乐的时期,上下文是巴洛克风格,那么,研究人员可以将乐曲彼此相关联,将乐曲与作曲家相关联,将乐曲与地理位置或时期相关联。基于共同的关系的搜索不模拟此过程,因为它们两者都不灵活,也没有交互;它们既不允许用户在进行搜索过程中定义和控制上下文和单个关系,也不允许由用户交互地确定和可视化关系的质量和数量。
技术实现思路
这里某些实施例提供了与关系网络一起使用的用于分析、设计和实现从信息数据库创建的矢量的系统和计算机实现的方法。某些实施例还提供了与关系网络一起使用的基于关系的网络生成引擎。在一个实施例中,提供了用于确定电子数据库中的对象之间的关系的系统。首先,获取诸如原始文本文档或数据之类的对象。然后,通过过滤掉无关的数据并计算对象之间的距离,来处理对象。距离度量可以是,例如,指数式衰减计算。然后,使用距离分数来创建对象之间的关系的关系分数值。生成并存储使用关系分数值的矢量。在某些实施例中,可变长度矢量可以存储代表相对于操作对象的指定的框-->架内的对象之间的距离的数据。由于一个矢量内的每一个对象都可以具有其自己的矢量,因此,可以使用矢量来构建关系网络。此外,关系网络中的对象之间的连接的组织也可以供用户进行搜索、可视化或其他解释。在某些实施例中,可以突出显示独特对象,而在其他实施例中,则可以突出显示共同的对象。在另一个实施例中,提供了用于查找关系的网络生成引擎。当对两个或更多矢量之间发现的交叉属性进行操作时,网络生成引擎能够识别文本、单词或对象之间的明显的、独特的和隐藏关系。在一个实施例中,网络生成引擎可以在包含矢量集合的关系数据库上实现。使用输入查询对象作为指南以为查询对象从关系数据库中提取所有直接和关联的关系。引擎可以对这些关系进行评分并进行排序,并测量任何交叉对象的相似性分数,然后,使用相似性分数,构建另一个关系网络,该网络显示查询对象与其他对象的关系,以及它们的关系的强度。如有必要,可以可视化查询对象的所产生的关系网络,供进一步解释。为确保当正在构建关系网络时所提交的对象停留在特定上下文内,可以使用过滤器形式的主题上下文来控制在所产生的网络内提取的关系的类型。附图说明图1是用于生成关系网络的系统的一个实施例的流程图。图2是用于基于包含文本文档的电子信息数据库生成与关系网络一起使用的矢量的系统的一个实施例的流程图。图3A显示了来自包含文本文档的信息数据库的示例文档。图3B显示了图3A的文档在经过分析之后的情形。图4显示了与图3A和3B的样本数据一起使用的框架的一个实施例。图5显示了在框架中的正在被分析的当前关键词项是核心关键词项“red”的状态下图4的关键词项“red”的示例关联存储器模块。图6A显示了在系统完成了其对包含图3A的文档的信息数据库的分析之后关键词项“red”的关联存储器模块。-->图6B显示了图6A的关联存储器模块的示例查询对象矢量。图7显示了网络生成引擎的示例流程图。图8A显示了应用于查询对象矢量的示例排除过滤器矢量。图8B显示了使用图8A的经过滤的查询对象矢量生成展开的查询对象矢量的示例方法。图8C显示了使用图8A的经过滤的关联对象矢量生成展开的关联的对象矢量的示例方法。图8D显示了与展开的查询对象矢量一起使用展开的关联的对象矢量来查找关联的对象矢量和展开的查询对象矢量之间的关联的关键词项以便产生查询的搜索结果的一个示例方法。图9显示了响应关键词项“red”的查询创建的关系网络的图形可视化。图10显示了根据一个实施例的关系网络系统。具体实施方式本专利技术的一个实施例是在一个集合中的不同项目之间创建并辨别关系的计算机方法和系统。在一个实施例中,在数据集中的数据项之间创建多对多关系。作为一个示例,数据项可以是基因,而数据集可以是GENBANK基因数据库。正如下面比较详细地描述的,系统的实施例对数据集中的数据项进行分析,此后创建反映数据集中的数据项之间的可变长度数据矢量,如查询对象矢量。然后,数据矢量可以存储起来,并被用作分析数据项之间的关系的数据挖掘工具的一部分。例如,可以搜索Genbank中的涉及胃癌的所有基因。在本专利技术的一个实施例中,通过首先分析两个数据项之间的直接相关性,然后寻找数据项之间的进一步的隐藏的关联,创建标记数据项之间的关联的数据矢量。在一个实施例中,通过反复分析数据集中的每一关键词项与其他关键词项的距离,确定这些隐藏关系。如此,例如,在数据集中发现两个单词彼此关联的次数越多,它们之间的关系就越近。在某些实施例中,通过跨每一个数据项地移动“框架”来分析关键词项。例如,如果数据项是文档,则框架可以一次一行地穿过-->文档,但是覆盖三行。随着框架沿着文档的每一行移动,对框架内的关键词项之间的距离进行分析。在此分析过程中,创建存储了框架中的每一关键词项之间的关系的数据矢量本文档来自技高网
...

【技术保护点】
一种计算机实现的用于生成关系网络的过程,包括:    (a)提供待相关联的数据项的集合,其中,所述数据项包括多个关键词项;    (b)选择要处理的第一数据项;    (c)向所述第一数据项应用框架,其中,所述框架包括所述数据项内的关键词项的第一集合;    (d)为所述框架内的关键词项计算数据矢量;    (e)移动所述框架以包括所述数据项内的关键词项的第二集合;    (f)通过重复步骤(d)-(e)直到已经计算出所述数据项中的所有关键词项的数据矢量来创建关系网络;以及    (g)将所述关系网络存储在存储器中。

【技术特征摘要】
【国外来华专利技术】US 2005-6-6 60/688,2421.一种计算机实现的用于生成关系网络的过程,包括:(a)提供待相关联的数据项的集合,其中,所述数据项包括多个关键词项;(b)选择要处理的第一数据项;(c)向所述第一数据项应用框架,其中,所述框架包括所述数据项内的关键词项的第一集合;(d)为所述框架内的关键词项计算数据矢量;(e)移动所述框架以包括所述数据项内的关键词项的第二集合;(f)通过重复步骤(d)-(e)直到已经计算出所述数据项中的所有关键词项的数据矢量来创建关系网络;以及(g)将所述关系网络存储在存储器中。2.根据权利要求1所述的方法,包括向所述第一数据项中的独特关键词项的所述数据矢量添加权重值。3.根据权利要求2所述的方法,其中,所述权重值与所述第一数据项中的所述关键词项的频率相关。4.根据权利要求1所述的方法,其中,所述数据项包括文档,而所述关键词项包括单词。5.根据权利要求4所述的方法,其中,所述框架包括所述数据项中的至少三个句子。6.根据权利要求1所述的方法,进一步包括从所述数据项中删除特定的关键词项。7.根据权利要求1所述的方法,其中,所述计算包括相反地使用斐波纳契序列以获取所述框架中的关键词项之间的衰变因数。8.一种用于生成数据项之间的关系的系统,包括:包括待相关联的数...

【专利技术属性】
技术研发人员:卡斯安弗兰克斯考内利亚A迈尔斯拉夫M波多维斯基
申请(专利权)人:加利福尼亚大学董事会
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1