计算实体之间的重要性的方法、系统和设备技术方案

技术编号:10389030 阅读:180 留言:0更新日期:2014-09-05 14:05
公开了用于确定实体之间的重要性的系统和技术。所述系统和技术识别与第二实体有关联的第一实体,向所述关联应用多个关联准则,基于所定义的权重值对每一个所述准则进行加权,以及基于多个加权的准则值之和计算第一实体相对于第二实体的重要性分数。所述系统和技术利用来自全异源的信息来创建独特强力的信号。所述系统和技术可以用于识别各种实体之间的关系(例如,关联)的重要性,所述实体包括但不限于:组织、人、产品、工业、地理、商品、金融指标、经济指标、事件、主题、科目代码、唯一标识符、社会标签、工业项目、一般项目、元数据元素、分类代码及其组合。

【技术实现步骤摘要】
【国外来华专利技术】【专利摘要】本专利技术公开了用于确定实体之间的重要性的系统和技术。所述系统和技术识别与第二实体有关联的第一实体,向所述关联应用多个关联准则,基于所定义的权重值对每一个所述准则进行加权,以及基于多个加权的准则值之和计算第一实体相对于第二实体的重要性分数。所述系统和技术利用来自全异源的信息来创建独特强力的信号。所述系统和技术可以用于识别各种实体之间的关系(例如,关联)的重要性,所述实体包括但不限于:组织、人、产品、工业、地理、商品、金融指标、经济指标、事件、主题、科目代码、唯一标识符、社会标签、工业项目、一般项目、元数据元素、分类代码及其组合。【专利说明】关联重要性相关申请的交叉引用 本申请要求2011年2月22日提交的名称为“ Information Processing andVisualization Methods and Systems” 的美国临时申请 N0.61/445,236 以及 2001 年 5 月13日提交的名称为“Association Significance”的美国非临时申请N0.13/107,665的优先权,上述申请的内容以其整体并入到本文中。
本公开涉及实体关联,并且更具体地涉及用于度量实体关联的系统和技术。
技术介绍
当今,金融市场中的投资决策需要对可从多个来源获得的信息进行仔细分析。为了满足这一挑战,金融机构通常维持为这种分析提供基础的非常大的数据集。例如,预测股票市场、货币汇率、银行破产、理解和管理金融风险、贸易期货、信用评级、借贷管理、银行客户概况以及洗钱分析都需要用于分析的大的信息数据集。信息数据集可以是结构化数据集以及非结构化数据集。通常,使用信息数据集来对一个或多个不同实体进行建模,每一个所述实体与其它实体可能有关系。例如,公司实体可能受到任何以下实体的影响并由此与任何以下实体有关系:商品(例如,铝、谷物、原油、糖等)、货币(例如,欧元、英镑、日元等)以及一个或多个竞争者。一个实体中的任何变化可能对另一实体有影响。例如,上涨的原油价格可能影响运输公司的收入,这可能影响该公司的估价。考虑到这些数据集的量和性质,每个所建模的实体趋向于与大量其它实体有多个关系。由此,对于给定实体,难以识别哪些实体比其它实体更重要。相应地,存在对用于自动分析所有可用数据并给实体关系指派重要性分数的系统和技术的需要。
技术实现思路
公开了用于确定实体之间的重要性的系统和技术。所述系统和技术识别与第二实体有关联的第一实体,向所述关联应用多个关联准则,基于所定义的权重值对每一个所述准则进行加权,以及基于多个加权的准则值之和计算第一实体相对于第二实体的重要性分数。所述系统和技术利用来自全异源的信息来创建独特强力的信号。所述系统和技术可以用于识别各种实体之间的关系(例如,关联)的重要性,所述实体包括但不限于:组织、人、产品、产业、地理、商品、金融指标、经济指标、事件、主题、科目代码、唯一标识符、社会标签、产业项目、一般项目、元数据元素、分类代码及其组合。本专利技术的各方面涉及向实体关联应用兴趣度准则以及加权与所述兴趣度准则相关联的值以产生重要性分数。例如,根据一个方面,一种计算实体之间的重要性的方法包括:从多个实体识别第一实体和第二实体,所述第一实体具有与所述第二实体的第一关联,并且所述第二实体具有与所述第一实体的第二关联;以及对被指派给所述第一关联的多个准则值进行加权。所述多个准则值基于多个关联准则,所述多个关联准则选自实质上由以下各项构成的组:兴趣度、最近兴趣度、确认、共享近邻、时间重要性、情境一致性、最近活动、当前集群(cluster)和意外兀素。所述方法还包括:基于所述第一准则的所述多个加权的准则值之和计算所述第一实体相对于所述第二实体的重要性分数,所述重要性分数指示所述第二实体对于所述第一实体的重要性级别;产生与所计算的重要性分数相关联的信号;以及传送所述信号。在一个实施例中,所述多个实体表示以下各项中的一个或多个:组织、人、产品、产业、地理、商品、金融指标、经济指标、事件、主题、科目代码、唯一标识符、社会标签、产业项目、一般项目、元数据元素、分类代码及其组合。可以从文档组、诸如数据库之类的结构化数据储存器或其组合识别所述多个实体。在另一个实施例中,所述方法还包括使用计算机实现的数据结构在计算机存储器中表示所述多个实体。例如,在一个实施例中,所述计算机实现的数据结构是有向图,其中所述有向图的顶点表示所述多个实体,并且所述有向图的边表示所述多个实体中每一个之间的关联。所述方法还可以包括:使用第一实体和第二实体在所述文档组中的同现(co-occurrence)产生所述关联。在一个实施例中,所述方法包括:向所述第一关联应用兴趣度准则,其中所述兴趣度准则基于适当的度量,所述度量是诸如(但不限于)以下兴趣度度量之一:相关系数、古德曼-克鲁斯凯的(Goodman-Kruskal’ s) lambda ( λ )、优势比(α )、尤尔的(Yule,s)Q、尤尔的Y、卡帕(Kap pa) (O、交互信息(M)、J-度量(/)、基尼(Gini)指数⑷、支持度(W、置信度(C)、拉普拉斯(Z)、确信度(K)、兴趣(J)、余弦a?)、皮亚特斯基-夏皮罗的(Piatetsky-shaporo’ s) (/?)'确定性因子(Z7)、增加值 C^K)、收集强度(CollectiveStrength) (5)、杰卡德(Jaccard)指数以及克洛斯根(Klosgen) (£)。所述方法还包括:基于所述一个关联度量给所述多个准则值之一指派值。所述方法可以包括:向所述第一关联应用最近兴趣度准则,其中使用所述结构化数据储存器和所述文档组中的至少一个的一部分向所述第一关联应用最近兴趣度准则,所述部分与可配置预定时间间隔以及诸如(但不限于)以下兴趣度度量之一之类的适当度量相关联:相关系数、古德曼-克鲁斯凯的lambda( λ )、优势比(α )、尤尔的Q、尤尔的Y、卡帕(K )、交互信息(M)、J-度量(J)、基尼指数(仍、支持度(S)、置信度(C)、拉普拉斯(Z)、确信度(K)、兴趣σ)、余弦、is)、皮亚特斯基-夏皮罗的(/?)、确定性因子奶、增加值m、收集强度C?)、杰卡德指数以及克洛斯根⑷。所述方法还包括:基于所述一个关联度量给所述多个准则值之一指派值。所述方法可以包括:向所述第一关联应用确认准则,其中应用确认准则包括确定是否所述第一实体和第二实体作为实体对共同存在于预定义对组中,所述预定义实体对中的每一对标识彼此之间的已知关系;以及基于所述确定给所述多个准则值之一指派值。在一个实施例中,所述方法可以包括:向所述第一关联应用共享近邻准则,其中应用共享近邻准则包括确定具有从所述第一实体和第二实体延伸预定距离的边的实体子集。所述实体子集表示与第一实体和第二实体相邻的节点的交集。所述方法还包括:至少部分基于被包括在所述实体子集中的实体的数量计算关联值;以及基于所计算的关联值给所述多个准则值之一指派值。在又一个实施例中,所述方法可以包括:向所述第一关联应用时间重要性准则,其中应用时间重要性准则包括使用所述结构化数据储存器和所述文档组中的至少一个的第一部分以及所述结构化数据储存器和所述文档组中的所述至少一个的本文档来自技高网
...

【技术保护点】
一种计算实体之间的重要性的方法,包括:从多个实体识别第一实体和第二实体,所述第一实体具有与所述第二实体的第一关联,并且所述第二实体具有与所述第一实体的第二关联;对被指派给所述第一关联的多个准则值进行加权,所述多个准则值基于多个关联准则,所述关联准则选自实质上由以下各项构成的群组:兴趣度、最近兴趣度、确认、共享近邻、时间重要性、情境一致性、最近活动、当前集群和意外元素;基于所述第一关联的多个加权的准则值之和计算所述第一实体相对于所述第二实体的重要性分数,所述重要性分数指示所述第二实体对于所述第一实体的重要性级别;产生与所计算的重要性分数相关联的信号;以及传送所述信号。

【技术特征摘要】
【国外来华专利技术】...

【专利技术属性】
技术研发人员:HH马利克M奥洛夫奥尔斯
申请(专利权)人:汤姆森路透社全球资源公司
类型:发明
国别省市:瑞士;CH

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1