用于计算对象之间竞争性度量的方法与系统技术方案

技术编号:2914252 阅读:259 留言:0更新日期:2012-04-11 18:40
本发明专利技术提供了一种用于计算对象之间竞争性度量的方法与系统。所述方法包括:获取第一对象A和第二对象B;从关系实例库中存储的所有关系实例中选择与所述第一对象和第二对象相关的关联关系实例;并且基于选择的所述关联关系实例来计算所述第一和第二对象之间的外延竞争性度量S↓[out],作为所述第一和第二对象之间的所述竞争性度量。在一个实施例中,与第一和第二对象相关的关联关系实例在所有信息源文档中出现的频率被用于计算对象之间的外延竞争性度量。另外,本发明专利技术还提供了一种用于将内涵和外延竞争性度量组合在一起的集成竞争性度量计算方法和系统。

【技术实现步骤摘要】

本专利技术涉及信息处理,更具体而言,本专利技术提供了用于计算两个对象(例如产品/公司)之间的竞争性度量(competitive metric)以允许自动的挖掘/发现竞争者的方法和系统。
技术介绍
当今,人们能够获得的信息越来越多。由于很多原始信息不是外在可见的,因此需要有针对性地对原始信息进行处理,以从中获得有用的信息。由于信息量和处理时间上的要求,尤其是因为伴随着网络和通信技术的飞速发展,信息量大、信息多样以及信息分散等特点越来越显著,在许多应用中,已经不可能人工地来对信息进行处理。因此,迫切需要利用计算机技术来有针对性地自动对信息进行例如提取、挖掘、比较、度量、评价等的处理的技术。其中,自动分析和计算对象之间的竞争性度量的技术就是其中的一种信息处理技术。在当前的竞争性环境中,尤其在商业环境中,几乎所有公司都希望了解到它们的竞争者的情况,例如谁是竞争者、竞争者在哪以及在干什么。但是,寻找竞争者是一项耗时并且繁重的任务,并且在全球化环境中尤其如此。在全球化环境中,竞争者可能来自世界各地并且它们在市场上的产品也在不断改变。商业智能(Business Intelligence,BI)代表将原始数据转化成信息/知识并且帮助企业用户更好地做出商业决定所需的技术和应用的集合。竞争性智能(Competitive Intelligence,CI)则尤其集中针对关于外部商业环境的信息的收集、分析和管理。当前,竞争性信息仅仅可以从以下三种方式获得:1)通过与竞争者的员工或用户面谈或联网,2)在web搜索引擎(例如Google)的帮助下收集所需信息并人为浏览和汇总搜索结果,以及3)-->来自公众或订购源,例如Yahoo Finance、D&B、infoUSA、Hoovers和OneSource。其中1)和2)都基于人类活动,因此非常耗时耗力,并且收集的信息范围很有限。对于3),虽然存在某些包含公司信息的商业数据库可被利用,但是它们的数据规模非常有限,其中大多数数据库是单一语言的,并且可能仅包括金融信息(例如Yahoo Finance和D&B)或仅覆盖本地公司(例如infoUSA)。另外,这些商业数据库中的信息被是由人工来完成更新,因此订购者/用户难以或甚至不能大规模地收集实时的竞争性相关信息,尤其是在全球化的商业环境中。考虑到寻找竞争者的任务对用户而言很繁重,因此强烈需要更有效的自动化竞争性分析方法,用于计算竞争者(例如公司/产品的竞争性对象)之间的竞争性度量。现有的竞争性度量计算方案通常会借鉴对象相似性计算技术的基本思想,因此下面对相似性计算的相关方法和技术进行简单介绍。基本上,用于两个对象之间的相似性度量计算的方法或技术可被划分成:基于内容的方法、基于引用(citation)的方法和混合方法。对于基于内容的方法,可进一步将其分为基于向量空间模型(VectorSpace Model,VSM)的方法和基于属性值的方法。基于VSM的方法主要用于计算两个全文本(full-text)文件之间的相似性度量。其基本思想是:根据系统中所有文件中的所有单词建立词汇表;基于该词汇表,每个文件被表示成一个向量;然后采用特定相似性测量手段(其中余弦测量是最常用的一种)来测量两个文件之间的相似性。此外,基于属性的方法主要针对结构化文本。类似于基于VSM的方法,首先,文件/记录被表示为多个属性值(其中每个属性值描述该文件的一个方面)构成的向量;然后计算出每对相应的属性值之间的相似性距离;基于各个属性对相似性度量的贡献对属性进行分类;对经分类的属性应用适当的加权策略,并且通过对各个属性的相似性距离加权求和来测量文件/记录之间的相似性。对于基于引用的方法,其通常基于两个对象(例如两个网络文件)之间的超级链接/引用信息来计算它们之间的相似性度量。超级链接/引用关系的分析是针对整个对象(网络文件)集合进行的,因此其结果可能比纯-->粹基于VSM或基于属性的方法的结果更准确、更有效。对于混合方法,两个对象之间的相似性的计算既考虑到其内容也考虑到整个对象集合中所有对象之间的链接结构,其中相似性度量计算的基本特征包括超级链接结构、文本信息和文档对象模型(Document ObjectModel,DOM)相似性。根据链接结构得到的相似性权重可以根据文本信息和DOM结构的相似性进行调整。除了上述用于相似性计算的一般方案之外,在以下专利中的某些特定模块也与本专利技术相关,因此这些专利通过引用被整体上结合于此以用于所有目的:(1)美国专利US5731991;(2)美国专利No.20050004880A1;(3)美国专利No.20050192930A1;以及(4)美国专利No.2004068413。但是,对于竞争性度量计算而言,上述现有方案具有以下缺点。首先,现有方案大都是基于两个对象之间的相似性计算提出的。但是,竞争性计算不同于相似性计算。在概念上,竞争性关系是相似性关系的一个子集,即两个对象相似并不意味着它们彼此竞争。更具体而言,竞争性关系意味着一个对象的存在/开发对另一对象具有负面影响,但相似性关系并非如此。另外,为了测量两个彼此竞争的对象之间的竞争强度,需要制定针对竞争性的特定方针。对于基于内容的方法,所有针对相似性计算的现有方案都假设两个被比对象(即产品/公司)具有相同结构(即完全是全文本的或者具有某种特定数据结构)。基于VSM的方法无法处理被比对象之一具有结构化或半结构化描述(profile)的情况,而基于属性值的方法无法处理被比对象之一具有全文本描述或者两个对象具有异构(heterogeneous)结构描述的情况。但是在实际应用中,被比对象可能来自不同的信息源(例如不同的数据库或不同的网站),因此具有不同的结构,这阻碍了现有方案的应用。而且,由于基于内容的相似性计算只考虑到被比对象的内容(即通过内在语义分析),因此其结果可能并不客观且不全面,因为其中由其他方明确-->表达的意见观点未被考虑在内。对于基于引用的方法和混合方法,超级链接/引用指示出两个对象之间的引用或参考关系,因此可以被看作一种由其他方暗示表达的观点。因此,对于混合方法而言,对象内容和对象之间的链接/引用结构都被用于相似性计算。但是,由于超级链接或引用的含义未被明确指出,因此所有这些信息只被看作暗示的外延语义分析。因此,来自其他方(第三方)的明确表达的意见观点依然没有被考虑在内。另外,上述专利都只能应用于具有共同和固定的属性或特征结构的特定对象类别。所采用的方法无法被用于跨类别的相似性度量计算。另外,利用上述现有技术,无法对任意两个对象(例如产品/公司)进行全面的比较以识别它们之间的竞争性强度。因此,利用以上现有技术,无法获得竞争性度量。
技术实现思路
鉴于现有技术中的方法存在上述问题,作出了本专利技术,本专利技术的目的在于提供用于获得任意两个对象之间的竞争性度量的方法及系统。根据竞争性度量计算所依据的标准不同,本专利技术包括内涵竞争性度量计算、外延竞争性度量计算以及集成(混合)竞争性度量计算三个方面。所述外延竞争性度量计算采用外延标准,即通过分析由第三方信息源(例如新闻或博客网站)明确提供的竞争性关系实例(instance)来获得外延竞争性度量。所述竞争性关本文档来自技高网
...

【技术保护点】
一种用于计算对象之间的竞争性度量的方法,该方法包括以下步骤: 获取第一对象和第二对象; 从关系实例库中存储的所有关系实例中选择与所述第一对象和第二对象相关的关联关系实例;并且 基于选择的所述关联关系实例来计算所述第一和第二 对象之间的外延竞争性度量S↓[out],作为所述第一和第二对象之间的所述竞争性度量。

【技术特征摘要】
1.一种用于计算对象之间的竞争性度量的方法,该方法包括以下步骤:获取第一对象和第二对象;从关系实例库中存储的所有关系实例中选择与所述第一对象和第二对象相关的关联关系实例;并且基于选择的所述关联关系实例来计算所述第一和第二对象之间的外延竞争性度量Sout,作为所述第一和第二对象之间的所述竞争性度量。2.如权利要求1所述的方法,其中计算所述第一和第二对象之间的外延竞争性度量Sout包括计算所述与第一对象和第二对象相关的关联关系实例所属的信息源文档的数目与所述关系实例库中存储的所有关系实例所属的信息源文档的总数目之比,作为所述第一和第二对象之间的外延竞争性度量Sout。3.如权利要求1所述的方法,其中选择出的与所述第一对象和第二对象相关的各个关联关系实例分别属于不同的信息源文档,并且计算所述所述第一和第二对象之间的外延竞争性度量Sout包括:确定每个与所述第一对象和第二对象相关的关联关系实例的关系类别;基于确定的所述关系类别,获取对应于每个所述关联关系实例的竞争性强度系数Wi(A,B)以及该关联关系实例所属的信息源文档的可信度值Ci,其中i表示该关联关系实例所属的信息源文档;计算每个所述关联关系实例的竞争性强度值Si(A,B)=Wi(A,B)×Ci;并且针对所述关系实例库中存储的所有关系实例所属的所有信息源文档计算所述第一和第二对象之间的外延竞争性度量:Sout=Σi=1NSi(A,B)/Σi=1NSi′]]>其中N表示所述关系实例库中存储的所有关系实例所属的信息源文档的总数目,表示信息源文档i中针对所有关系实例的最大竞争性强度值,A、B分别代表第一对象和第二对象。4.如权利要求1所述的方法,其中选择出的与所述第一对象和第二对象相关的各个关联关系实例可以属于相同的信息源文档,并且计算所述所述第一和第二对象之间的外延竞争性度量Sout包括:确定每个与所述第一对象和第二对象相关的关联关系实例的关系类别;基于确定的所述关系类别,获取对应于每个所述关联关系实例的竞争性强度系数Wi,j(A,B)以及该关联关系实例所在的信息源文档的可信度值Ci,其中i表示该关联关系实例所属的信息源文档,j表示该关联关系实例在该信息源文档i中的编号;计算每个所述关联关系实例的竞争性强度值Si,j(A,B)=Wi,j(A,B)×Ci;选择每个信息源文档i中的针对所述第一和第二对象的最大竞争性强度值Si(A,B)=MaxjSi,j(A,B);]]>并且针对所述关系实例库中存储的所有关系实例所属的所有信息源文档计算所述第一和第二对象之间的外延竞争性度量:Sout=Σi=1NSi(A,B)/Σi=1NSi′]]>其中N表示所述关系实例库中存储的所有关系实例所属的信息源文档的总数目,表示信息源文档i中针对所有关系实例的最大竞争性强度值,A、B分别代表第一对象和第二对象。5.如权利要求3或4所述的方法,其中所述第一和第二对象之间的外延竞争性度量被计算为:Sout=logΣi=1NSi(A,B)/logΣi=1NSi′.]]>6.如权利要求1所述的方法,其中所述关系实例包含附加信息,所述方法还包括:基于所述附加信息对选择的与所述第一对象和第二对象相关的关联关系实例进行过滤,以选择其附加信息满足一个或多个预定条件的关联关系实例,其中所述附加信息是时间信息、区域信息和领域信息中的至少一种。7.如权利要求6所述的方法,其中所述附加信息是时间信息,所述过滤包括选择一段特定时间内的与所述第一和第二对象相关的关联关系实例。8.如权利要求6所述的方法,其中所述附加信息是区域信息,所述过滤包括选择符合特定区域的与所述第一和第二对象相关的关联关系实例。9.如权利要求6所述的方法,其中所述附加信息是领域信息,所述过滤包括选择符合特定领域的与所述第一和第二对象相关的关联关系实例。10.如权利要求1所述的方法,还包括:计算所述第一对象和第二对象之间的内涵竞争性度量Sin;以及合并所述内涵竞争性度量Sin和所述外延竞争性度量Sout,以得到集成竞争性度量S,作为所述第一和第二对象之间的所述竞争性度量。11.如权利要求10所述的方法,其中所述第一对象和第二对象分别具有各自包含多个属性的第一描述和第二描述,计算所述内涵竞争性度量Sin包括:利用本体信息规范化所述第一描述和第二描述;以及基于所述规范化的第一描述和第二描述来计算所述第一对象和第二对象之间的内涵竞争性度量Sin。12.如权利要求10所述的方法,其中合并所述内涵竞争性度量Sin和所述外延竞争性度量Sout包括:对选择的与所述第一对象和第二对象相关的关联关系实例进行数据质量分析以确定集成策略;根据确定的所述集成策略来计算所述集成竞争性度量S。13.如权利要求12所述的方法,其中计算所述集成竞争性度量S包括:根据确定的所述集成策略获取分别对应于所述内涵竞争性度量Sin和所述外延竞争性度量Sout的内涵加权系数Win和外延加权系数Wout;并且加权求和以计算所述集成竞争性度量S=Sin×Win+Sout×Wout。14.一种用于计算对象之间的竞争性度量的系统,该系统包括:对象获取装置,用于获取第一对象和第二对象;关系实例库,用于存储关系实例;关系实例选择装置,用于从所述关系实例库中存储的所有关系实例中选择与所述第一对象和第二对象相关的关联关系实...

【专利技术属性】
技术研发人员:李建强赵彧福岛俊一
申请(专利权)人:日电中国有限公司
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1