树型结构信息的相似度比较方法和装置制造方法及图纸

技术编号:12394689 阅读:68 留言:0更新日期:2015-11-26 01:49
本发明专利技术的目的是提供了一种树型结构信息的相似度比较方法和装置,其中,信息读取单元读取被比较的数据对象的结构性信息和外部关联信息;信息比较单元根据所述结构性信息和外部关联信息,对所述数据对象进行相似度的映射函数运算。与现有技术相比,本发明专利技术既可以避免分析结果的冗余性,又结合了被比较的数据对象的上下文相关关系进行分析,可以获得更准确、更贴近现实应用场景的分析结果。

【技术实现步骤摘要】

本专利技术涉及信息分析技术,尤其涉及一种树型结构信息的相似度比较方法和装置
技术介绍
在计算机领域中,树型结构或者可转化为树型结构的数据结构经常被用于对某个领域的信息进行建模。在树型结构中,具体被描述的信息通常体现为树型结构中的节点、子树或节点与子树的组合。而在信息分析领域,对上述结构的信息进行分析是必不可少的步骤,尤其是对信息进行相似度计算。现有技术中,通常采用以下两种方法对树型结构进行相似度计算:方案一:采用“编辑距离”的方案。S卩,统计将A信息内容对应的树型结构变化为B信息内容对应的树型结构所需编辑的最小次数,将所述最小次数作为相似度的度量结果,其中,A和B分别代表不同的信息内容。方案二:在推荐算法领域,主要使用与两个被比较对象相关联的项目集合的重合程度来计算相似度。例如,A表示购买冰箱的人数,B表示购买洗衣机的人数,则A和B的交集在A或B中所占的比例即可定义为A和B之间的相似度度量结果。就上述方案一而言,仅分析了被比较对象间的结构性特征差别,但是忽略了被比较对象在实际应用含义及实际应用价值的差别,从而导致计算结果不能准确反映现实应用场景中的信息状况。就上述方案二而言,虽然其充分考虑了被比较对象在现实世界的应用价值,但是由于缺乏对数据建模本身的充分利用,导致计算结果虽能反映现实应用场景中的信息状况,但是,比较结果中有很多常识性事实,造成分析结果的繁冗,淹没了相似度分析所应揭示的真正价值。
技术实现思路
本专利技术的目的是提供一种树型结构信息的相似度比较方法和装置。根据本专利技术的一个方面,提供了一种树型结构信息的相似度比较方法,该方法包括:读取被比较的数据对象的结构性信息和外部关联信息;根据所述结构性信息和外部关联信息,对所述数据对象进行相似度的映射函数运笪并O其中,基于所述被比较的数据对象对应的树型结构复杂度和层次,根据所述结构性信息或/和外部关联信息,对所述被比较的数据对象进行相似度的映射函数运算。具体地,所述对应的树型结构的结构复杂度及和层次小于一定阈值时,仅基于所述结构性信息,对所述被比较的数据对象进行单独的过滤子函数运算,否则,基于结构性信息和/或外部关联信息,对所述被比较的数据对象进行交叉运算。根据本专利技术的另一个方面,还提供了一种树型结构信息的相似度比较装置,包括:信息读取单元,用于读取被比较的数据对象的结构性信息和外部关联信息;信息比较单元,用于根据所述结构性信息和外部关联信息,对所述数据对象进行相似度的映射函数运算。其中,所述相似度比较装置还包括:树型结构分析单元,用于分析数据对象对应的树型结构复杂度和层次。进一步地,所述信息比较单元基于所述被比较的数据对象对应的树型结构复杂度和层次,根据所述结构性信息或/和外部关联信息,对所述被比较的数据对象进行相似度的映射函数运算。具体地,所述对应的树型结构的结构复杂度及和层次小于一定阈值时,所述信息比较单元仅基于所述结构性信息,对所述被比较的数据对象进行单独的过滤子函数运算,否则,所述信息比较单元基于结构性信息和/或外部关联信息,对所述被比较的数据对象进行交叉运算。与现有技术相比,本专利技术具有以下优点:本专利技术提供的树型结构信息的相似度比较方法和装置,引入了树型结构建模所给出的上下文相关性信息,使得所得到的信息比较结果可以更准确地反映现实世界中的应用场景。【附图说明】通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本专利技术的其它特征、目的和优点将会变得更明显:图1示出根据本专利技术一个方面的一种树型结构信息的相似度比较装置示意图;图2示出根据本专利技术一个优选实施例的树型结构的数据标签示意图;图3示出根据本专利技术另一方面的一种树型结构信息的相似度比较方法流程图;附图中相同或相似的附图标记代表相同或相似的部件。【具体实施方式】下面结合附图对本专利技术作进一步详细描述。图1示出根据本专利技术一个方面的一种树型结构信息的相似度比较装置示意图。其中,该比较装置包括信息读取单元101和信息比较单元102。具体地,信息读取单元101读取被比较的数据对象的结构性信息和外部关联信息;信息比较单元102根据所述结构性信息和外部关联信息,对所述数据对象进行相似度的映射函数运算。在此,所述比较装置包括但不限于用户设备、网络设备或网络设备与用户设备通过网络相集成所构成的设备。其中,信息读取单元101读取被比较的数据对象的结构性信息和外部关联信息。具体地,本实施例中的数据对象可以体现为树型结构中各种形式的信息,诸如体现为树型结构中的节点、子树或者节点和子树的组合。其中,所述结构性信息主要指被比较数据对象在树型结构中的位置信息,例如,某数据对象位于某树型结构的第二层的第一个节点;所述外部关联信息主要指被比较的数据对象在所对应的树型结构之外的其他信息,诸如树型结构中某节点或节点组合或子树或子树组合对应的用户数量。通过引入结构性信息,可以保证本实施例进行相似度运算时充分分析树型建模所表征的特定领域的信息,并可以面对不同行业的需要对相似度的运算进行自适应调整,从而提升相似度运算的实用价值。通过引入外部关联信息,可以更好地促进树型结构信息和外部信息之间的信息交互,确保本实施例所得到的相似度结果更准确地反映实际应用环境的信息变化状态。更具体地,所述信息读取单元101读取被比较的数据对象的相关信息时,首先确定该数据对象所包括的所有节点和子树,然后读取其所有节点和子树在本树型结构中的结构性信息和外部关联信息。实际应用中,通常将树型结构中各节点和子树对应的信息用数据标签进行分类,不同数据标签的组合可以构造不同的信息模型。以基于用户属性信息所建立的树型结构为例,请参考图2,图2示出根据本专利技术一个优选实施例的树型结构的数据标签示意图。该结构中,包括4个一级子树,分别用以下数据标签进行分类:个人关注、人口属性、地域分布、购买倾向。在每个一级子树下,又分别包括至少一个二级子树或节点。例如,在数据标签“个人关注”对应的子树中,包括以下二级数据标签:资讯和新闻、汽车、房产、3c、IT技术、电子游戏、网络文学、娱乐等等。这些数据标签用于对用户的属性和喜好信息进行标记。当所述信息读取单元101对图2所示的树型结构中各标签或标签组合所代表的信息进行读取操作时,首先确定各标签或标签组合所包括的子标签,然后读取各个子标签的结构性信息和外部关联信息。其中,所述标签通常指的是单个标签,比如“电子游戏”或“数码”等;所述标签组合的逻辑关系在此不作限定,可以为诸如“与”、“和”以及其他任一逻辑关系或逻辑关系的组合,例如,“房产or汽车”、“电脑and IT技术”等。就图2所示的各数据标签而言,所述结构性信息指的是,标签在树型结构中的位置以及与其他节点之间的关联信息,所述关联信息包括诸如孩子关系信息、双亲关系信息和兄弟关系信息等。例如标签“3C”位于该树型结构的第二层,即位于一级标签“个人关注”的下一级,并且,该标签“3C”与标签“汽车”、“房产”、“IT技术”、“电子游戏”等具有兄弟关系。所述外部关联信息指的是,与标签对应的用户数量信息。例如,300万用户对应标签“个人关注-3C-手机”,200万用户对应标签“个人关注-电子游戏”,其中,与这两个标签都对应的用户有120万,则将各标签或标签组合对应的用户相关信息作本文档来自技高网...

【技术保护点】
一种树型结构信息的相似度比较方法,该方法包括:读取被比较的数据对象的结构性信息和外部关联信息;根据所述结构性信息和外部关联信息,对所述数据对象进行相似度的映射函数运算。

【技术特征摘要】

【专利技术属性】
技术研发人员:林招唐亮盛阳春
申请(专利权)人:北京品友互动信息技术有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1