A heterogeneous tag fusion system based on semantic structure feature analysis, which focuses on the sorting and integration of different label systems in various industry websites, proposes a heterogeneous tag fusion system based on semantic structure feature analysis, which is used to construct a fine and structured tag system. Because of the different tag architecture of different sources, the invention proposed the use of the label web information to fuse the label system. By identifying the mapping relationship between the two tag systems, the isomerism and the upper and lower relations, the heterogeneous tag system was merged. Because of the selection of the label system of the mainstream website, the authenticity and persuasiveness of the source of the label system is guaranteed, which makes the label system more refined and accurate, and provides the basis for the user's behavior picture.
【技术实现步骤摘要】
基于语义结构特征分析的异构标签融合系统
本专利技术属于大数据应用
,特别涉及一种基于语义结构特征分析的异构标签融合系统,通过构建标签体系,为用户行为画像奠定基础。
技术介绍
随着大数据技术的深入研究与应用,企业的专注点日益聚焦于怎样利用大数据来为精准营销服务,进而深入挖掘潜在的商业价值。于是,“用户画像”的概念也就应运而生,奠定了大数据时代的基石,并为企业提供了足够的信息基础。目前,用户画像技术已经广泛应用于广告营销和客户流失分析等领域,比如推荐系统、购买预测等。用户画像,即用户信息标签化,就是企业通过收集与分析消费者社会属性、消费行为等主要信息的数据之后,完美地抽象出一个用户的商业全貌。利用标签来表示用户兴趣的优势在于不仅能反映用户行为特征,还能反映资源语义特征,这一系列的刻画用户行为的标签构成了标签体系。标签体系的结构、粒度从一定程度上决定了用户画像的准确性,利用不准确的标签词语描述用户行为,将会造成用户画像不准确。所以标签体系的构建是很重要的,目前构建标签体系的方法主要包括协同标签系统、本体结构构建、主题模型提取等,这些方法最主要的问题是忽略标签的结构,并且可能存在标签重复。对于协同标签系统构建的标签体系,没有明显的层次结构,并且存在重复的标签;对于本体方法构建的标签体系,主要是本体构建的方法本身并不成熟,需要大量人工的参与;对于主题模型提取方法构建的标签体系,相对层次结构不明显,并且存在粗粒度的问题,即标签太宽泛,无法准确描述用户行为特性。为了更好的描述用户行为,需要建立更全面、结构化、细粒度的标签体系。
技术实现思路
为了克服上述现有技术的缺点 ...
【技术保护点】
一种基于语义结构特征分析的异构标签融合系统,其特征在于,从多个具有代表性网站获取其导航目录作为原始标签体系,在标签体系中,第一层级标签称作根标签,每个根标签及其所有子孙标签属于同一领域,组成一个标签树,定义一个标签树为待融合标签树,另一个标签树为基准标签树,待融合标签树中的标签为待融合标签,基准标签树中的标签为基准标签,将待融合标签和基准标签一一映射找到等同关系标签对和上下位关系标签对;若为等同关系标签对,则将待融合标签与基准标签合并成一个标签;若为上下位关系标签对,则将待融合标签作为基准标签的子标签插入到基准标签树中,最终实现将待融合标签树插入到基准标签树中,实现标签树的两两合并,生成合并后的标签体系。
【技术特征摘要】
1.一种基于语义结构特征分析的异构标签融合系统,其特征在于,从多个具有代表性网站获取其导航目录作为原始标签体系,在标签体系中,第一层级标签称作根标签,每个根标签及其所有子孙标签属于同一领域,组成一个标签树,定义一个标签树为待融合标签树,另一个标签树为基准标签树,待融合标签树中的标签为待融合标签,基准标签树中的标签为基准标签,将待融合标签和基准标签一一映射找到等同关系标签对和上下位关系标签对;若为等同关系标签对,则将待融合标签与基准标签合并成一个标签;若为上下位关系标签对,则将待融合标签作为基准标签的子标签插入到基准标签树中,最终实现将待融合标签树插入到基准标签树中,实现标签树的两两合并,生成合并后的标签体系。2.根据权利要求1所述基于语义结构特征分析的异构标签融合系统,其特征在于,所述原始标签体系包括标签和标签对应的网页文本,所述网页文本描述了标签语义,用于判断标签间的语义关系,其获取方式:获取链接URL对应的网页文本以及网页中的新的链接,并爬取新的链接的文本。3.根据权利要求1所述基于语义结构特征分析的异构标签融合系统,其特征在于,所述原始标签体系中,将标签树分组,分组条件有两个:第一、两个标签树的根标签完全相同;第二、标签树的根标签不同,但标签树的子标签内容相似,即两个标签树中重合的子标签数量占两个标签树的总标签数的百分比达到某个阈值;当两个标签树满足以上任一条件,则将其分为一组;根据该判断条件将原始标签体系的所有标签树分组,每个分组内的标签内容相似,用分组内的根标签表示这个分组的内容,同时作为分组名称,其中,若分组内的根标签不同,则选择排序在第一个的标签树的根标签作为分组名称。4.根据权利要求3所述基于语义结构特征分析的异构标签融合系统,其特征在于,将分在同一组的标签树两两进行合并,即第一个标签树与第二个标签树进行合并,合并结果再与第三个标签树进行合并,依次合并下去直到分组内没有标签树为止。5.根据权利要求4所述基于语义结构特征分析的异构标签融合系统,其特征在于,所述标签树分组中,对标签树进行排序,使得排序靠前的标签树作为基准标签树,排序靠后的标签树为待融合标签树,具体规则如下:对每个分组内的标签树,按照标签树的分层排序,层数越多,排位越靠前;将层数相同的标签树,比较非叶子标签的数目,数量越多,排位越靠前;若非叶子标签的数目相同,则比较叶子标签的数量,数量越多,排位越靠前。6.根据权利要求1所述基于语义结构特征分析的异构标签融合系统,其特征在于,标签间映射关系即待融合标签在基准标签树中的合并位置,所述将融合标签和基准标签一一映射的流程为:从待融合标签树中任取一个标签,寻找其等同关系的基准标签,若找到,则取下一个待融合标签;否则寻找其上下位关系的基准标签,若找到,则取下一个待融合标签,否则待融合标签跟随父标签进行合并,然后取下一个待融合标签,直到确定待融合标签树中所有待融合标签的合并位置;所述等同关系即待融合标签与基准标签含义相同,待融合标签与基准标签合并;所述上下位关系,待融合标签作为基准标签的下级标签插入;若待融合标签在基准标签树中不存在,则该待融合标签跟随其父标签合并到基准标签树,合并后该待融合标签与其父标签依然保持上下位关系。7.根据权利要求6所述基于语义结构特征分析的异构标签融合系统,其特征在于,所述等同关系通过如下方法之一识别:a1、根据标签及其路径信息即标签到根标签的路径标签判断两个标签是否是等同关系;a2、根据标签的网页文本内容,提取网页的向量表示,即为标签的向量表示,计算两个标签向量的cosine相似度,来判断两个标签是否为等同关系;在判断待融合标签的等同关系标签时,首先使用方法a1确定是否能够找到相应的标签,若能找到,则判断下一个待融合标签,否则使用方法a2寻找等同关系标签,若能找到,则判断下一个待融合标签,否则寻找该标签是否存在上下位关系标签;所述上下位关系是描述两个词语之间包含与被包含的语义关系,下位词是上位词的一个特殊实例或者一个子类,上下位标签对的识别方法包括两种:b1、通过判断待融合标签对应的网页标题中包含基...
【专利技术属性】
技术研发人员:王平辉,李娜,陶敬,韩婷,郝传洲,张姗,许诺,孙飞扬,张晓明,林杰,
申请(专利权)人:西安交通大学,
类型:发明
国别省市:陕西,61
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。