基于语义结构特征分析的异构标签融合系统技术方案

技术编号:17939869 阅读:15 留言:0更新日期:2018-05-15 20:14
一种基于语义结构特征分析的异构标签融合系统,着眼于各个行业网站不同标签体系的整理和融合,提出基于语义结构特征分析的异构标签融合系统,用于构建细粒度、结构化的标签体系。由于不同来源标签体系结构不同,本发明专利技术提出利用标签网页信息来融合标签体系,通过识别两个标签体系的映射关系:等同关系和上下位关系,将异构标签体系进行合并。由于选取主流网站的标签体系,保证标签体系来源的真实性并具有说服力,使得到的标签体系更精炼、准确,为用户行为画像提供基础。

Heterogeneous label fusion system based on semantic structure feature analysis

A heterogeneous tag fusion system based on semantic structure feature analysis, which focuses on the sorting and integration of different label systems in various industry websites, proposes a heterogeneous tag fusion system based on semantic structure feature analysis, which is used to construct a fine and structured tag system. Because of the different tag architecture of different sources, the invention proposed the use of the label web information to fuse the label system. By identifying the mapping relationship between the two tag systems, the isomerism and the upper and lower relations, the heterogeneous tag system was merged. Because of the selection of the label system of the mainstream website, the authenticity and persuasiveness of the source of the label system is guaranteed, which makes the label system more refined and accurate, and provides the basis for the user's behavior picture.

【技术实现步骤摘要】
基于语义结构特征分析的异构标签融合系统
本专利技术属于大数据应用
,特别涉及一种基于语义结构特征分析的异构标签融合系统,通过构建标签体系,为用户行为画像奠定基础。
技术介绍
随着大数据技术的深入研究与应用,企业的专注点日益聚焦于怎样利用大数据来为精准营销服务,进而深入挖掘潜在的商业价值。于是,“用户画像”的概念也就应运而生,奠定了大数据时代的基石,并为企业提供了足够的信息基础。目前,用户画像技术已经广泛应用于广告营销和客户流失分析等领域,比如推荐系统、购买预测等。用户画像,即用户信息标签化,就是企业通过收集与分析消费者社会属性、消费行为等主要信息的数据之后,完美地抽象出一个用户的商业全貌。利用标签来表示用户兴趣的优势在于不仅能反映用户行为特征,还能反映资源语义特征,这一系列的刻画用户行为的标签构成了标签体系。标签体系的结构、粒度从一定程度上决定了用户画像的准确性,利用不准确的标签词语描述用户行为,将会造成用户画像不准确。所以标签体系的构建是很重要的,目前构建标签体系的方法主要包括协同标签系统、本体结构构建、主题模型提取等,这些方法最主要的问题是忽略标签的结构,并且可能存在标签重复。对于协同标签系统构建的标签体系,没有明显的层次结构,并且存在重复的标签;对于本体方法构建的标签体系,主要是本体构建的方法本身并不成熟,需要大量人工的参与;对于主题模型提取方法构建的标签体系,相对层次结构不明显,并且存在粗粒度的问题,即标签太宽泛,无法准确描述用户行为特性。为了更好的描述用户行为,需要建立更全面、结构化、细粒度的标签体系。
技术实现思路
为了克服上述现有技术的缺点,本专利技术着眼于各个行业网站不同标签体系的整理和融合,提供了一种基于语义结构特征分析的异构标签融合系统,旨在构建细粒度、结构化的标签体系。从用户的行为数据中抽取描述用户行为的标签需要花费大量的人力物力,但是实际上已经存在比较完备的标签体系可供使用——网站的导航标签,它是专家给出的,并且结合众多网民的用户体验进行优化调整,很大程度上反映了用户的行为偏好。为了使标签更具有说服力和代表性,本专利技术主要分析了各个行业主流网站的导航标签体系,通过融合不同网站标签体系来构建标签体系,最终获得具有大众性、准确性、精炼简洁的标签体系。为了实现上述目的,本专利技术采用的技术方案是:一种基于语义结构特征分析的异构标签融合系统,从多个具有代表性网站获取其导航目录作为原始标签体系,在标签体系中,第一层级标签称作根标签,每个根标签及其所有子孙标签属于同一领域,组成一个标签树,定义一个标签树为待融合标签树,另一个标签树为基准标签树,待融合标签树中的标签为待融合标签,基准标签树中的标签为基准标签,将待融合标签和基准标签一一映射找到等同关系标签对和上下位关系标签对;若为等同关系标签对,则将待融合标签与基准标签合并成一个标签;若为上下位关系标签对,则将待融合标签作为基准标签的子标签插入到基准标签树中,最终实现将待融合标签树插入到基准标签树中,实现标签树的两两合并,生成合并后的标签体系。所述原始标签体系包括标签和标签对应的网页文本,所述网页文本描述了标签语义,用于判断标签间的语义关系,其获取方式:获取链接URL对应的网页文本以及网页中的新的链接,并爬取新的链接的文本。所述原始标签体系中,将标签树分组,分组条件有两个:第一、两个标签树的根标签完全相同;第二、标签树的根标签不同,但标签树的子标签内容相似,即两个标签树中重合的子标签数量占两个标签树的总标签数的百分比达到某个阈值;当两个标签树满足以上任一条件,则将其分为一组;根据该判断条件将原始标签体系的所有标签树分组,每个分组内的标签内容相似,用分组内的根标签表示这个分组的内容,同时作为分组名称,其中,若分组内的根标签不同,则选择排序在第一个的标签树的根标签作为分组名称。将分在同一组的标签树两两进行合并,即第一个标签树与第二个标签树进行合并,合并结果再与第三个标签树进行合并,依次合并下去直到分组内没有标签树为止。所述标签树分组中,对标签树进行排序,使得排序靠前的标签树作为基准标签树,排序靠后的标签树为待融合标签树,具体规则如下:对每个分组内的标签树,按照标签树的分层排序,层数越多,排位越靠前;将层数相同的标签树,比较非叶子标签的数目,数量越多,排位越靠前;若非叶子标签的数目相同,则比较叶子标签的数量,数量越多,排位越靠前。标签间映射关系即待融合标签在基准标签树中的合并位置,所述将融合标签和基准标签一一映射的流程为:从待融合标签树中任取一个标签,寻找其等同关系的基准标签,若找到,则取下一个待融合标签;否则寻找其上下位关系的基准标签,若找到,则取下一个待融合标签,否则待融合标签跟随父标签进行合并,然后取下一个待融合标签,直到确定待融合标签树中所有待融合标签的合并位置;所述等同关系即待融合标签与基准标签含义相同,待融合标签与基准标签合并;所述上下位关系,待融合标签作为基准标签的下级标签插入;若待融合标签在基准标签树中不存在,则该待融合标签跟随其父标签合并到基准标签树,合并后该待融合标签与其父标签依然保持上下位关系。将待融合标签插入到基准标签时,自底向上从待融合标签体系中取待融合标签,将待融合标签加入到基准标签树的合并位置,然后从待融合标签体系中删除该待融合标签,在标签树两两合并过程中,首先判断分组内的标签树是否全部合并,若否,则继续合并分组内其他标签树;若是,则判断是否还有分组的标签树没有进行合并,若是,则继续合并其他分组的标签树;否则合并完毕。与现有技术相比,本专利技术的有益效果是:1.标签体系具有大众性、准确性。本专利技术构建一个相对比较完备的标签体系的方法系统,以多个知名网站上的已有标签体系作为基础输入,通过对其进行融合,得到一个普适的标签体系,更大程度上反映了用户喜好。由于网站的标签体系是通过指引用户找到感兴趣的站点,提供良好的用户体验,所以网站本身的标签体系不仅很好的描述了网站的信息,更在一定程度上适应用户的兴趣和习惯,使用这样具有一定代表性的标签作为构建标签体系的基础,可使最后形成的标签体系更准确且适应性广,描述用户爱好行为更准确简洁精炼。2.标签体系具有全面、精炼、结构化、细粒度等优点。现在标签体系只着眼于标签本身,而并没有针对不同标签体系进行融合,所以得到的标签体系并不完善。本专利技术构建的标签体系由于是合并多个网站的标签体系,包含的标签类别更多,描述用户喜好更加细致,从语义和内容的角度将标签体系进行融合,去除重复语义标签并将异构标签体系的结构统一,得到精炼、结构化、细粒度的标签体系。3.本专利技术提出的标签合并方法是基于语义结构分析的,由于标签体系的结构、词语表示不同,提出通过识别标签间的映射关系——等同关系和上下位关系来合并标签体系,并提出基于标签对应的网页信息的等同关系和上下位关系的识别方法。附图说明图1为本专利技术的算法结构图。图2为本专利技术的融合算法流程图。图3为本专利技术中标签映射模块的算法流程图。图4为本专利技术中标签映射模块等同关系映射方法的算法流程图。图5为本专利技术中标签映射模块上下位关系映射方法的算法流程图。具体实施方式下面结合附图和实施例详细说明本专利技术的实施方式。如图1所示,本专利技术算法的基本思想为将标签树两两进行合并,将一个标签树(定义为本文档来自技高网...
基于语义结构特征分析的异构标签融合系统

【技术保护点】
一种基于语义结构特征分析的异构标签融合系统,其特征在于,从多个具有代表性网站获取其导航目录作为原始标签体系,在标签体系中,第一层级标签称作根标签,每个根标签及其所有子孙标签属于同一领域,组成一个标签树,定义一个标签树为待融合标签树,另一个标签树为基准标签树,待融合标签树中的标签为待融合标签,基准标签树中的标签为基准标签,将待融合标签和基准标签一一映射找到等同关系标签对和上下位关系标签对;若为等同关系标签对,则将待融合标签与基准标签合并成一个标签;若为上下位关系标签对,则将待融合标签作为基准标签的子标签插入到基准标签树中,最终实现将待融合标签树插入到基准标签树中,实现标签树的两两合并,生成合并后的标签体系。

【技术特征摘要】
1.一种基于语义结构特征分析的异构标签融合系统,其特征在于,从多个具有代表性网站获取其导航目录作为原始标签体系,在标签体系中,第一层级标签称作根标签,每个根标签及其所有子孙标签属于同一领域,组成一个标签树,定义一个标签树为待融合标签树,另一个标签树为基准标签树,待融合标签树中的标签为待融合标签,基准标签树中的标签为基准标签,将待融合标签和基准标签一一映射找到等同关系标签对和上下位关系标签对;若为等同关系标签对,则将待融合标签与基准标签合并成一个标签;若为上下位关系标签对,则将待融合标签作为基准标签的子标签插入到基准标签树中,最终实现将待融合标签树插入到基准标签树中,实现标签树的两两合并,生成合并后的标签体系。2.根据权利要求1所述基于语义结构特征分析的异构标签融合系统,其特征在于,所述原始标签体系包括标签和标签对应的网页文本,所述网页文本描述了标签语义,用于判断标签间的语义关系,其获取方式:获取链接URL对应的网页文本以及网页中的新的链接,并爬取新的链接的文本。3.根据权利要求1所述基于语义结构特征分析的异构标签融合系统,其特征在于,所述原始标签体系中,将标签树分组,分组条件有两个:第一、两个标签树的根标签完全相同;第二、标签树的根标签不同,但标签树的子标签内容相似,即两个标签树中重合的子标签数量占两个标签树的总标签数的百分比达到某个阈值;当两个标签树满足以上任一条件,则将其分为一组;根据该判断条件将原始标签体系的所有标签树分组,每个分组内的标签内容相似,用分组内的根标签表示这个分组的内容,同时作为分组名称,其中,若分组内的根标签不同,则选择排序在第一个的标签树的根标签作为分组名称。4.根据权利要求3所述基于语义结构特征分析的异构标签融合系统,其特征在于,将分在同一组的标签树两两进行合并,即第一个标签树与第二个标签树进行合并,合并结果再与第三个标签树进行合并,依次合并下去直到分组内没有标签树为止。5.根据权利要求4所述基于语义结构特征分析的异构标签融合系统,其特征在于,所述标签树分组中,对标签树进行排序,使得排序靠前的标签树作为基准标签树,排序靠后的标签树为待融合标签树,具体规则如下:对每个分组内的标签树,按照标签树的分层排序,层数越多,排位越靠前;将层数相同的标签树,比较非叶子标签的数目,数量越多,排位越靠前;若非叶子标签的数目相同,则比较叶子标签的数量,数量越多,排位越靠前。6.根据权利要求1所述基于语义结构特征分析的异构标签融合系统,其特征在于,标签间映射关系即待融合标签在基准标签树中的合并位置,所述将融合标签和基准标签一一映射的流程为:从待融合标签树中任取一个标签,寻找其等同关系的基准标签,若找到,则取下一个待融合标签;否则寻找其上下位关系的基准标签,若找到,则取下一个待融合标签,否则待融合标签跟随父标签进行合并,然后取下一个待融合标签,直到确定待融合标签树中所有待融合标签的合并位置;所述等同关系即待融合标签与基准标签含义相同,待融合标签与基准标签合并;所述上下位关系,待融合标签作为基准标签的下级标签插入;若待融合标签在基准标签树中不存在,则该待融合标签跟随其父标签合并到基准标签树,合并后该待融合标签与其父标签依然保持上下位关系。7.根据权利要求6所述基于语义结构特征分析的异构标签融合系统,其特征在于,所述等同关系通过如下方法之一识别:a1、根据标签及其路径信息即标签到根标签的路径标签判断两个标签是否是等同关系;a2、根据标签的网页文本内容,提取网页的向量表示,即为标签的向量表示,计算两个标签向量的cosine相似度,来判断两个标签是否为等同关系;在判断待融合标签的等同关系标签时,首先使用方法a1确定是否能够找到相应的标签,若能找到,则判断下一个待融合标签,否则使用方法a2寻找等同关系标签,若能找到,则判断下一个待融合标签,否则寻找该标签是否存在上下位关系标签;所述上下位关系是描述两个词语之间包含与被包含的语义关系,下位词是上位词的一个特殊实例或者一个子类,上下位标签对的识别方法包括两种:b1、通过判断待融合标签对应的网页标题中包含基...

【专利技术属性】
技术研发人员:王平辉李娜陶敬韩婷郝传洲张姗许诺孙飞扬张晓明林杰
申请(专利权)人:西安交通大学
类型:发明
国别省市:陕西,61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1