一种数据处理方法及其装置制造方法及图纸

技术编号:18204072 阅读:31 留言:0更新日期:2018-06-13 06:15
本发明专利技术实施例公开了一种数据处理方法,所述方法包括:获取基准标签树和待融合标签树;从所述待融合标签树中选取出待融合标签,从所述基准标签树中选取出与所述待融合标签对应的基准标签;获取所述待融合标签的标签特征,和与所述待融合标签具有关联关系的至少一个上一级标签的标签特征;以及,获取所述基准标签的标签特征,和与所述基准标签具有关联关系的至少一个上一级标签的标签特征;基于标签特征,将所述待融合标签与所述基准标签进行匹配,并至少基于匹配结果确定出所述待融合标签插入到所述基准标签树中的合并位置,以便于将所述待融合标签树与所述基准标签树进行合并处理。本发明专利技术实施例还公开了一种数据处理装置。

【技术实现步骤摘要】
一种数据处理方法及其装置
本专利技术涉及数据处理技术,尤其涉及一种数据处理方法及其装置。
技术介绍
随着大数据技术的深入研究与应用,企业的专注点日益聚焦于怎样利用大数据来为精准营销服务,进而深入挖掘潜在的商业价值。于是,“用户画像”的概念也就应运而生。用户画像,即用户信息标签化。企业通过收集与分析消费者社会属性、生活习惯、消费行为等主要信息之后,抽象出一个用户的商业全貌,得到用户画像,这是企业应用大数据技术的基本方式。用户画像为企业提供了重要的信息基础,能够帮助企业快速、精准地找到用户群体以及确定用户需求等更信息。构建用户画像的核心工作即是给用户贴“标签”,其中标签是通过对用户信息分析而来的高度精炼的特征标识。利用标签来表示用户兴趣的优势在于不仅能反映用户行为特征,表明用户的兴趣偏好,还能反映用户兴趣偏好资源的语义特征。因此,构建能够用来准确化描述一系列不同用户行为的标签体系是用户画像技术的基础和核心技术。目前用于刻画用户行为的标签生成方法有:第一,专家经验,根据经验知识,人工设定标签体系,以刻画用户行为;但是,该方式中需要有丰富的经验、渊博的知识、对用户数据有充分了解的专家,否则经验知识得到的标签无法准确的描述用户行为;第二,主题学习模型,直接利用用户数据例如用户访问的网页的文本信息,通过主题学习模型(例如LDA)获得一系列主题,并将该一系列主题作为固定的标签体系来刻画用户行为;但是,此方式生成的标签粒度比较粗,比如女装,若想在女装中进一步细化出“裙装”、“外套”时,此方法则无法实现,且当用户的数据发生变化或者增加时,需要在保证原本的标签不变的情况下重新利用主题模型更新标签,更新一次标签消耗的计算资源较大;第三,非统一的标签,最直接的方法,不是固定一些标签,将用户行为归类于这些标签下,而是直接利用从用户数据例如用户访问网页的文本信息中提取出的描述词语(例如关键词)等来刻画用户行为。此方式,由于没有固定的标签描述用户行为,即没有统一的标签体系,所以,会对管理用户行为造成困难,当需要找某一类行为的用户时,如果使用统一的标签体系,则只需要找包含特定的几个标签的用户即可,但是如果没有统一的标签体系,则无法确定筛选的条件,寻找符合条件的用户会很困难;并且分析用户行为时,由于没有统一的标签体系,很难准确定位用户的行为或者类型。
技术实现思路
为解决现有存在的技术问题,本专利技术实施例提供了一种数据处理方法及其装置,能至少解决现有技术中存在的上述问题。本专利技术实施例的技术方案是这样实现的:本专利技术实施例第一方面提供了一种数据处理方法,所述方法包括:获取基准标签树和待融合标签树;从所述待融合标签树中选取出待融合标签,从所述基准标签树中选取出与所述待融合标签对应的基准标签;获取所述待融合标签的标签特征,和与所述待融合标签具有关联关系的至少一个上一级标签的标签特征;以及,获取所述基准标签的标签特征,和与所述基准标签具有关联关系的至少一个上一级标签的标签特征;基于标签特征,将所述待融合标签与所述基准标签进行匹配,并至少基于匹配结果确定出所述待融合标签插入到所述基准标签树中的合并位置,以便于将所述待融合标签树与所述基准标签树进行合并处理。上述方案中,所述方法包括:获取至少两个原始标签体系;每一所述原始标签体系中均包含有至少一个标签树;获取每一标签树的根标签的标签特征;至少根据每一标签树的根标签的标签特征,对所述至少两个原始标签体系中的所有标签树进行分组处理,得到至少一组标签树;对应地,所述获取基准标签树和待融合标签树,包括:从每一组标签树中选取出一个基准标签树,将每一组标签树中除基准标签树以外的其他标签树作为待融合标签树。上述方案中,所述至少根据每一标签树的根标签的标签特征,对所述至少两个原始标签体系中的所有标签树进行分组处理,得到至少一组标签树,包括:判断至少两个标签树中根标签的标签特征是否相同;若存在根标签的标签特征相同的至少两个标签树,则将根标签的标签特征相同的标签树划归类为同一组,得到至少一组标签树;或者,若不存在根标签的标签特征相同的至少两个标签树,则获取根标签对应的至少一个子标签的标签特征;根据至少两个标签树中子标签的标签特征相同的个数,对所述至少两个原始标签体系中的所有标签树进行分组处理,得到至少一组标签树。上述方案中,所述方法还包括:基于每一组标签树中的所有标签树的结构特征,对每一组标签树进行排序处理;对应地,所述获取基准标签树和待融合标签树,包括:从排序处理后的每一组标签树中选取出一个基准标签树,并将每一组标签树中除所述基准标签树以外的其他标签树作为待融合标签树。上述方案中,所述方法还包括:获取输入信息;所述输入信息表征所述待融合标签的合并位置;对应地,所述至少基于匹配结果确定出所述待融合标签插入到所述基准标签树中的合并位置,包括:基于匹配结果以及所述输入信息确定出所述待融合标签插入到所述基准标签树中的合并位置。上述方案中,所述将所述待融合标签与所述基准标签进行匹配,并至少基于匹配结果确定出所述待融合标签插入到所述基准标签树中的合并位置,包括:判断与所述待融合标签具有关联关系的至少一个上一级标签的标签特征,是否与与所述基准标签具有关联关系的至少一个上一级标签的标签特征相同;若相同,则判断所述待融合标签的标签特征是否与所述基准标签的标签特征相同;若相同,则将所述基准标签的位置作为所述待融合标签的合并位置。上述方案中,判断两个标签的标签特征是否相同的步骤包括:获取两个标签的语义信息,基于语义信息判断两个标签的标签特征是否相同;或者,获取两个标签各自对应的子标签的语义信息,确定出两个标签中语义信息相同的子标签的个数,基于语义信息相同的子标签的个数来确定两个标签的标签特征是否相同。本专利技术实施例第二方面提供了一种数据处理装置,所述装置包括:第一获取单元,用于获取基准标签树和待融合标签树;确定单元,用于从所述待融合标签树中选取出待融合标签,从所述基准标签树中选取出与所述待融合标签对应的基准标签;第二获取单元,用于获取所述待融合标签的标签特征,和与所述待融合标签具有关联关系的至少一个上一级标签的标签特征;以及,获取所述基准标签的标签特征,和与所述基准标签具有关联关系的至少一个上一级标签的标签特征;处理单元,用于基于标签特征,将所述待融合标签与所述基准标签进行匹配,并至少基于匹配结果确定出所述待融合标签插入到所述基准标签树中的合并位置,以便于将所述待融合标签树与所述基准标签树进行合并处理。上述方案中,所述第一获取单元,还用于获取至少两个原始标签体系;每一所述原始标签体系中均包含有至少一个标签树;所述第二获取单元,还用于获取每一标签树的根标签的标签特征;所述处理单元,还用于至少根据每一标签树的根标签的标签特征,对所述至少两个原始标签体系中的所有标签树进行分组处理,得到至少一组标签树;所述第一获取单元,还用于从每一组标签树中选取出一个基准标签树,将每一组标签树中除基准标签树以外的其他标签树作为待融合标签树。上述方案中,所述处理单元,还用于判断至少两个标签树中根标签的标签特征是否相同;若存在根标签的标签特征相同的至少两个标签树,则将根标签的标签特征相同的标签树划归类为同一组,得到至少一组标签树;或者,若不存在根标签的标签特征相同本文档来自技高网
...
一种数据处理方法及其装置

【技术保护点】
一种数据处理方法,其特征在于,所述方法包括:获取基准标签树和待融合标签树;从所述待融合标签树中选取出待融合标签,从所述基准标签树中选取出与所述待融合标签对应的基准标签;获取所述待融合标签的标签特征,和与所述待融合标签具有关联关系的至少一个上一级标签的标签特征;以及,获取所述基准标签的标签特征,和与所述基准标签具有关联关系的至少一个上一级标签的标签特征;基于标签特征,将所述待融合标签与所述基准标签进行匹配,并至少基于匹配结果确定出所述待融合标签插入到所述基准标签树中的合并位置,以便于将所述待融合标签树与所述基准标签树进行合并处理。

【技术特征摘要】
1.一种数据处理方法,其特征在于,所述方法包括:获取基准标签树和待融合标签树;从所述待融合标签树中选取出待融合标签,从所述基准标签树中选取出与所述待融合标签对应的基准标签;获取所述待融合标签的标签特征,和与所述待融合标签具有关联关系的至少一个上一级标签的标签特征;以及,获取所述基准标签的标签特征,和与所述基准标签具有关联关系的至少一个上一级标签的标签特征;基于标签特征,将所述待融合标签与所述基准标签进行匹配,并至少基于匹配结果确定出所述待融合标签插入到所述基准标签树中的合并位置,以便于将所述待融合标签树与所述基准标签树进行合并处理。2.根据权利要求1所述的方法,其特征在于,所述方法包括:获取至少两个原始标签体系;每一所述原始标签体系中均包含有至少一个标签树;获取每一标签树的根标签的标签特征;至少根据每一标签树的根标签的标签特征,对所述至少两个原始标签体系中的所有标签树进行分组处理,得到至少一组标签树;对应地,所述获取基准标签树和待融合标签树,包括:从每一组标签树中选取出一个基准标签树,将每一组标签树中除基准标签树以外的其他标签树作为待融合标签树。3.根据权利要求2所述的方法,其特征在于,所述至少根据每一标签树的根标签的标签特征,对所述至少两个原始标签体系中的所有标签树进行分组处理,得到至少一组标签树,包括:判断至少两个标签树中根标签的标签特征是否相同;若存在根标签的标签特征相同的至少两个标签树,则将根标签的标签特征相同的标签树划归类为同一组,得到至少一组标签树;或者,若不存在根标签的标签特征相同的至少两个标签树,则获取根标签对应的至少一个子标签的标签特征;根据至少两个标签树中子标签的标签特征相同的个数,对所述至少两个原始标签体系中的所有标签树进行分组处理,得到至少一组标签树。4.根据权利要求2或3所述的方法,其特征在于,所述方法还包括:基于每一组标签树中的所有标签树的结构特征,对每一组标签树进行排序处理;对应地,所述获取基准标签树和待融合标签树,包括:从排序处理后的每一组标签树中选取出一个基准标签树,并将每一组标签树中除所述基准标签树以外的其他标签树作为待融合标签树。5.根据权利要求1所述的方法,其特征在于,所述方法还包括:获取输入信息;所述输入信息表征所述待融合标签的合并位置;对应地,所述至少基于匹配结果确定出所述待融合标签插入到所述基准标签树中的合并位置,包括:基于匹配结果以及所述输入信息确定出所述待融合标签插入到所述基准标签树中的合并位置。6.根据权利要求1所述的方法,其特征在于,所述将所述待融合标签与所述基准标签进行匹配,并至少基于匹配结果确定出所述待融合标签插入到所述基准标签树中的合并位置,包括:判断与所述待融合标签具有关联关系的至少一个上一级标签的标签特征,是否与与所述基准标签具有关联关系的至少一个上一级标签的标签特征相同;若相同,则判断所述待融合标签的标签特征是否与所述基准标签的标签特征相同;若相同,则将所述基准标签的位置作为所述待融合标签的合并位置。7.根据权利要求3或6所述的方法,其特征在于,判断两个标签的标签特征是否相同的步骤包括:获取两个标签的语义信息,基于语义信息判断两个标签的标签特征是否相同;或者,获取两个标签各自对应的子标签的语义信息,确定出两个标签中语义信息相同的子...

【专利技术属性】
技术研发人员:范正洁熊龙
申请(专利权)人:中国移动通信有限公司研究院中国移动通信集团公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1