一种基于个性化标签体系的主题库生成方法技术

技术编号：22166609 阅读：25 留言：0更新日期：2019-09-21 10:27

本发明专利技术特别涉及一种基于个性化标签体系的主题库生成方法。该基于个性化标签体系的主题库生成方法，以大数据平台为支撑，将大数据进行归类，一方面利用标签从多个维度对数据进行标识，依据标签项提取数据，对数据抽象出实体并打标签，对零散但有逻辑的数据实现统一管理；同时通过建立标签的方式建立主题库，将数据汇聚在各主题下，用户根据需求通过主题库即可快速拿到相关的主题下的数据。该基于个性化标签体系的主题库生成方法，对于拥有庞大数据量的机构或企业能够显著提高数据提取效率，适宜推广应用到各行各业。

A Method of Generating Theme Base Based on Personalized Label System

全部详细技术资料下载

【技术实现步骤摘要】
一种基于个性化标签体系的主题库生成方法
本专利技术涉及大数据管理
，特别涉及一种基于个性化标签体系的主题库生成方法。
技术介绍
互联网数据的爆炸增长，使得众多机构组织需要维护的数据量不断增大，传统的手工写sql筛选查找数据库数据的方式越来越乏力，落后的数据管理无法适应当前的大数据量，众多数据在数据库中得不到有效利用，抽取相关数据费时费力，目前存在的应用处理程序，大都需要自己整理好初始数据后才可以运行。若能在数据处理之前就对数据进行主题库归类，则能大大减少数据处理程序需要的数据准备时间。同时，标签的应用也愈加广泛，现实中的数据常常过于复杂，就用户为例，我们在面对具体场景时关心的常常是用户的某一个维度特征，而不是所有数据，针对特定维度建立标签使得数据更加直观，关注点更加清晰。华东师范大学李明丽等于2009年发表的《主题资源生成式建设研究》中，分析了国内外的教育资源库建设的现状,提出了资源的主题化和生成式的建设思路；研究设计出一个具有生成式功能的主题资源库。面向的用户为教师和学生两个用户群,针对不同用户群分别建设不同的资源素材。然而，由于互联网时代大数据的爆炸增长使得对数据的索引和价值提取难度增大，对各类资源的主题库建设可以将资源有效的划分，从而有针对性的拿取数据，避免了不相关资源的干扰，提高资源的有效利用率。此文中虽然提供了建立主题库的思想，但是对主题库的生成方式受时代的影响无法对大数据量的场景做研究，面对如今如此庞大的数据，手工处理的方式受到了应用场景限制。应时代发展要求，我们需要找到批量，灵活的主题库生成方式。由于数据的复杂与多元性，标签更能直白的体...

【技术保护点】
1.一种基于个性化标签体系的主题库生成方法，其特征在于：以大数据平台为支撑，将大数据进行归类，一方面利用标签从多个维度对数据进行标识，依据标签项提取数据，对数据抽象出实体并打标签，对零散但有逻辑的数据实现统一管理；同时通过建立标签的方式建立主题库，将数据汇聚在各主题下，用户根据需求通过主题库即可快速拿到相关的主题下的数据。

【技术特征摘要】
1.一种基于个性化标签体系的主题库生成方法，其特征在于：以大数据平台为支撑，将大数据进行归类，一方面利用标签从多个维度对数据进行标识，依据标签项提取数据，对数据抽象出实体并打标签，对零散但有逻辑的数据实现统一管理；同时通过建立标签的方式建立主题库，将数据汇聚在各主题下，用户根据需求通过主题库即可快速拿到相关的主题下的数据。2.根据权利要求1所述的基于个性化标签体系的主题库生成方法，其特征在于，包括以下步骤：(1)生成标签池包括创建实体，创建标签项，创建个性化规则和生成标签池四个部分；(2)生成主题库包括实现标签池搜索功能，查找主题相关标签项，对各标签项进行数据查询和导出数据生成主题库四个部分。3.根据权利要求2所述的基于个性化标签体系的主题库生成方法，其特征在于：所述步骤(1)中，生成标签池具体步骤如下：(a)根据数据库中数据之间的逻辑关系创建实体，并以数据库相关表中一个或多个字段作为数据的唯一标识将数据划分为多个个体；(b)在创建个性化规则前维护标签库，根据标签项父子级关系和标签项的不同维度在关系型数据库中维护一棵标签树，每次创建个性化规则前要对即将生成的主题创建相对应的一组标签项；(c)创建个性化规则，通过个性化规则将实体中的个体数据通标签项联系起来，一个个性化规则应用于一个实体，个性化规则的类型依据需求开发并不断扩充，个性化规则在计算引擎中实现；(d)由于数据量较大，执行个性化规则的引擎选用大数据计算引擎，将各个实体下的所有数据根据个性化规则进行一一匹配，生成个体和标签项的对应关系存在标签池中，标签池采用Elasticsearch或hbase。4.根据权利要求3所述的基于个性化标签体系的主题库生成方法，其特征在于：所述步骤(a)中，实体信息创建后需要在数据库中维护起来，所述实体信息包括实体名称，描述和存在标识字段的相关表信息。5.根据权利要求3所述的基于个性化标签体系的主题库生...

【专利技术属性】
技术研发人员：崔天雨，宋设，单震，
申请(专利权)人：浪潮卓数大数据产业发展有限公司，
类型：发明
国别省市：江苏,32

全部详细技术资料下载我是这个专利的主人