一种城市级数据仓库主题模型类别的构建方法及系统技术方案

技术编号:31619574 阅读:19 留言:0更新日期:2021-12-29 18:54
本发明专利技术涉及一种城市级数据仓库主题模型类别的构建方法及系统,属于城市级数据仓库处理技术领域。本发明专利技术通过对城市级数据仓库海量业务数据集合进行抽象,引用机器学习算法,对规则库和主题语料库的进行更新和积累,随着数据量的积累,规则库和主题语料库不断的被丰富,提高了模型的分类精度。本发明专利技术实现了对库表的自动主题分类,减少人工判断的时间,降低人工成本。人工成本。人工成本。

【技术实现步骤摘要】
一种城市级数据仓库主题模型类别的构建方法及系统


[0001]本专利技术涉及一种城市级数据仓库主题模型类别的构建方法及系统,属于城市级数据仓库处理


技术介绍

[0002]在城市级数据仓库建设中,面临的情况是数据来源覆盖领域众多,源头数据既多又散,不存在统一的主数据信息,而数据分析应用通常是围绕一些核心主体对象的属性及关系信息来进行,因此,城市级数据仓库需要从业务数据中抽取各类现实世界中广泛存在的核心对象信息,通过数据域切分,将相同的数据归纳到一个主题下,以利于数据进一步抽象,对抽象之后的同类数据合并融合,形成主题数据模型,从而从全局统一角度建立对实体对象信息的认知,减少数据系统重复建设。
[0003]基于城市级数据仓库集成的政府各部门业务数据,面向主题数据域建立数据模型,需要从业务数据中抽取各类核心对象,为每个业务数据指定对应数据主题域。传统指定主题域的做法,是依赖专家经验判断,通过对业务数据的描述信息认知,指定业务数据对应主题域,该做法依赖专家人工判断,效率较低,划分质量依赖专家认识水平。
[0004]申请公布号为CN111143463A的中国专利申请文件公开了一种基于主题模型的银行数据仓库的构建方法,该方法首先构建一个主题模型数据表分类,然后将原始数据划分至每一个类别中;利用事先设定的优先级规则,将多个主题模型数据表存放到异构数据临时表中,最后将该临时表插入到异构数据基础层目标表,从而生成目标数据仓库。
[0005]申请公布号为CN111382193A的中国专利申请文件公开了一种数据仓库主题模型的构建方法和装置,该方法首先创建一个包含业务数据集主题类型的ETL任务,再用ETL任务将业务数据集成推送到数据仓库中;然后根据具体的业务数据和预先总结的数据特点,配置一个数据计算框架来计算包含结果集数据的主题模型;再将该结果集推送给ES搜索平台,以供用户对其进行查询。
[0006]城市级数据仓库中存储的数据不仅数据量是海量的,其包含的数据种类也是繁多的。所以要对数据进行主题归纳就成为了很困难的事。首先,主题域边界不易统一。不同业务成员对数据的主题域定义不同,如何保障多人协作划分主题域时能实时了解彼此的定义标准,就成为了首要问题。其次,当数据级别是城市级的时候,所要进行的分析将是大数据级别的,如果要人工实现对城市级别的数据划分主题域,难免会存在不能够全面或准确的情况。另外,当主题域确定后,人工对每天整个城市产生的数据进行主题域归类,所耗费的人力成本也将是巨大的。

技术实现思路

[0007]本专利技术的目的是提供一种城市级数据仓库主题模型类别的构建方法及系统,以解决城市级数据仓库主题分类效率低、分类精度差的问题。
[0008]本专利技术为解决上述问题提供了一种城市级数据仓库主题模型类别的构建方法,该
构建方法包括以下步骤:
[0009]1)获取数据仓库数据,并对其进行初步主题的划分;
[0010]2)将初步主题划分的数据仓库中的所有库表结构信息进行存储,生成主题语料库,主题语料库包括所属主题,库表名称和字段名称;将库表结构中的库表名称、库表字段和库表内容中与主题具有强关联的关键字挑选出来建立规则库;库表结构信息包括库表的库表名称、库表字段及注释;
[0011]3)将库表名称和库表字段合并为文本语料,判断规则库中是否存在待分类库表的文本语料,若存在,则将规则库中相应的文本语料对应的主题作为待分类库表的推荐主题;若不存在,则在主题语料库中查找与待分类库表的文本语料最相似的语料,判断该语料是否满足要求,若满足,将主题语料库中的该语料对应的主题作为待分类库表的推荐主题;若不满足,利用机器学习模型进行主题推荐;
[0012]4)对主题推荐结果进行校验,根据校验后的主题对数据仓库进行分类,并按照分类结果对语料库和规则库进行更新。
[0013]本专利技术还提供了一种城市级数据仓库主题模型类别的构建系统,该系统包括存储器和处理器,以及存储在所述存储器上并在所述处理器上运行的计算机程序,所述处理器与所述存储器相耦合,所述处理器执行所述计算机程序时实现本专利技术所述的城市级数据仓库主题模型类别的构建方法。
[0014]本专利技术通过对城市级数据仓库海量业务数据集合进行抽象,引用机器学习算法,对规则库和主题语料库的进行更新和积累,随着数据量的积累,规则库和主题语料库不断的被丰富,提高了模型的分类精度。本专利技术实现了对库表的自动主题分类,减少人工判断的时间,降低人工成本。
[0015]进一步地,为快速实现初步分类,所述步骤1)中当数据仓库有业务需求时,以业务需求为导向利用数据仓库中历史存储的库表数据,根据库表数据的名称,字段及注释,将库表初步划分到不同的主题下。
[0016]进一步地,为快速实现初步分类,所述步骤1)中当数据仓库没有业务需求时,通过机器学习聚类模型对数据仓库内所有库表进行聚类,根据聚类结果进行主题命名,以实现主题的初步划分。
[0017]进一步地,为准确实现初步分类,所述的机器学习聚类模型为K

Means模型,该方法还包括在利用K

Means模型聚类前,利用word2vec网络将数据仓库中的所有库表名称和字段名称转化为高维词向量,所述word2vec网络采用中文维基百科为语料库训练得到。
[0018]进一步地,所述步骤3)中利用主题语料库进行主题推荐的过程如下:
[0019]对待分类库表中的文本语料和主题语料库的各个语料进行分词操作;
[0020]将待分类的文本语料和主题语料库中的各个语料进行相似度对比;
[0021]选取相似度值最高且高于设定阈值的语料对应的主题作为该分类库表的所属主题。
[0022]进一步地,为准确计算待分类的文本语料和主题语料库中的各个语料之间的相似度,采用tf

idf模型对待分类的文本语料和主题语料库中的各个语料进行相似度对比。
[0023]进一步地,所述的设定阈值为0.95。
[0024]进一步地,所述步骤3)采用的机器学习模型为随机森林模型,在使用随机森林模
型进行分类时,将已分词的主题语料库转化为高维空间向量,利用转化为高维空间向量的带标签的主题语料库对随机森林模型进行训练,将待分类的库表的文本语料转换成高维向量后输入到训练后的随机森林模型中进行判别,判别出的主题即为库表的所属主题。
[0025]进一步地,采用word2vec网络或者tf

idf模型将已分词的主题语料库转化为高维空间向量。
附图说明
[0026]图1是本专利技术城市级数据仓库主题模型类别的构建方法的流程图;
[0027]图2是本专利技术所采用的库表向量获取方法示意图;
[0028]图3是本专利技术所采用word2vec的结构示意图;
[0029]图4

a是K

means聚类方法中初始数据样本分布示意图;
[0030]图4
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种城市级数据仓库主题模型类别的构建方法,其特征在于,该构建方法包括以下步骤:1)获取数据仓库数据,并对其进行初步主题的划分;2)将初步主题划分的数据仓库中的所有库表结构信息进行存储,生成主题语料库,主题语料库包括所属主题,库表名称和字段名称;将库表结构中的库表名称、库表字段和库表内容中与主题具有强关联的关键字挑选出来建立规则库;库表结构信息包括库表的库表名称、库表字段及注释;3)将库表名称和库表字段合并为文本语料,判断规则库中是否存在待分类库表的文本语料,若存在,则将规则库中相应的文本语料对应的主题作为待分类库表的推荐主题;若不存在,则在主题语料库中查找与待分类库表的文本语料最相似的语料,判断该语料是否满足要求,若满足,将主题语料库中的该语料对应的主题作为待分类库表的推荐主题;若不满足,利用机器学习模型进行主题推荐;4)对主题推荐结果进行校验,根据校验后的主题对数据仓库进行分类,并按照分类结果对语料库和规则库进行更新。2.根据权利要求1所述的城市级数据仓库主题模型类别的构建方法,其特征在于,所述步骤1)中当数据仓库有业务需求时,以业务需求为导向利用数据仓库中历史存储的库表数据,根据库表数据的名称,字段及注释,将库表初步划分到不同的主题下。3.根据权利要求1所述的城市级数据仓库主题模型类别的构建方法,其特征在于,所述步骤1)中当数据仓库没有业务需求时,通过机器学习聚类模型对数据仓库内所有库表进行聚类,根据聚类结果进行主题命名,以实现主题的初步划分。4.根据权利要求3所述的城市级数据仓库主题模型类别的构建方法,其特征在于,所述的机器学习聚类模型为K

Means模型,该方法还包括在利用K

Means模型聚类前,利用word2vec网络将数据仓库中的所有库表名称和字段名称...

【专利技术属性】
技术研发人员:杨昊天郑丹辉徐向阳
申请(专利权)人:数字郑州科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1