一种城市级数据仓库主题模型类别的构建方法及系统技术方案

技术编号：31619574 阅读：19 留言：0更新日期：2021-12-29 18:54

本发明专利技术涉及一种城市级数据仓库主题模型类别的构建方法及系统，属于城市级数据仓库处理技术领域。本发明专利技术通过对城市级数据仓库海量业务数据集合进行抽象，引用机器学习算法，对规则库和主题语料库的进行更新和积累，随着数据量的积累，规则库和主题语料库不断的被丰富，提高了模型的分类精度。本发明专利技术实现了对库表的自动主题分类，减少人工判断的时间，降低人工成本。人工成本。人工成本。

全部详细技术资料下载

【技术实现步骤摘要】
一种城市级数据仓库主题模型类别的构建方法及系统

[0001]本专利技术涉及一种城市级数据仓库主题模型类别的构建方法及系统，属于城市级数据仓库处理

技术介绍

[0002]在城市级数据仓库建设中，面临的情况是数据来源覆盖领域众多，源头数据既多又散，不存在统一的主数据信息，而数据分析应用通常是围绕一些核心主体对象的属性及关系信息来进行，因此，城市级数据仓库需要从业务数据中抽取各类现实世界中广泛存在的核心对象信息，通过数据域切分，将相同的数据归纳到一个主题下，以利于数据进一步抽象，对抽象之后的同类数据合并融合，形成主题数据模型，从而从全局统一角度建立对实体对象信息的认知，减少数据系统重复建设。
[0003]基于城市级数据仓库集成的政府各部门业务数据，面向主题数据域建立数据模型，需要从业务数据中抽取各类核心对象，为每个业务数据指定对应数据主题域。传统指定主题域的做法，是依赖专家经验判断，通过对业务数据的描述信息认知，指定业务数据对应主题域，该做法依赖专家人工判断，效率较低，划分质量依赖专家认识水平。
[0004]申请公布号为CN111143463A的中国专利申请文件公开了一种基于主题模型的银行数据仓库的构建方法，该方法首先构建一个主题模型数据表分类，然后将原始数据划分至每一个类别中；利用事先设定的优先级规则，将多个主题模型数据表存放到异构数据临时表中，最后将该临时表插入到异构数据基础层目标表，从而生成目标数据仓库。
[0005]申请公布号为CN111382193A的中国专利申请文件公开了一种数...

【技术保护点】

【技术特征摘要】
1.一种城市级数据仓库主题模型类别的构建方法，其特征在于，该构建方法包括以下步骤：1)获取数据仓库数据，并对其进行初步主题的划分；2)将初步主题划分的数据仓库中的所有库表结构信息进行存储，生成主题语料库，主题语料库包括所属主题，库表名称和字段名称；将库表结构中的库表名称、库表字段和库表内容中与主题具有强关联的关键字挑选出来建立规则库；库表结构信息包括库表的库表名称、库表字段及注释；3)将库表名称和库表字段合并为文本语料，判断规则库中是否存在待分类库表的文本语料，若存在，则将规则库中相应的文本语料对应的主题作为待分类库表的推荐主题；若不存在，则在主题语料库中查找与待分类库表的文本语料最相似的语料，判断该语料是否满足要求，若满足，将主题语料库中的该语料对应的主题作为待分类库表的推荐主题；若不满足，利用机器学习模型进行主题推荐；4)对主题推荐结果进行校验，根据校验后的主题对数据仓库进行分类，并按照分类结果对语料库和规则库进行更新。2.根据权利要求1所述的城市级数据仓库主题模型类别的构建方法，其特征在于，所述步骤1)中当数据仓库有业务需求时，以业务需求为导向利用数据仓库中历史存储的库表数据，根据库表数据的名称，字段及注释，将库表初步划分到不同的主题下。3.根据权利要求1所述的城市级数据仓库主题模型类别的构建方法，其特征在于，所述步骤1)中当数据仓库没有业务需求时，通过机器学习聚类模型对数据仓库内所有库表进行聚类，根据聚类结果进行主题命名，以实现主题的初步划分。4.根据权利要求3所述的城市级数据仓库主题模型类别的构建方法，其特征在于，所述的机器学习聚类模型为K
‑
Means模型，该方法还包括在利用K
‑
Means模型聚类前，利用word2vec网络将数据仓库中的所有库表名称和字段名称...

【专利技术属性】
技术研发人员：杨昊天，郑丹辉，徐向阳，
申请(专利权)人：数字郑州科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人