一种政务数据标签化系统及方法技术方案

技术编号：35642217 阅读：11 留言：0更新日期：2022-11-19 16:34

本发明专利技术公开了一种政务数据标签化系统及方法，随着物联网和大数据技术的发展，政务数据信息量越来越大、不同业务系统形成的数据格式、类型各不一样，完全通过人工识别几乎无法完成。本发明专利技术通过对原始数据采样、附加预设类型标记后输入训练模型，经训练模型分类后输出其数据类别，从而可实现对海量数据的自动分类识别，为后续数据检索应用建立了基础。本发明专利技术的方法同样适用于其他类型数据信息或其他类型业务系统产生数据信息的盲分类、盲识别和数据类型细分。据类型细分。据类型细分。

全部详细技术资料下载

【技术实现步骤摘要】
一种政务数据标签化系统及方法

[0001]本专利技术涉及物联网和大数据
，具体涉及一种政务数据标签化系统及方法。

技术介绍

[0002]随着物联网和大数据技术的发展，数据种类越来越多、数据量越来越大，对于未知数据的自动分类显得越来越重要。传统的数据分类主要通过接口对接、数据库对接、人工识别的方式对数据进行标准化处理，其方法效率低，对原有业务系统的侵入大，很难做到全盘统一标准化，往往各业务系统独立标准，需要对接时临时转换，不能进行有效的全局数据管理。
[0003]对于政务数据而言，其实际种类不算太多，但由于各政务信息系统独立开发，导致相同的政务数据在不同地方、不同时段、不同的政务信息系统中标志各不一致、标准不统一、格式可能也有差异，比如A系统对身份证号的字段名是sfz，B系统是userID，C系统是旧身份证号等等，又比如系统A对出生日期用“年
‑
月
‑
日”表示，系统B则用“年.月.日”表示，而系统C用“年月日”表示等等，缺少统一分类标识；当系统D需要相关信息时，除非对不同系统的表示方式已经有了准确的了解，否则只能逐项信息去核对是否存在有用信息，也无法确定不同的系统是否存在同类信息，缺少一种对未知数据的盲识别、自动识别手段。此外，随着信息化技术的发展，还有海量数据缺少标识，完全依靠人工标识的工作量巨大，很难做到全盘统一标准。

技术实现思路

[0004]有鉴于此，本专利技术提出了一种政务数据标签化系统及方法，能有效解决上述现有技术问题。
[0005]...

【技术保护点】

【技术特征摘要】
1.一种政务数据标签化方法，其特征在于，通过对原始数据采样、附加预设类型标记后输入训练模型，经训练模型分类后输出其数据类别；所述数据标签包括训练模型输出的数据类别；所述原始数据采样包括截取原始数据的若干段落；所述预设类型包括数字、中文字符、英文字符、数字与字符混合、图片、视频、文本；所述训练模型包括神经网络模型，所述政务数据标签化方法包括如下步骤：S0：训练模型权重参数估计，包括经验估计或训练模型自学习估计，所述经验估计包括依据个人经验人工估计模型各权重参数值；S1：数据采集，收集业务系统数据，所述业务系统数据包括流式或非流式数据、结构化或非结构化数据、文档数据以及互联网数据；S2：数据预处理，包括进行原始数据采样并附加预设类型标记，所述原始数据采样包括截取原始数据单元的前连续d位；所述原始数据单元包括数据文件、文档、数据库、数据表、数据表同类字段中的任意一种或多种；所述附加预设类型标记包括在采样数居前附加若干位预设类型标识码；S3：数据分析，根据训练模型参数估计方法已经估计出的权重参数，分别计算每一组采样数据分类信息；针对每一组输入的预处理后采样数据，记总数据位数为m位，m＝d+b，其中b为预设类型标记的位数；针对每一组输入，记x
i
为附加预设类型标记后的输入数据第i位值；所述神经网络训练模型共有L层训练层，其中第一层为输入层，最后一层与输出层相连，每层有s
l
个激活项，1≤l≤L，最后一层激活项数量与期望的总分类数量K一致，即s1＝m，s
L
＝K；训练模型第l层第j位到第l+1层第i位训练转移的权重参数为1≤j≤s
l
，1≤i≤s
l+1
；第一层第i位输入值第二层第i位中间训练值第层第i位中间训练值为有其中，为第l层所有中间训练值向第l+1层第i位训练值转移时的权重参数矢量，上标T为矩阵转置，X
l
为模型第l层中间训练值，逐层计算后获得最后一层输出值S4：输出分类结果，即数据标签h，当时，取h
i
＝0；当时，取h
i
＝1；当时，本次数据异常，该数据不属于已训练的数据类别或者分类模型需要重新
训练；其中K1为0概率误差范围，K2为1概率误差范围；分类结果h＝[h1，h2，
…
，h
K
]；S5：数据标签化并归档，用所述分类结果h对采样数据对应的原始数据单元打标签后归档存储。2.根据权利要求1所述的一种政务数据标签化方法，其特征在...

【专利技术属性】
技术研发人员：严洪涛，张军，
申请(专利权)人：无锡致为数字科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人