一种政务数据标签化系统及方法技术方案

技术编号:35642217 阅读:11 留言:0更新日期:2022-11-19 16:34
本发明专利技术公开了一种政务数据标签化系统及方法,随着物联网和大数据技术的发展,政务数据信息量越来越大、不同业务系统形成的数据格式、类型各不一样,完全通过人工识别几乎无法完成。本发明专利技术通过对原始数据采样、附加预设类型标记后输入训练模型,经训练模型分类后输出其数据类别,从而可实现对海量数据的自动分类识别,为后续数据检索应用建立了基础。本发明专利技术的方法同样适用于其他类型数据信息或其他类型业务系统产生数据信息的盲分类、盲识别和数据类型细分。据类型细分。据类型细分。

【技术实现步骤摘要】
一种政务数据标签化系统及方法


[0001]本专利技术涉及物联网和大数据
,具体涉及一种政务数据标签化系统及方法。

技术介绍

[0002]随着物联网和大数据技术的发展,数据种类越来越多、数据量越来越大,对于未知数据的自动分类显得越来越重要。传统的数据分类主要通过接口对接、数据库对接、人工识别的方式对数据进行标准化处理,其方法效率低,对原有业务系统的侵入大,很难做到全盘统一标准化,往往各业务系统独立标准,需要对接时临时转换,不能进行有效的全局数据管理。
[0003]对于政务数据而言,其实际种类不算太多,但由于各政务信息系统独立开发,导致相同的政务数据在不同地方、不同时段、不同的政务信息系统中标志各不一致、标准不统一、格式可能也有差异,比如A系统对身份证号的字段名是sfz,B系统是userID,C系统是旧身份证号等等,又比如系统A对出生日期用“年



日”表示,系统B则用“年.月.日”表示,而系统C用“年月日”表示等等,缺少统一分类标识;当系统D需要相关信息时,除非对不同系统的表示方式已经有了准确的了解,否则只能逐项信息去核对是否存在有用信息,也无法确定不同的系统是否存在同类信息,缺少一种对未知数据的盲识别、自动识别手段。此外,随着信息化技术的发展,还有海量数据缺少标识,完全依靠人工标识的工作量巨大,很难做到全盘统一标准。

技术实现思路

[0004]有鉴于此,本专利技术提出了一种政务数据标签化系统及方法,能有效解决上述现有技术问题。
[0005]本专利技术设计的一种政务数据标签化系统及方法,其特征在于,通过对原始数据采样、附加预设类型标记后输入训练模型,经训练模型分类后输出其数据类别;所述数据标签包括训练模型输出的数据类别;所述原始数据采样包括截取原始数据的若干段落;所述预设类型包括数字、中文字符、英文字符、数字与字符混合、图片、视频、文本、其他类型等,所述其他类型是指除所述数字、中文字符、英文字符、数字与字符混合、图片、视频、文本类型外的所有其他类型;所述训练模型包括神经网络模型,所述政务数据标签化方法包括如下步骤:
[0006]S0:训练模型权重参数估计,包括经验估计或训练模型自学习估计,所述经验估计包括依据个人经验人工估计模型各权重参数值;本步骤应在执行步骤S1之前完成,但不必须每次执行步骤S1前都要执行本步骤,做完一次权重参数估计后可以支持后续多次数据标签化工作,只需要在执行数据标签化工作之前已经有合适的权重参数估计值即可;
[0007]S1:数据采集,收集业务系统数据,获取各类数据,所述业务系统数据包括流式或非流式数据、结构化或非结构化数据、文档数据以及互联网数据等;
[0008]S2:数据预处理,包括进行原始数据采样并附加预设类型标记,所述原始数据采样包括截取原始数据单元的前连续d位(bit);所述原始数据单元包括数据文件、文档、数据库、数据表、数据表同类字段(可能不明类别)等中的任意一种或多种;所述附加预设类型标记包括在采样数居前附加若干位预设类型标识码,如预设8类可用3个二进制数表示;由于一般数据文件所占字节数为数KB(Byte),乃至数MB,甚至更多,对一个文件的所有数据进行特征识别固然可以取得最准确的特征信息,但其计算量和消耗的时间可能是一个天文数字。因此d值的确定既要考虑计算量和计算效率,也要考虑特征提取的有效性,不宜太长也不宜太短,长了可能计算量太大,短了可能无法完整涵盖原始数据单元的特征;较小的d值虽然可以表示部分原始数据单元的数据特征,但对于格式字段级较长的数据项或图像数据而言,可能很难提取其有效特征;
[0009]S3:数据分析,根据训练模型参数估计方法已经估计出的权重参数,分别计算每一组采样数据分类信息;
[0010]针对每一组输入的预处理后采样数据,记总数据位数为m位,m=d+b,其中b为预设类型标记的位数;针对每一组输入,记x
i
为附加预设类型标记后的输入数据第i位值,取二进制0或1,1≤i≤m(i仅针对该处输入数据);所述神经网络训练模型共有L层训练层,其中第一层为输入层,最后一层与输出层相连,本专利技术输出层未计算入总层数中,每层有s
l
个激活项,1≤l≤L,最后一层激活项数量与期望的总分类数量K一致,即s1=m,s
L
=K;训练模型第l层第j位到第l+1层第i位训练转移的权重参数为1≤j≤s
l
,1≤i≤s
l+1

[0011]第一层第i位输入值第二层第i位中间训练值第l层第i位中间训练值为1≤i≤s
l
,有
[0012][0013]其中,为第l层所有中间训练值向第l+1层第i位训练值转移时的权重参数矢量,上标T为矩阵转置,X
l
为模型第l层中间训练值,或称为中间量,
[0014]逐层计算后获得最后一层输出值1≤i≤K;
[0015]S4:输出分类结果,即数据标签h,当时,取h
i
=0;当=0;当时,取h
i
=1;当时,本次数据异常,该数据不属于已训练的数据类别或者分类模型需要重新训练;其中K1为0概率误差范围,K2为1概率误差范围;分类结果h=[h1,h2,

,h
K
],所述分类结果相对预设类型也称为细分数据类型;
[0016]S5:数据标签化并归档,用所述分类结果h对采样数据对应的原始数据单元打标签后归档存储。
[0017]每一组原始数据单元重复上述步骤S1~S5,可完成所有原始数据的标签化。
[0018]优选的,步骤S0中所述训练模型自学习估计包括神经网络训练模型参数估计方法,包括如下步骤:
[0019]S01:获取样本数据,记样本总数为N,第n个样本的数据标签已知,当该样本属于第k类时,否则其中,1≤n≤N,1≤k≤K;
[0020]S02:样本数据预处理,包括进行样本数据采样并附加预设类型标记,所述样本数据采样包括截取样本数据单元的前连续d位;所述样本数据单元包括数据文件、文档、数据库、数据表、数据表同类字段(可能不明类别)等中的任意一种或多种;所述附加预设类型标记包括在采样数居前附加若干位预设类型标识码;
[0021]S03:样本训练,计算所述神经网络模型每一层训练值
[0022]针对每一组输入的预处理后样本采样数据,记数据位数为m位,m=d+b,其中b为预设类型标记的位数;x
i
为附加预设类型标记后的输入数据第i位值,取二进制0或1,1≤i≤m(i仅针对该处输入数据);所述神经网络训练模型共有L层训练层,其中第一层为输入层,最后一层与输出层相连,本专利技术输出层不计入总层数,每层有s
l
个激活项,1≤l≤L,最后一层激活项数量与期望的总分类数量K一致,即s1=m,s
L
=K;训练模型第l层第j位到第l+1层第i位训练转移的权重参数为1≤j≤s
l
,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种政务数据标签化方法,其特征在于,通过对原始数据采样、附加预设类型标记后输入训练模型,经训练模型分类后输出其数据类别;所述数据标签包括训练模型输出的数据类别;所述原始数据采样包括截取原始数据的若干段落;所述预设类型包括数字、中文字符、英文字符、数字与字符混合、图片、视频、文本;所述训练模型包括神经网络模型,所述政务数据标签化方法包括如下步骤:S0:训练模型权重参数估计,包括经验估计或训练模型自学习估计,所述经验估计包括依据个人经验人工估计模型各权重参数值;S1:数据采集,收集业务系统数据,所述业务系统数据包括流式或非流式数据、结构化或非结构化数据、文档数据以及互联网数据;S2:数据预处理,包括进行原始数据采样并附加预设类型标记,所述原始数据采样包括截取原始数据单元的前连续d位;所述原始数据单元包括数据文件、文档、数据库、数据表、数据表同类字段中的任意一种或多种;所述附加预设类型标记包括在采样数居前附加若干位预设类型标识码;S3:数据分析,根据训练模型参数估计方法已经估计出的权重参数,分别计算每一组采样数据分类信息;针对每一组输入的预处理后采样数据,记总数据位数为m位,m=d+b,其中b为预设类型标记的位数;针对每一组输入,记x
i
为附加预设类型标记后的输入数据第i位值;所述神经网络训练模型共有L层训练层,其中第一层为输入层,最后一层与输出层相连,每层有s
l
个激活项,1≤l≤L,最后一层激活项数量与期望的总分类数量K一致,即s1=m,s
L
=K;训练模型第l层第j位到第l+1层第i位训练转移的权重参数为1≤j≤s
l
,1≤i≤s
l+1
;第一层第i位输入值第二层第i位中间训练值第层第i位中间训练值为有其中,为第l层所有中间训练值向第l+1层第i位训练值转移时的权重参数矢量,上标T为矩阵转置,X
l
为模型第l层中间训练值,逐层计算后获得最后一层输出值S4:输出分类结果,即数据标签h,当时,取h
i
=0;当时,取h
i
=1;当时,本次数据异常,该数据不属于已训练的数据类别或者分类模型需要重新
训练;其中K1为0概率误差范围,K2为1概率误差范围;分类结果h=[h1,h2,

,h
K
];S5:数据标签化并归档,用所述分类结果h对采样数据对应的原始数据单元打标签后归档存储。2.根据权利要求1所述的一种政务数据标签化方法,其特征在...

【专利技术属性】
技术研发人员:严洪涛张军
申请(专利权)人:无锡致为数字科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1