【技术实现步骤摘要】
一种数据验证方法以及系统
[0001]本专利技术属于数据验证
,具体涉及一种数据验证方法以及系统。
技术介绍
[0002]工业场景中的传感器平台和科学计算中的应用程序通常需要处理大量数据,这些海量数据使得手动验证不可行,需要自动化的数据验证方法,以便对数据质量进行可靠、可信的评估。
[0003]此外,如何能够借鉴领域专家的先验知识融入到数据验证过程,是生成可靠、可信的数据质量评估的前提。先验知识通常可用作描述输入与目标之间相互作用的规则,例如目标必须单调递减,并且凸出递增的输入值。一般情况下,领域专家能够一眼就验证多个这样的交互。
[0004]然而,现有的基于规则的数据验证方法无法考虑这些约束,仅能检测缺失值、异常值或单个观测值分布的变化等基本问题。此外,原始数据中所蕴含的隐式关系一般无法由专家经验获得,需要对数据进行深度挖掘。
[0005]因此,现有的数据验证技术往往忽视先验知识中的形状约束,同时在数据验证的过程中也往往忽视原始数据中蕴含的隐式关系,导致数据验证的准确性较低。
专利技术 ...
【技术保护点】
【技术特征摘要】
1.一种数据验证方法,其特征在于,包括:S101:输入训练数据,对所述训练数据进行预处理;S102:构建深度自编码器,通过所述深度自编码器提取所述训练数据中的隐式特征并重构;S103:构建回归模型,在所述回归模型中引入形状约束;S104:整合隐式特征提取与重构以及引入形状约束产生的误差问题,进行优化并求解;S105:输出数据验证结果。2.根据权利要求1所述的数据验证方法,其特征在于,所述S101具体包括:通过最大
‑
最小归一化方法对所述训练数据X进行预处理:其中,表示其中任意一列特征,表示进行归一化处理之后获得的对应特征。3.根据权利要求1所述的数据验证方法,其特征在于,所述深度自编码器包括编码器和解码器,所述S102具体包括:通过所述编码器提取所述训练数据中的隐式特征y:y=h(X)其中,h(.)表示映射函数;根据所述隐式特征,通过所述解码器对所述训练数据进行重构,并输出:其中,表示对所述训练数据进行重构之后的输出,r(.)表示映射函数;以最小化重构输出和原始输入X的相对熵作为优化函数,解析出所述训练数据中的数据隐式关系:4.根据权利要求3所述的数据验证方法,其特征在于,最小化重构输出和原始输入X的相对熵的具体计算方法为:5.根据权利要求3所述的数据验证方法,其特征在于,所述S103具体包括:S1031:构建一般的多项式回归模型:其中,ω
i
表示多项式回归系数,t表示多项式次数,f(X)表示对应的回归预测值;S1032:将上述多项式回归假设代入到实际求解过程中,则有:其中,求解的目标为使得求解出最佳的多项式回归系数ω以使整体的平方误差最小;
S1033:在所述多项式回归模型...
【专利技术属性】
技术研发人员:王旭,晏进,郭建章,党咏欣,曲欣,张宇峰,
申请(专利权)人:中电信数智科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。