【技术实现步骤摘要】
数据质量检测方法、装置、设备及存储介质
[0001]本专利技术涉及数据质量检测领域,特别涉及一种数据质量检测方法
、
装置
、
设备及存储介质
。
技术介绍
[0002]在大数据应用中,数据质量问题是一个常见的挑战
。
由于数据来源复杂,数据量巨大,数据质量问题可能涉及到数据的完整性
、
一致性
、
准确性
、
及时性等多个方面
。
这些问题可能导致分析结果的不准确性
、
决策的错误性以及业务流程的混乱性,给企业带来损失和风险
。
因此,如何有效地发现和解决数据质量问题,成为了数据应用领域的一个重要技术问题
。
[0003]目前,传统的数据质量检测方法需要人工根据待检测数据信息配置数据质量校验规则,通过人工配置规则的方式难以覆盖待检测数据所有可能出现的数据质量问题,导致数据质量检测结果不精确
。
技术实现思路
[0004]本专利技术的目的在于提供一种数据质量检测方法
、
装置
、
设备及存储介质,应用于数据质量检测领域,该方法通过深度学习方法训练得到校验规则推荐模型,通过校验规则推荐模型输出待检测数据需要配置的规则,相比于现有技术通过人工配置规则进行数据质量检测的方式,本专利技术方法提高了数据质量检测结果的准确性
。
[0005]为解决上述技术问题,本专利技术提供一种数据质量检测方 ...
【技术保护点】
【技术特征摘要】
1.
一种数据质量检测方法,其特征在于,包括:获取待检测数据,基于所述待检测数据与校验规则推荐模型获取目标数据质量校验规则;设置数据质量检测结果的输出源信息,获取所述待检测数据的输入源信息;调用可执行
Flink
生成程序基于所述输出源信息
、
所述输入源信息及所述目标数据质量校验规则生成可执行
Flink
程序;将所述可执行
Flink
程序上传至
Flink
平台,以使所述
Flink
平台执行所述可执行
Flink
程序生成所述数据质量检测结果;其中,所述校验规则推荐模型的训练方法为:获取数据集中每个字段的字段特征,对所述字段特征进行数据质量校验规则标注;基于标注后的所述字段特征训练所述校验规则推荐模型
。2.
根据权利要求1所述数据质量检测方法,其特征在于,所述调用可执行
Flink
生成程序基于所述输出源信息
、
所述输入源信息及所述目标数据质量校验规则生成可执行
Flink
程序,包括:调用所述可执行
Flink
生成程序;基于所述输出源信息生成
Flink
可识别输出源信息;基于所述输入源信息生成
Flink
可识别输入源信息;基于所述目标数据质量校验规则生成
Flink SQL
语言的所述目标数据质量校验规则;基于所述
Flink
可识别输出源信息
、
所述
Flink
可识别输入源信息及
Flink SQL
语言的所述目标数据质量校验规则生成所述可执行
Flink
程序
。3.
根据权利要求1所述数据质量检测方法,其特征在于,所述获取数据集中每个字段的字段特征,对所述字段特征进行数据质量校验规则标注,包括:获取所述数据集中的每个字段的所述字段特征,将非数字类型的所述字段特征转换为数字类型的所述字段特征;将所述数据质量校验规则进行数字编码得到对应的规则编码;基于所述规则编码对数字类型的所述字段特征进行标注
。4.
...
【专利技术属性】
技术研发人员:王蒴,李希明,孙焕明,刘淑芳,王沛,
申请(专利权)人:山东中创软件商用中间件股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。