【技术实现步骤摘要】
数据质量监控方法、装置及相关设备
[0001]本申请涉及数据处理
,尤其涉及一种数据质量监控方法、装置、计算机设备及介质。
技术介绍
[0002]企业在进行市场情报调研、客户关系维护、财务报表展现、战略决策支持等,都需要信息系统进行数据的搜集、分析、知识发现,为决策者提供充足且准确的情报和资料。数据质量问题是影响信息系统运行的关键因素,直接关系到信息系统建设的成败。根据“垃圾进,垃圾出”的原理,为了使信息系统建设取得预期效果,达到数据决策的目标,就要求信息系统提供的数据是可靠的,能够准确反应客观事实。
[0003]在实现本申请的过程中,专利技术人发现现有技术存在如下技术问题:现有的数据质量监控大多通过人为设置若干个质量考量指标及质量考量指标对应的权重,通过分析数据的质量考量指标值与权重得到数据的健康程度。而人为设置质量考量指标与权重,无法根据数据的实际情况动态调整质量考量指标与权重,从而导致数据质量监控的准确性较低。
[0004]因此,有必要提供一种数据质量监控方法,能够提高数据质量监控的准确性。 />
技术实现思路
...
【技术保护点】
【技术特征摘要】
1.一种数据质量监控方法,用于监控预设数据供应端提供的数据质量,其特征在于,所述数据质量监控方法包括:获取预设数据供应端提供的原始历史数据对应的问题指标集,并确定所述问题指标集对应的问题分析文本集;调用TF
‑
IDF算法对所述问题分析文本集进行权重计算,得到权重向量矩阵;根据所述权重向量矩阵,选取权重靠前的预设数量的问题指标作为目标问题指标,并根据所述预设数量调整所述目标问题指标的权重,得到目标权重;获取并解析所述预设数据供应端提供的新数据,得到目标问题指标值,并根据所述目标问题指标值与所述目标权重得到所述新数据的健康指数;调用预先训练好的影响程度预测模型处理所述目标问题指标值,得到所述目标问题指标的影响程度,根据所述影响程度确定所述目标问题指标对应的指标值区间,并根据所述指标值区间计算预设健康指数阈值,其中,所述影响程度与指标值区间存在映射关系;检测所述健康指数是否大于预设健康指数阈值;当检测结果为所述健康指数大于所述预设健康指数阈值时,调用预先设置的数据质量评价规则解析所述新数据,得到数据质量评价结果;根据所述数据质量评价结果清洗所述新数据,得到目标新数据。2.根据权利要求1所述的数据质量监控方法,其特征在于,所述调用TF
‑
IDF算法对所述问题分析文本集进行权重计算,得到权重向量矩阵包括:对所述问题分析文本集进行去停用词处理,得到第一问题分析文本集;对所述第一问题分析文本集进行分词处理,得到问题分析文本特征词向量矩阵;调用TF
‑
IDF算法处理所述问题分析文本特征词向量矩阵,得到每一所述问题指标的词频与逆向文件频率;按照预设数据模型处理所述词频与所述逆向文件频率,得到权重向量矩阵。3.根据权利要求1所述的数据质量监控方法,其特征在于,所述根据所述预设数量调整所述目标问题指标的权重,得到目标权重包括:获取预设数量的所述目标问题指标间的权重比;根据所述权重比确定权重总份数以及每个所述目标问题指标的权重子份数;计算所述权重子份数与所述权重总份数的占比,得到目标权重。4.根据权利要求1所述的数据质量监控方法,其特征在于,所述根据所述目标问题指标值与所述目标权重得到所述新数据的健康指数包括:确定每一所述目标问题指标值对应的目标权重;乘积处理每一所述目标指标值与对应的所述目标权重,得到第一健康指数;求和处理所述第一健康指数,得到所述新数据的健康指数。5.根据权利要求1所述的数据质量监控方法,其特征在于,所述根据所述影响程度确定所述目标问题指标对应的指标值区间包括:获取所述影响程度;确定预先设置的所述影响程度与指标值区间的目标映射...
【专利技术属性】
技术研发人员:曹红姣,
申请(专利权)人:中国平安人寿保险股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。