一种互联网数据质量评估方法及系统技术方案

技术编号:29676965 阅读:18 留言:0更新日期:2021-08-13 21:59
本发明专利技术涉及互联网大数据领域,具体涉及一种互联网数据质量评估方法及系统,结合概率论与数理统计专业知识,利用科学的统计推断方法,通过设计合理的模拟数据与真实数据作比较,给出适用于大规模互联网数据质量评估方法,可根据不同的数据、不同的业务需求做到动态可调整,实现完善的抽检评估系统,便于互联网数据质量管控人员高效快速的进行数据质量评估,质量评估系统易于操作使用及系统集成,从工程上提升互联网数据质量评估的效率,进一步降低了互联网数据质量评估工作的成本。

【技术实现步骤摘要】
一种互联网数据质量评估方法及系统
本专利技术涉及互联网大数据领域,具体涉及一种互联网数据质量评估方法及系统。
技术介绍
随着互联网的普及,企业正在大规模的向互联网经营转型,大量的企业经营信息通过互联网发布,如企业收购信息、投资信息、土建信息、房屋交易信息、股权转让信息以及重大项目信息等,对于税务机关来说,企业是涉税的主体,在互联网中通过分析挖掘企业涉税数据,可以为税源管理带来更多有价值的信息。在面对海量的互联网数据,人工检查工作强度大,人员成本高,同时人工检查难免存在误判的情况,现有的评估方法无法准确的评估互联网数据的质量,无法科学有效的给出数据质量评估值的置信区间并且无法应对灵活多变的业务需求场景。
技术实现思路
有鉴于此,本专利技术提出了一种互联网数据质量评估方法及系统,便于互联网数据质量管控人员高效快速的进行数据质量评估。为了实现上述目的,本专利技术采用的技术方案如下:所述方法包括:S1定义互联网数据集的准确率为P;S2利用抽样方式,在数据中抽取数据样本n,所述数据样本准确率为P′;S3数据建模,推导互联网数据集的准确率P、数据样本n与数据样本准确率P′的可信程度关系;S4量化评估P与P′之间的差异,即样本准确率P′可准确表示互联网数据集的准确率P;S5实验验证数据建模在互联网数据质量评估问题上的有效性。进一步地,在互联网数据集的准确率P在90%~100%的可信程度下,选择样本量最小的抽样方式,样本量是大于1的整数。r>进一步地,所述样本量可以选择固定量或按照实际数据集设置固定比例。进一步地,所述互联网数据的正确性服从Bemoulli分布,则互联网数据集合准确率P的期望为进一步地,根据棣莫弗的中心极限定理可知,在相同的抽样方式下,多次抽样计算的准确率P′服从正态分布,平均值u=p,进一步地,多次抽样互联网数据集准确率标准差的公式为进一步地,通过变换函数将所述互联网数据集样本准确率p′分布转换为标准的正态分布。进一步地,定义互联网数据集准确率差异为Δp取值范围0<Δp<1,即可接受的检查准率为p-Δp到p+Δp的闭区间,定义η表示抽样检查结果落到可接受检查准确率区间内的可信概率,通过以下公式正态分布概率分布函数为正态分布标准化处理函数可变为标准的正态分布N(0,1)概率分布函数函数表示从负无穷到x上标准正态分布的累积函数,再通过变换函数可将互联网数据抽样检查的准确率分布转换为标准的正态分布,其中;g(x)表示从负无穷到x上标准正态分布的积累函数,p互联网数据集的准确率,Δp为互联网数据集准确率差异,n表示抽样的样本数量,推导出公式一,即为进一步地,通过前提假设与建模推导可以得出,抽样数量n、原始数据集的准确率p与准确率差异Δp最终决定可信概率。本专利技术一种互联网数据质量评估方法及系统所述系统包括:S1数据导入同步,其中可以导入CSV、Excel、数据库SQL等文件,将原始待检查数据进行导入,同时可以进行系统集成提供数据导入同步功能,数据集可以一次同步或增量同步。S2自动抽样,根据公式一:可知在相同Δp及η情况下,数据集准确率p越接近0.5,所需要的抽样数量n越大;在首次互联网数据集合检查中,默认将数据集合的准确率p设置为0.5,其他参数系统给出默认值,相同的Δp取值为0.03,η取值大于等于0.9,根据所述公式一,系统自动计算所需要抽样的最小样本量n,并进行随机抽样,形成待检查抽样数据;如果非首次检查互联网数据集合根据上次互联网数据集的准确率p作为默认值进行计算。S3数据检查,系统提供便捷的数据检查与原始数据对比的界面操作,简化互联网数据检查中的与原始数据对比工作,提升互联网数据质量检查效率。S4数据质量评估根据数据检查结果,给出互联网数据质量评估结果,包括互联网数据集的准确率p,互联网数据集准确率差异Δp,评估可信概率η。本专利技术提出的一种互联网数据质量评估方法及系统具有以下优点和有益效果:结合概率论与数理统计专业知识,利用科学的统计推断方法,通过设计合理的模拟数据与真实数据作比较,给出适用于大规模互联网数据质量评估方法,可根据不同的数据、不同的业务需求做到动态可调整,实现完善的抽检评估系统,便于互联网数据质量管控人员高效快速的进行数据质量评估,质量评估系统易于操作使用及系统集成,从工程上提升互联网数据质量评估的效率,进一步降低了互联网数据质量评估工作的成本。根据下面参考附图对示例性实施例的详细说明,本公开的其它特征及方面将变得清楚。附图说明包含在说明书中并且构成说明书的一部分的附图与说明书一起示出了本公开的示例性实施例、特征和方面,并且用于解释本专利技术的原理。图1为本专利技术一种互联网数据质量评估方法的流程图;图2为数据质量评估系统框图;图3为实验一,原始数据集数量是一万的实验,模拟和近似的功效水平与样本数量双侧检验图;图4为实验一,原始数据集数量是十万的实验,模拟和近似的功效水平与样本数量双侧检验图;图5为实验二,原始数据集数量是一万的实验,模拟和近似的功效水平与样本数量双侧检验图;图6为实验二,原始数据集数量是十万的实验,模拟和近似的功效水平与样本数量双侧检验图。具体实施方式为了使本专利技术所解决的技术问题、技术方案及有益效果更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本专利技术,并不用于限定本专利技术。如图1所示,一种互联网数据质量评估方法包括:S1定义互联网数据集的准确率为P;S2利用抽样方式,在数据中抽取数据样本n,所述数据样本准确率为P′;S3数据建模,推导互联网数据集的准确率P、数据样本n与数据样本准确率P′可信程度的关系;S4量化评估P与P′之间的差异,即样本准确率P′可准确表示互联网数据集的准确率P;S5实验验证数据建模在互联网数据质量评估问题上的有效性。优选地,在互联网数据集的准确率P在90%~100%的可信程度下,选择样本量最小的抽样方式,样本量是大于1的整数。优选地,所述样本量可以选择固定量或按照实际数据集设置固定比例。优选地,所述互联网数据的正确性服从Bernoulli分布,则互联网数据集合准确率P的期望为优选地,根据棣莫弗的中心极限定理可知,在相同的抽样方式下,多次抽样计算的准确率P′服从正态分布,平均值u=p,进一步地,多次抽样互联网数据集准确率标准差的公式为进一步地,通过变换函数将所述互联网数据集样本准确率p′分布转换为标准的正态分布。进一步地,定义互联网数据集准确率差异为Δp取值范围0<Δp<1,即可接受的检查准率为p-Δp到p+Δp的闭区间,定义η表示抽样检查结果落到可接受检查准确率区间内的可信概率,通过以下公式正态分布概率分布函数为...

【技术保护点】
1.一种互联网数据质量评估方法,其特征在于,所述方法包括:/nS1定义互联网数据集的准确率为P;/nS2利用抽样方式,在数据中抽取数据样本n,所述数据样本准确率为P’;/nS3数据建模,推导互联网数据集的准确率P、数据样本n与数据样本准确率P’的可信程度关系;/nS4量化评估P与P’之间的差异,即样本准确率P'可准确表示互联网数据集的准确率P;/nS5实验验证数据建模在互联网数据质量评估问题上的有效性。/n

【技术特征摘要】
1.一种互联网数据质量评估方法,其特征在于,所述方法包括:
S1定义互联网数据集的准确率为P;
S2利用抽样方式,在数据中抽取数据样本n,所述数据样本准确率为P’;
S3数据建模,推导互联网数据集的准确率P、数据样本n与数据样本准确率P’的可信程度关系;
S4量化评估P与P’之间的差异,即样本准确率P'可准确表示互联网数据集的准确率P;
S5实验验证数据建模在互联网数据质量评估问题上的有效性。


2.根据权利要求1所述的方法,其特征在于,在互联网数据集的准确率P在90%~100%的可信程度下,选择样本量最小的抽样方式,样本量是大于1的整数。


3.根据权利要求2所述的方法,其特征在于,所述样本量可以选择固定量或按照实际数据集设置固定比例。


4.根据权利要求1所述的方法,其特征在于,所述互联网数据的正确性服从Bernoulli分布,则互联网数据集合准确率P的期望为





5.根据权利要求3所述的方法,其特征在于,根据棣莫弗的中心极限定理可知,在相同的抽样方式下,多次抽样计算的准确率P'服从正态分布,平均值u=p,进一步地,多次抽样互联网数据集准确率标准差的公式为


6.根据权利要求1或2或3,所述的方法,其特征在于,通过变换函数将所述互联网数据集样本准确率p’分布转换为标准的正态分布。


7.根据权利要求1所述的方法,其特征在于,定义互联网数据集准确率差异为Δp取值范围0<Δp<1,即可接受的检查准率为p-Δp到p+Δp的闭区间,定义η表示抽样检查结果落到可接受检查准确率区间内的可信概率,通过以下公式

【专利技术属性】
技术研发人员:荆姝娟张贝贝
申请(专利权)人:西安麦仓数据服务有限公司
类型:发明
国别省市:陕西;61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1