一种基于投票打分的数据清洗方法及装置制造方法及图纸

技术编号:36194211 阅读:51 留言:0更新日期:2022-12-31 21:16
本发明专利技术公开了一种基于投票打分的数据清洗方法及装置。其中,该方法包括:获取源数据流和第一数据清洗策略;根据打分信息将所述第一数据清洗策略进行拆分,得到目标清洗策略;将所述目标清洗策略与所述源数据流进行交互操作,得到第二清洗策略;根据所述第二清洗策略对所述源数据流进行清洗操作,得到目标数据流。本发明专利技术解决了现有技术中的大数据平台数据清洗工作仅仅是通过固定的清洗规则或者清洗算法对大数据平台获取到的数据进行计算和处理,无法在多元化需求的情况之下灵活利用清晰规则,分段或者分项进行清洗,导致清洗过程过于死板,不灵活,降低了清洗效率的技术问题。降低了清洗效率的技术问题。降低了清洗效率的技术问题。

【技术实现步骤摘要】
一种基于投票打分的数据清洗方法及装置


[0001]本专利技术涉及数据处理和数据优化领域,具体而言,涉及一种基于投票打分的数据清洗方法及装置。

技术介绍

[0002]随着智能化科技的不断发展,人们的生活、工作、学习之中越来越多地用到了智能化设备,使用智能化科技手段,提高了人们生活的质量,增加了人们学习和工作的效率。
[0003]目前,针对大数据的数据清洗工作,通常采用预设或者固定的清洗规则,将大数据平台中抽取到的全部数据或者部分数据进行优化和清洗,在清洗的过程中,针对预设的清洗优化策略来执行相应数据内容的变换和处理。但是现有技术中的大数据平台数据清洗工作仅仅是通过固定的清洗规则或者清洗算法对大数据平台获取到的数据进行计算和处理,无法在多元化需求的情况之下灵活利用清晰规则,分段或者分项进行清洗,导致清洗过程过于死板,不灵活,降低了清洗效率。
[0004]针对上述的问题,目前尚未提出有效的解决方案。

技术实现思路

[0005]本专利技术实施例提供了一种基于投票打分的数据清洗方法及装置,以至少解决现有技术中的大数据平台数据清洗工作仅仅是通过固定的清洗规则或者清洗算法对大数据平台获取到的数据进行计算和处理,无法在多元化需求的情况之下灵活利用清晰规则,分段或者分项进行清洗,导致清洗过程过于死板,不灵活,降低了清洗效率的技术问题。
[0006]根据本专利技术实施例的一个方面,提供了一种基于投票打分的数据清洗方法,包括:获取源数据流和第一数据清洗策略;根据打分信息将所述第一数据清洗策略进行拆分,得到目标清洗策略;将所述目标清洗策略与所述源数据流进行交互操作,得到第二清洗策略;根据所述第二清洗策略对所述源数据流进行清洗操作,得到目标数据流。
[0007]可选的,所述获取源数据流和第一数据清洗策略包括:根据清洗需求提取所述源数据流;将所述清洗需求进行关键词转化,得到所述第一数据清洗策略。
[0008]可选的,在所述根据打分信息将所述第一数据清洗策略进行拆分,得到目标清洗策略之前,所述方法还包括:根据投票信息将所有投票分数进行汇总,得到所述打分信息;将所述打分信息中超过预设阈值的策略数据与所述第一数据清洗策略进行匹配,得到拆分后的所述目标清洗策略,其中,所述目标清洗策略包括了超过所述预设阈值的全部投票打分清洗项目。
[0009]可选的,所述将所述目标清洗策略与所述源数据流进行交互操作,得到第二清洗策略包括:所述交互操作通过公式:将所述目标清洗策略一一与所述源数据流进行对比,得到整合后的所述第二清洗策略,其中,r是清洗策略,n_samples是源数据流均匀被采样数,w和h代表目标清洗策略和源数据流的数据参数,pi代表
π。
[0010]根据本专利技术实施例的另一方面,还提供了一种基于投票打分的数据清洗装置,包括:获取模块,用于获取源数据流和第一数据清洗策略;拆分模块,用于根据打分信息将所述第一数据清洗策略进行拆分,得到目标清洗策略;交互模块,用于将所述目标清洗策略与所述源数据流进行交互操作,得到第二清洗策略;清洗模块,用于根据所述第二清洗策略对所述源数据流进行清洗操作,得到目标数据流。
[0011]可选的,所述获取模块包括:提取单元,用于根据清洗需求提取所述源数据流;转化单元,用于将所述清洗需求进行关键词转化,得到所述第一数据清洗策略。
[0012]可选的,所述装置还包括:汇总模块,用于根据投票信息将所有投票分数进行汇总,得到所述打分信息;匹配模块,用于将所述打分信息中超过预设阈值的策略数据与所述第一数据清洗策略进行匹配,得到拆分后的所述目标清洗策略,其中,所述目标清洗策略包括了超过所述预设阈值的全部投票打分清洗项目。
[0013]可选的,所述交互模块包括:交互单元,用于所述交互操作通过公式:将所述目标清洗策略一一与所述源数据流进行对比,得到整合后的所述第二清洗策略,其中,r是清洗策略,n_samples是源数据流均匀被采样数,w和h代表目标清洗策略和源数据流的数据参数,pi代表π。
[0014]根据本专利技术实施例的另一方面,还提供了一种非易失性存储介质,所述非易失性存储介质包括存储的程序,其中,所述程序运行时控制非易失性存储介质所在的设备执行一种基于投票打分的数据清洗方法。
[0015]根据本专利技术实施例的另一方面,还提供了一种电子装置,包含处理器和存储器;所述存储器中存储有计算机可读指令,所述处理器用于运行所述计算机可读指令,其中,所述计算机可读指令运行时执行一种基于投票打分的数据清洗方法。
[0016]在本专利技术实施例中,采用获取源数据流和第一数据清洗策略;根据打分信息将所述第一数据清洗策略进行拆分,得到目标清洗策略;将所述目标清洗策略与所述源数据流进行交互操作,得到第二清洗策略;根据所述第二清洗策略对所述源数据流进行清洗操作,得到目标数据流的方式,解决了现有技术中的大数据平台数据清洗工作仅仅是通过固定的清洗规则或者清洗算法对大数据平台获取到的数据进行计算和处理,无法在多元化需求的情况之下灵活利用清晰规则,分段或者分项进行清洗,导致清洗过程过于死板,不灵活,降低了清洗效率的技术问题。
附图说明
[0017]此处所说明的附图用来提供对本专利技术的进一步理解,构成本申请的一部分,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中:
[0018]图1是根据本专利技术实施例的一种基于投票打分的数据清洗方法的流程图;
[0019]图2是根据本专利技术实施例的一种基于投票打分的数据清洗装置的结构框图;
[0020]图3是根据本专利技术实施例的用于执行根据本专利技术的方法的终端设备的框图;
[0021]图4是根据本专利技术实施例的用于保持或者携带实现根据本专利技术的方法的程序代码的存储单元。
具体实施方式
[0022]为了使本
的人员更好地理解本专利技术方案,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分的实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本专利技术保护的范围。
[0023]需要说明的是,本专利技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本专利技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
[0024]根据本专利技术实施例,提供了一种基于投票打分的数据清洗方法的方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于投票打分的数据清洗方法,其特征在于,包括:获取源数据流和第一数据清洗策略;根据打分信息将所述第一数据清洗策略进行拆分,得到目标清洗策略;将所述目标清洗策略与所述源数据流进行交互操作,得到第二清洗策略;根据所述第二清洗策略对所述源数据流进行清洗操作,得到目标数据流。2.根据权利要求1所述的方法,其特征在于,所述获取源数据流和第一数据清洗策略包括:根据清洗需求提取所述源数据流;将所述清洗需求进行关键词转化,得到所述第一数据清洗策略。3.根据权利要求1所述的方法,其特征在于,在所述根据打分信息将所述第一数据清洗策略进行拆分,得到目标清洗策略之前,所述方法还包括:根据投票信息将所有投票分数进行汇总,得到所述打分信息;将所述打分信息中超过预设阈值的策略数据与所述第一数据清洗策略进行匹配,得到拆分后的所述目标清洗策略,其中,所述目标清洗策略包括了超过所述预设阈值的全部投票打分清洗项目。4.根据权利要求1所述的方法,其特征在于,所述将所述目标清洗策略与所述源数据流进行交互操作,得到第二清洗策略包括:所述交互操作通过公式:将所述目标清洗策略一一与所述源数据流进行对比,得到整合后的所述第二清洗策略,其中,r是清洗策略,n_samples是源数据流均匀被采样数,w和h代表目标清洗策略和源数据流的数据参数,pi代表π。5.一种基于投票打分的数据清洗装置,其特征在于,包括:获取模块,用于获取源数据流和第一数据清洗策略;拆分模块,用于根据打分信息将所述第一数据清洗策略进行拆分,得到目标清洗策略;交互模...

【专利技术属性】
技术研发人员:高强
申请(专利权)人:北京鼎泰智源科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1