【技术实现步骤摘要】
一种基于投票打分的数据清洗方法及装置
[0001]本专利技术涉及数据处理和数据优化领域,具体而言,涉及一种基于投票打分的数据清洗方法及装置。
技术介绍
[0002]随着智能化科技的不断发展,人们的生活、工作、学习之中越来越多地用到了智能化设备,使用智能化科技手段,提高了人们生活的质量,增加了人们学习和工作的效率。
[0003]目前,针对大数据的数据清洗工作,通常采用预设或者固定的清洗规则,将大数据平台中抽取到的全部数据或者部分数据进行优化和清洗,在清洗的过程中,针对预设的清洗优化策略来执行相应数据内容的变换和处理。但是现有技术中的大数据平台数据清洗工作仅仅是通过固定的清洗规则或者清洗算法对大数据平台获取到的数据进行计算和处理,无法在多元化需求的情况之下灵活利用清晰规则,分段或者分项进行清洗,导致清洗过程过于死板,不灵活,降低了清洗效率。
[0004]针对上述的问题,目前尚未提出有效的解决方案。
技术实现思路
[0005]本专利技术实施例提供了一种基于投票打分的数据清洗方法及装置,以至少解决现有 ...
【技术保护点】
【技术特征摘要】
1.一种基于投票打分的数据清洗方法,其特征在于,包括:获取源数据流和第一数据清洗策略;根据打分信息将所述第一数据清洗策略进行拆分,得到目标清洗策略;将所述目标清洗策略与所述源数据流进行交互操作,得到第二清洗策略;根据所述第二清洗策略对所述源数据流进行清洗操作,得到目标数据流。2.根据权利要求1所述的方法,其特征在于,所述获取源数据流和第一数据清洗策略包括:根据清洗需求提取所述源数据流;将所述清洗需求进行关键词转化,得到所述第一数据清洗策略。3.根据权利要求1所述的方法,其特征在于,在所述根据打分信息将所述第一数据清洗策略进行拆分,得到目标清洗策略之前,所述方法还包括:根据投票信息将所有投票分数进行汇总,得到所述打分信息;将所述打分信息中超过预设阈值的策略数据与所述第一数据清洗策略进行匹配,得到拆分后的所述目标清洗策略,其中,所述目标清洗策略包括了超过所述预设阈值的全部投票打分清洗项目。4.根据权利要求1所述的方法,其特征在于,所述将所述目标清洗策略与所述源数据流进行交互操作,得到第二清洗策略包括:所述交互操作通过公式:将所述目标清洗策略一一与所述源数据流进行对比,得到整合后的所述第二清洗策略,其中,r是清洗策略,n_samples是源数据流均匀被采样数,w和h代表目标清洗策略和源数据流的数据参数,pi代表π。5.一种基于投票打分的数据清洗装置,其特征在于,包括:获取模块,用于获取源数据流和第一数据清洗策略;拆分模块,用于根据打分信息将所述第一数据清洗策略进行拆分,得到目标清洗策略;交互模...
【专利技术属性】
技术研发人员:高强,
申请(专利权)人:北京鼎泰智源科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。