【技术实现步骤摘要】
一种基于AdaBoost算法的专利数据清洗方法及系统
本专利技术属于数据处理
,更具体地,涉及一种基于AdaBoost算法的专利数据清洗方法及系统。
技术介绍
当今社会,随着信息化时代的到来,推进了数据需求量,从而使得在数据处理方面越来越复杂,对于海量的数据进行挖掘分析最重要的步骤就是数据清洗。数据清洗过程中需要识别出不同的错误类型,如果只靠人工操作属于事倍功半,结合AdaBoosting算法将数据进行识别分类进行分析检测能够提升很大的效率,完成大容量的数据清洗任务。当前,专利数据清洗面临的主要问题在于:(1)随着我国逐渐成为专利大国,专利数据越来越多,各企业的需求也逐渐增多。由于数据量呈爆炸式增长,数据清洗的任务也随之愈加艰巨,国情的发展迅速,在进行数据的采集、数据源的不同、数据的实时更新还有数据的汇总等方面都在跟着不断地扩展,因此很容易导致来自数据不同方面的错误率升高,进而致使数据质量降低。(2)对于传统的数据清洗方法在处理现如今大数据量的时候性能无法达到需求,进而无法有效地处理巨大的数据集。所以针对大量的专利数据进行更有效的清洗工作是本章节需要解决的问 ...
【技术保护点】
一种基于AdaBoost算法的专利数据清洗方法,其特征在于:它包括以下步骤,S1,从专利数据库中采集专利数据,将采集到的专利数据源放入待清洗数据库中;S2,对待清洗数据库中的专利数据源进行数据分析,确定专利数据的属性信息;S3,定义清洗规则,根据专利数据源不同的错误类型制定不同的清洗规则;S4,根据清洗规则对专利数据源进行初次清洗;S5,采用AdaBoost算法对初次清洗后的专利数据进行深度清洗;S6,验证清洗结果,判断是否满足清洗要求,如果是,则转到步骤S7,否则,跳转回步骤S2;S7,干净数据回流,用清洗后的专利数据替换原专利数据。
【技术特征摘要】
1.一种基于AdaBoost算法的专利数据清洗方法,其特征在于:它包括以下步骤,S1,从专利数据库中采集专利数据,将采集到的专利数据源放入待清洗数据库中;S2,对待清洗数据库中的专利数据源进行数据分析,确定专利数据的属性信息;S3,定义清洗规则,根据专利数据源不同的错误类型制定不同的清洗规则;S4,根据清洗规则对专利数据源进行初次清洗;S5,采用AdaBoost算法对初次清洗后的专利数据进行深度清洗;S6,验证清洗结果,判断是否满足清洗要求,如果是,则转到步骤S7,否则,跳转回步骤S2;S7,干净数据回流,用清洗后的专利数据替换原专利数据。2.如权利要求1所述基于AdaBoost算法的专利数据清洗方法,其特征在于:所述步骤S3中清洗规则包括非法值、空值、不一致数据、相似重复记录的检测和处理。3.如权利要求2所述基于AdaBoost算法的专利数据清洗方法,其特征在于:所述空值的...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。