【技术实现步骤摘要】
本专利技术主要涉及数据挖掘领域,具体涉及一种基于RBF神经网络的重复记录检测方法和系统。
技术介绍
大数据时代,企事业单位能够通过挖掘大数据中有用价值来提高经决策能力。大数据往往要经过数据清洗才能达到理想的质量要求,重复记录检测是数据清洗的重要环节,所谓重复记录定义如下:同一个现实实体在数据集合中用多条不完全相同的记录来表示。常见的形成种类有:插入、删除、交换、替换等。例如表1:表1:重复记录示例常用的方法有:基本的字段匹配算法,递归的字段匹配算法,基于“排序”&“合并”方法,采用距离函数模型的方法,基于q-gram算法,基于聚类的算法等。此类算法不但计算复杂度高,并且准确率不高。
技术实现思路
本专利技术所要解决的技术问题是提供一种基于RBF神经网络的重复记录检测方法和系统,对RBF神经网络模型进行优化处理,优化后的RBF神经网络模型经过训练后可识别重复记录,能够保持较好的稳定性、准确率和召回率。本专利技术解决上述技术问题的技术方案如下:一种基于RBF神经网络的重复记录检测方法,包括如下步骤:步骤S1:将多条记录进行聚类,从而将记录分为多个记录类;步骤S2:根据字符串相似度算法计算每个记录类中对应字段之间的相似度,从而得到字段之间相似度的特征向量;具体的,所述字符串相似度算法为Jaro字符串相似度算法;步骤S3:依照特征向量将聚类后的记录标注为重复记录的标签或非重复记录的标签,得到带标签的记录;步骤S4:建立RBF神经网络模型,并根据减聚类算法对特征向量进行聚类,得到的聚类中心个数,将聚类中心个数作为RBF神经网络模型的隐层节点个数;步骤S5:根据 ...
【技术保护点】
一种基于RBF神经网络的重复记录检测方法,其特征在于,包括如下步骤:步骤S1:将多条记录进行聚类,从而将记录分为多个记录类;步骤S2:根据字符串相似度算法计算两两记录类中预设字段之间的相似度,从而得到字段之间相似度的特征向量;步骤S3:依照特征向量将聚类后的记录标注为重复记录的标签或非重复记录的标签,得到带标签的记录;步骤S4:建立RBF神经网络模型,并根据减聚类算法对特征向量进行聚类,得到的聚类中心个数,将聚类中心个数作为RBF神经网络模型的隐层节点个数;步骤S5:根据粒子群算法和聚类方法对所述隐层节点个数进行聚类来得到RBF神经网络模型的隐层节点,从而得到优化后的RBF神经网络模型;步骤S6:将所述特征向量与带标签的记录配送给优化后的RBF神经网络进行训练,得到重复记录检测模型,通过所述重复记录检测模型对带标签的记录进行重复记录检测。
【技术特征摘要】
1.一种基于RBF神经网络的重复记录检测方法,其特征在于,包括如下步骤:步骤S1:将多条记录进行聚类,从而将记录分为多个记录类;步骤S2:根据字符串相似度算法计算两两记录类中预设字段之间的相似度,从而得到字段之间相似度的特征向量;步骤S3:依照特征向量将聚类后的记录标注为重复记录的标签或非重复记录的标签,得到带标签的记录;步骤S4:建立RBF神经网络模型,并根据减聚类算法对特征向量进行聚类,得到的聚类中心个数,将聚类中心个数作为RBF神经网络模型的隐层节点个数;步骤S5:根据粒子群算法和聚类方法对所述隐层节点个数进行聚类来得到RBF神经网络模型的隐层节点,从而得到优化后的RBF神经网络模型;步骤S6:将所述特征向量与带标签的记录配送给优化后的RBF神经网络进行训练,得到重复记录检测模型,通过所述重复记录检测模型对带标签的记录进行重复记录检测。2.根据权利要求1所述的重复记录检测方法,其特征在于,步骤S4中,所述减聚类算法为SCM减聚类法,SCM减聚类法对特征向量进行聚类,得到RBF神经网络模型的隐层节点个数的具体方法为:将所述特征向量作为SCM减聚类法的输入数据集,通过公式(1)计算特征向量的密度最大点,得到第一聚类中心,Di=Σj=1nexp(-α||Xi-Xj||2)---(1)]]>其中,X为特征向量,γa∈R+,γa为Xi的邻域半径,选定最大的密度值,设为Dc1,所对应的样本Xc1作为第一聚类中心,通过公式(2)更新样本Xc1密度值,Di=Di-Dc1exp(-β||Xi-Xc1||2)(2)求出更新后的聚类中心,直到Dci<εDc1,其中ε取值为0.5,得到聚类中心个数,将得到的聚类中心个数作为RBF神经网络模型的隐层节点个数,其中,γb=ηγa,η为系数,η=R+,γb表示为一个密度指标函数显著减少的邻域。3.根据权利要求2所述的重复记录检测方法,其特征在于,所述η=R+取η=1.5,即γb=1.5γa。4.根据权利要求1所述的重复记录检测方法,其特征在于,所述根据粒子群算法和聚类方法对隐层节点个数进行聚类来得到RBF神经网络模型的隐层节点的方法为:所述根据粒子群算法为粒子群PSO算法,所述聚类方法为K-Means聚类方法;将特征向量的数据集作为粒子群PSO算法的粒子,通过粒子群PSO算法输出最优适应值的粒子,并根据最优适应值的粒子来优化K-Means聚类方法,再将RBF神经网络模型隐层节点的个数作为优化后的K-Means聚类方法的聚类个数,通过优化后的K-Means聚类方法对隐层节点的个数进行聚类来得到聚类中心,将所述聚类中心作为RBF神经网络模型的隐层节点。5.根据权利要求4所述的重复记录检测方法,其特征在于,所述通过粒子群PSO算法输出最优适应值的粒子,并根据最优适应值的粒子来优化K-Means聚类方法,具体实现如下:将特征向量的数据集作为粒子群PSO算法中的粒子,根据粒子的位置来决定是否进行粒子更新,如果更新则根据公式(3)和公式(4)来更新输入粒子的速度和位置,vid=w·vid+c1·rand()·(pid-xid)+c2·rand()·(pgd-xid)(3)xid=xid+vid(4)其中w为惯性权重,Vid为粒子的速度,Xid为粒子当前位置,Pid为粒子的个体位置最优值,Pgd为粒子的群体位置最优值,c1和c2为加速常数,rand()为在[0,1]范围里变化的随机值;再根据群体适应度方差,即公式(5)判断粒子群是否收敛,若收敛,则输出最优适应值的粒子所包含的聚类划分,根据最优适应值的粒子得到...
【专利技术属性】
技术研发人员:蔡晓东,刘馨婷,
申请(专利权)人:桂林电子科技大学,
类型:发明
国别省市:广西;45
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。