数据的处理方法、装置、计算机设备和存储介质制造方法及图纸

技术编号:33855999 阅读:33 留言:0更新日期:2022-06-18 10:44
本公开涉及一种数据的处理方法、装置、计算机设备和存储介质。通过获取小区数据的字段信息,并且根据字段信息的权重和字段信息的计算规则,确定所述小区数据的相似度,然后将小区数据的字段信息输入至机器学习二分类算法模型,经所述机器学习二分类算法模型,输出得到预测结果,能够针对多来源的数据进行融合,实现数据标准化和统一化,并且可以定位可疑结果,降低人工判断的工作量。降低人工判断的工作量。降低人工判断的工作量。

【技术实现步骤摘要】
数据的处理方法、装置、计算机设备和存储介质


[0001]本公开涉及数据处理
,特别是涉及数据的处理方法、装置、计算机设备和存储介质。

技术介绍

[0002]当前存在大量的楼盘交易网站信息,不同网站来源的楼盘数据会存在一定的重复性和差异性。关于楼盘融合匹配的方法,常见的是通过建立一套楼盘名、别名、区域、经纬度、路名、路号、物业类型、建筑年代、户数、绿化率等数据的信息库;然后根据楼盘信息建立相似度模型,不同的字段拥有不同的权重用于计算楼盘相似度得分;最后当达到一定的相似度得分后,就判定为相同楼盘,否则就继续用别名进行匹配,利用楼盘信息的相似度模型,通过关键字进行有权重的匹配。但是这种方法需要大量的人工判断和验证,并且算法本身缺乏迭代优化,相似度算法比较固定,无法定位有问题的判断结果,不能针对多来源的数据样本的特征进行迭代优化。在数据标准化和统一输出的需求下,如何实现多来源的同一楼盘的数据融合,成为一个亟待解决的问题。

技术实现思路

[0003]基于此,有必要针对上述技术问题,提供一种可以实现多来源的楼盘数据融合的数据处理的方法本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种数据的处理方法,其特征在于,包括:获取小区数据的字段信息,所述字段信息包括用于表征小区特征的信息;根据字段信息的权重和字段信息的计算规则,确定所述小区数据的相似度;将所述小区数据的字段信息输入至机器学习二分类算法模型,经所述机器学习二分类算法模型,输出得到预测结果,所述预测结果包括小区为相同类别的小区或唯一小区。2.根据权利要求1所述的方法,其特征在于,所述机器学习二分类算法模型被设置为根据样本小区数据的分类因子与所述预测结果的对应关系训练得到。3.根据权利要求1所述的方法,其特征在于,所述根据字段信息的权重和字段信息的计算规则,确定所述小区数据的相似度之后,所述方法还包括:当小区的所述相似度大于预设阈值时,且至少两个所述小区数据的预测结果为相同小区时,则将所述至少两个小区数据融合为相同类别的小区。4.根据权利要求1所述的方法,其特征在于,所述根据字段信息的权重和字段信息的计算规则,确定所述小区数据的相似度之后,所述方法还包括:当小区的所述相似度大于预设阈值时,且至少两个所述小区数据的预测结果为不同小区时,利用人工核验的方法对所述预测结果进行双重验证,得到验证结果数据;若所述验证结果数据为相同小区,则将所述至少两个小区数据融合为相同类别的小区。5.根据权利要求4所述的方法,其特征在于,所述方法还包括:将所述验证结果数据作为所述机器学习二分类算法模型的训练样本。6.根据权利要求5所述的方法,其特征在于,所述方法还包括:利用所述训练样本训练所述机器学习二分类算法模型,得到经过样本训练后的机器学习二分类算法模型;所述将所述小区数据的字段信息输入至机器学习二分类算法模型,经所述机器学习二分类算法模型,输出得到预测结果包括:将所述小区数据的字段信息输入至所述经过样本训练后的机器学习二分类算法模型,经所述经过样本训练后的机器学习二分类算法模型,输出得到预测结果。7.根据权利要求4所述的方法,其特征在于,所述根据字段信息的权重和字段信息的计算规则,确定所述小区数据的相似度包括:根据字段信息的权重、字段信息的计算规则和所述验证结果数据,确定所述小区数据的相似度。8.根据权利要求1所述的方法,其特征在于,所述方法还包括:当小区的所述相似度小于预设阈值时,且至少两个所述小区数据的预测结果为相同小区时,利用人工核验的方法对所述预测结果进行双重验证,得到验证结果数据;若所述验证结果数据为相同小区,则将所述至少两个小区数据融合为相同类别的小区。9.根据权利要求8所述的方法,其特征在于,所述方法还包括:当所述验证结果数据为相同小区,则将所述小区确定为唯一小区。10.一种数据的处理装置,其特征在于,所述装置包括:字段信息获取模块,用于获取小区数据的字段信息,所述字段信息包括用于表征小区
特征的信息;相似度确定模块,...

【专利技术属性】
技术研发人员:陈卫韩滢吴宗坤陈旭明赵伟赖雅玲
申请(专利权)人:中国建设银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1