一种数据处理方法和装置制造方法及图纸

技术编号:37852428 阅读:19 留言:0更新日期:2023-06-14 22:43
本发明专利技术公开了一种数据处理方法和装置,涉及大数据数据处理技术领域。该方法的一具体实施方式包括:获取训练样本数据;通过预设维度从所述小区数据和当前置信度数据中提取出多个特征,对多个特征做数据相关性分析,以将符合预设条件的特征作为入参特征;确定小区数据和当前置信度数据中与入参特征对应的数据,结合多个小区的分类标签,对弱学习器进行训练,得到拟合置信度模型;基于拟合置信度模型预测待处理小区数据的分类标签,使用与所得分类标签对应的拟合置信度计算方法,得到拟合置信度,将拟合置信度作为估值模型的最新置信度。该实施方式通过构建拟合置信度模型,以在同一标准上评估不同估值模型的置信度,相比原有置信度更加客观公正。信度更加客观公正。信度更加客观公正。

【技术实现步骤摘要】
一种数据处理方法和装置


[0001]本专利技术涉及大数据数据处理
,尤其涉及一种数据处理方法和装置。

技术介绍

[0002]自动估值模型(Auotomated Valuation Model,简称AVM)是使用数学统计方法结合房产属性数据与交易数据来计算房产价值的估值模型。大部分自动估值模型的核心方法是在同一时间点比较相似房产的价值,从而得出目标房产的评估值。
[0003]置信度是用来评估模型效果的常用方式,在模型建立后,通常会给定模型结果的置信度,用于判断其结果的可靠程度,可以理解为模型结果的自评价。当银行在进行房产估值同时获取多个估值模型结果时,需要评价各模型结果的准确性。而各个模型由于在建立过程中依赖的数据不同,导致置信度的标准和规则不同,无法在同一个标准上相对客观的评价模型的置信度。

技术实现思路

[0004]有鉴于此,本专利技术实施例提供一种数据处理方法和装置,通过建立拟合置信度,以解决在同一标准上对不同模型的置信度的评估问题。
[0005]为实现上述目的,根据本专利技术实施例的一个方面,提供了一本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种数据处理方法,其特征在于,包括:获取训练样本数据;其中,所述训练样本数据包括多个小区的小区数据和分类标签,以及估值模型的当前置信度数据;通过预设维度从所述小区数据和当前置信度数据中提取出多个特征,对所述多个特征做数据相关性分析,以将符合预设条件的特征作为入参特征;确定小区数据和当前置信度数据中与所述入参特征对应的数据,结合所述多个小区的分类标签,对弱学习器进行训练,得到拟合置信度模型;基于所述拟合置信度模型预测待处理小区数据的分类标签,使用与所得分类标签对应的拟合置信度计算方法,得到拟合置信度,将所述拟合置信度作为所述估值模型的最新置信度。2.根据权利要求1所述的方法,其特征在于,所述获取训练样本数据,包括:接收多个楼盘的信息,使用楼盘融合模型对所述多个楼盘的信息进行融合处理,得到所述多个楼盘的共有小区;其中,楼盘融合模型包括小区通用名和别名的映射关系;查询每个共有小区的第三方价值,对查询结果为存在的目标小区进行分类标注,将所述目标小区的小区数据和分类标签作为训练样本数据。3.根据权利要求2所述的方法,其特征在于,所述对查询结果为存在的目标小区进行分类标注,包括:将单个目标小区的小区数据输入多个估值模型中,得到每个估值模型对所述单个目标小区估值的小区价值;对于单个小区价值,确定所述单个小区价值和所述单个目标小区的第三方价值的差值,计算所述差值和所述单个小区价值的比值;确定所述比值所处范围,将与所述范围对应的标注类别的值,作为所述单个目标小区在相应估值模型中的分类标签。4.根据权利要求1所述的方法,其特征在于,所述通过预设维度从所述小区数据和当前置信度数据中提取出多个特征,对所述多个特征做数据相关性分析,以将符合预设条件的特征作为入参特征,包括:分别通过小区特征维度、统计特征维度,从小区数据中提取出多个特征;以及通过估值置信度维度,从当前置信度数据中提取出多个特征;计算所有特征的相关性矩阵,将所述相关性矩阵绘成热力图,确定热力图中相关性大于预设相关性阈值的特征对;确定所述特征对中每个特征的获取容易度,以去除所述特征对中获取容易度相对较小的目标特征。5.根据权利要求4所述的方法,其特征在于,还包括:响应于预设特殊特征表中存在所述目标特征,保留所述目标特征。6.根据权利要求1所述的方法,其特征在于,所述确定小区数据和当前置信度数据中与所述入参特征对应的数据,结合所述多个小区的分类标签,对弱学习器进行训练,得到拟合置信度模型,包括:调用梯度计算方法计算每个入参特征的数据的梯度,按照梯度的绝对值从大到小的顺序对入参特征进行排列,得到入参特征序列;
从所述入参特征序列中,提取排序靠前的第一预设采样率的入参特征,以生成第一样本集合;从剩余入参特征序列中,随机提取第二预设采样率的入参特征,以生成第二样本集合,并对集合中每个入参特征的数据乘以预设权重系数;其中,预设权重系数为预设数值和第一预设采样率的差值除以第二预设采样率;合并所述第一样本集合和所述第二样本集合,使用合并后的样本集合对弱学习器进行训练,得到新的弱学习器;重复上述随机提取第二预设采样率的入参特征操作,以更新第二样本集合进行迭代训练,直至达到预设迭代次数或达到损失函数的预设收敛值为止,将最后一次训练得到的弱学习器作为拟合置信度模型。7.根据权利要求1所述的方法,其特征在于,所述待处理小区数据不包括第三方价值。8.根据权利要求1所述的方法,其特征在于,拟合置信度计算方法为与分类标签对应的基础得分、分类标签概率得分与预设概率的乘积、成交相近得分三者之和;其中,成交相近得分通过计算小区价值与最近成交价的差异,获取与所得分类标签对应的预设差异,根据所得差异与所述预设差异的大小关系确定。9.一种数据处理装置,其特征在于,包括:训练样本模块,用于获取训练样本数据;其中,所述训练样...

【专利技术属性】
技术研发人员:韩滢朱祖恩陈卫张睿为陈旭明
申请(专利权)人:建信金融科技有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1