一种基于DeepFM模型的二手车价格评估方法技术

技术编号:34766936 阅读:26 留言:0更新日期:2022-08-31 19:19
本发明专利技术公开了一种基于DeepFM模型的二手车价格评估方法,包括:将二手车交易数据作为输入数据;二手车数据中属性特征进行特征分割;对二手车的三类特征进行分别预处理;将同一辆二手车预处理之后的属性特征排列为一行,构成一个行向量;将所有二手车的数据按行排列拼接,构成二手车数据矩阵;对二手车数据矩阵中的数值特征进行数据降维,得到数据矩阵;将二手车数据价格作为标签拼接到对应二手车价格行末尾;构建DeepFM网络;将得到的二手车数据矩阵输入到DeepFM模型中进行训练,得到模型的参数;将得到的二手车数据矩阵输入到DeepFM模型中进行价格预估。本发明专利技术的优点是:提高了二手车价格评估地精确度,减少了工作量,降低特征维数,节约内存及运算时间。节约内存及运算时间。节约内存及运算时间。

【技术实现步骤摘要】
一种基于DeepFM模型的二手车价格评估方法


[0001]本专利技术涉及二手车价格评估
,特别涉及一种基于DeepFM模型的二手车价格评估方法。

技术介绍

[0002]随着汽车普及率的提高,二手车交易量不断提升,具有广阔发展前景。在逐渐壮大的二手车交易市场面前,二手车价值的评估显得尤为重要。传统价格评估方法存在依赖市场和评估师经验、评估结果受主观因素影响、评估成本较高、评估效率低等缺陷。现有二手车市场主要采用传统方法,评估结果十分依赖个人主观感受。因此,提出一种准确、科学的二手车价格预测方法,提高二手车价值预测的准确性,对二手车行业的发展具有重要意义。近年来,人们尝试使用机器学习方法来进行二手车价格的评估,作为二手车交易的参考价格。
[0003]深度学习是一种新型的机器学习方法,通过组合低层特征形成更加抽象的高层表示属性类别或特征,以发现数据的分布式特征表示。深度神经网络(DNN)、卷积神经网络(CNN)和递归神经网络(RNN)等深度学习结构已成功应用于计算机视觉、语音识别、自然语言处理等领域。深度神经网络相比较于浅层神经网络,多出的层次为模型提供了更高的抽象层次,提高了模型的预测能力。针对复杂的车型和地域条件,利用深度学习方法去获得二手车的评估价格,可以解决价格评估中依赖市场经验、依赖主观感受、评估效率低等问题。

技术实现思路

[0004]本专利技术针对现有技术的缺陷,提供了一种基于DeepFM模型的二手车价格评估方法。
[0005]为了实现以上专利技术目的,本专利技术采取的技术方案如下:
[0006]一种基于DeepFM模型的二手车价格评估方法,包括以下步骤:
[0007]1)将历史二手车交易数据作为输入数据;历史二手车交易数据包括二手车属性特征数据x
origin
及交易价格y,其中属性特征包括车辆注册日期、车辆交易日期、车型、汽车品牌、车身类型、燃油类型、变速箱类型、发动机功率、汽车里程数、车辆地区。
[0008]2)将二手车数据中属性特征进行特征分割,分割为三类特征:数值特征、高基数类别特征和低基数类别特征;
[0009]3)对二手车的三类特征进行分别预处理;预处理包括:数据清洗、缺失值填补、特征编码和数据标准化;
[0010]4)将同一辆二手车预处理之后的属性特征排列为一行,构成一个行向量x;
[0011]5)将所有二手车的数据x
i
按行排列拼接,构成二手车数据矩阵;
[0012]6)对二手车数据矩阵X中的数值特征进行数据降维,得到数据矩阵X';
[0013]7)将二手车数据价格作为标签拼接到对应二手车向量行末尾;
[0014]8)构建DeepFM模型,用于评估二手车价格;
[0015]9)将用于模型训练的二手车数据经过1)

7)步骤,将得到的二手车数据矩阵输入到DeepFM模型中进行训练,将得到模型的参数及用于二手车价格预估的网络模型;
[0016]10)将需要进行预估的二手车数据经过1)

6)步骤,将得到的二手车数据矩阵输入到DeepFM模型中进行价格预估。
[0017]进一步地,步骤2中的特征分割,将原始二手车的属性特征分为数值特征及类别特征,将类别特征依据基数分割,基数大于10的为高基数类别特征,基数小于等于10的为低基数类别特征。
[0018]进一步地,步骤3中
[0019]数据清洗使用箱线图进行异常值剔除,去除数据中的极大极小值。
[0020]缺失值填补是指类别特征缺失值使用所有数据该特征的众数进行填补,数值特征使用该特征的均值进行填补。
[0021]特征编码指的是均值编码和独热编码。对高基数类别特征进行均值编码,具体公式为:
[0022][0023]其中g(y,x
i
)为编码后特征值,y为二手车价格,λ(n
i
)∈[0,1]为两个均值的可靠性,缺省值为0.5,n
i
是特征值为x
i
的样本数量,N为总样本数量,为x=x
i
对应的y均值,为整个训练集上的y均值;
[0024]对低基数类别特征进行独热编码,其过程为:
[0025]设二手车数据具有一个基数为m的类别特征x,通过哑编码构建出一个n*m的稀疏矩阵A,矩阵每一列对应特征x的一个取值,每一列的数值表示是否属于当前特征,将原始特征x替换为编码后的稀疏数值矩阵A。
[0026]数据标准化采用归一化方法,其公式为:
[0027][0028]其中x
i
为归一化前二手车数据值,x'为归一化之后数值,n为样本数量。
[0029]进一步地,步骤6中数据降维采用主成分分析方法,选取主成分占比99%的数据,具体步骤为:
[0030]首先,求出原始数据X的协方差矩阵
[0031][0032]其中,X为原始数据矩阵,n为矩阵X列数,m为矩阵X的行数;
[0033]计算协方差矩阵C
m
×
m
的特征值(λ
i
)
i=0,

,m
和特征向量(p
i
)
i=0,

,m

[0034]将特征值λ由大到小排列为{λ0,λ1,


m
},其中λ0≥λ1≥

≥λ
m
,取前k个特征值,其特征值之和占所有特征值总和的99%,对应的特征向量{p0,p1,

,p
k
}组合成变换矩阵
[0035]P
k
×
m
=[p0,p1,

,p
k
]T
[0036]将变换矩阵P
k
×
m
与原始二手车数据X
m
×
n
相乘即可得到降维后数据
[0037]Y
k
×
n
=P
k
×
m
X
m
×
n
[0038]其中,Y
k
×
n
为降维后矩阵,P
k
×
m
为变换矩阵,X
m
×
n
为原始数据矩阵。
[0039]进一步地,步骤8中构建的DeepFM模型,从输入到输出依次为输入层、嵌入层、FM层及DNN层、输出层。DeepFM模型输入由多个输入域组成,分为类别特征域和数值特征域。其中,类别特征域分别对应步骤3中预处理的低基数类别特征,数值特征域对应高基数类别特征和数值特征。
[0040]每个输入域与嵌入层的一个嵌入单元相连接,通过嵌入层后转化为一个维度为k的嵌入向量,k的缺省值为8。
[0本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于DeepFM模型的二手车价格评估方法,其特征在于,包括以下步骤:1)将历史二手车交易数据作为输入数据;历史二手车交易数据包括二手车属性特征数据x
origin
及交易价格y,其中属性特征包括车辆注册日期、车辆交易日期、车型、汽车品牌、车身类型、燃油类型、变速箱类型、发动机功率、汽车里程数、车辆地区;2)将二手车数据中属性特征进行特征分割,分割为三类特征:数值特征、高基数类别特征和低基数类别特征;3)对二手车的三类特征进行分别预处理;预处理包括:数据清洗、缺失值填补、特征编码和数据标准化;4)将同一辆二手车预处理之后的属性特征排列为一行,构成一个行向量x;5)将所有二手车的数据x
i
按行排列拼接,构成二手车数据矩阵;6)对二手车数据矩阵X中的数值特征进行数据降维,得到数据矩阵X';7)将二手车数据价格作为标签拼接到对应二手车向量行末尾;8)构建DeepFM模型,用于评估二手车价格;9)将用于模型训练的二手车数据经过1)

7)步骤,将得到的二手车数据矩阵输入到DeepFM模型中进行训练,将得到模型的参数及用于二手车价格预估的网络模型;10)将需要进行预估的二手车数据经过1)

6)步骤,将得到的二手车数据矩阵输入到DeepFM模型中进行价格预估。2.根据权利要求1所述的一种基于DeepFM模型的二手车价格评估方法,其特征在于:步骤2中的特征分割,将原始二手车的属性特征分为数值特征及类别特征,将类别特征依据基数分割,基数大于10的为高基数类别特征,基数小于等于10的为低基数类别特征。3.根据权利要求1所述的一种基于DeepFM模型的二手车价格评估方法,其特征在于:步骤3中数据清洗使用箱线图进行异常值剔除,去除数据中的极大极小值;缺失值填补是指类别特征缺失值使用所有数据该特征的众数进行填补,数值特征使用该特征的均值进行填补;特征编码指的是均值编码和独热编码;对高基数类别特征进行均值编码,具体公式为:其中g(y,x
i
)为编码后特征值,y为二手车价格,λ(n
i
)∈[0,1]为两个均值的可靠性,缺省值为0.5,n
i
是特征值为x
i
的样本数量,N为总样本数量,为x=x
i
对应的y均值,为整个训练集上的y均值;对低基数类别特征进行独热编码,其过程为:设二手车数据具有一个基数为m的类别特征x,通过哑编码构建出一个n*m的稀疏矩阵A,矩阵每一列对应特征x的一个取值,每一列的数值表示是否属于当前特征,将原始特征x替换为编码后的稀疏数值矩阵A;数据标准化采用归一化方法,其公式为:
其中x
i
为归一化前二手车数据值,x'为归一化之后数值,n为样本数量。4.根据权利要求1所述的一种基于DeepFM模型的二手车价格评估方法,其特征在于:步骤6中数据降维采用主成分分析方法,选取主成分占比99%的数据,具体步骤为:首先,求出原始数据X的协方差矩阵其中,X为原始数据矩阵,n为矩阵X列数,m为矩阵X的行数;计算协方差矩阵C
m
×
m
的特征值(λ
i
)
i=0,

,m
和特征向量(p
...

【专利技术属性】
技术研发人员:肖文栋尹旭阳黄越
申请(专利权)人:北京科技大学顺德研究生院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1