一种车型数据标准化匹配方法和系统技术方案

技术编号:26762970 阅读:43 留言:0更新日期:2020-12-18 23:18
本说明书实施例提供一种车型数据标准化匹配方法和系统。所述方法包括:获取多组待匹配车型数据,每组待匹配车型数据包括多个车型特征;基于预设条件对每组待匹配车型数据的所述多个车型特征进行划分,划分后的车型特征至少包括第一级特征和第二级特征;通过TF‑IDF算法,基于待匹配车型数据的第一级特征中的车型特征从标准化车型数据库中确定所述待匹配车型数据对应的第一标准化车型数据集,以及基于所述待匹配车型数据的第二级特征中的车型特征从所述第一标准化车型数据集中确定所述待匹配车型数据对应的标准化车型数据。

【技术实现步骤摘要】
一种车型数据标准化匹配方法和系统
本说明书涉及数据处理领域,特别涉及一种车型数据标准化匹配方法和系统。
技术介绍
随着共享出行、汽车租赁、汽车转卖等行业的蓬勃发展,记录汽车的数据体量也急剧增大。由于各大企业汽车数据体系建设不一致,记录车辆数据呈现体量大而杂的情况,导致难以应用这些数据。因此,希望提供一种车型数据标准化匹配方法。
技术实现思路
本说明书一个方面提供一种车型数据标准化匹配方法。所述方法包括:获取多组待匹配车型数据,每组待匹配车型数据包括多个车型特征;基于预设条件对每组待匹配车型数据的所述多个车型特征进行划分,划分后的车型特征至少包括第一级特征和第二级特征;通过TF-IDF算法,基于待匹配车型数据的第一级特征中的车型特征从标准化车型数据库中确定所述待匹配车型数据对应的第一标准化车型数据集,以及基于所述待匹配车型数据的第二级特征中的车型特征从所述第一标准化车型数据集中确定所述待匹配车型数据对应的标准化车型数据。本说明书另一个方面提供一种车型数据标准化匹配系统。所述系统包括:获取模块,用于获取多组待匹配本文档来自技高网...

【技术保护点】
1.一种车型数据标准化匹配方法,其特征在于,所述方法包括:/n获取多组待匹配车型数据,每组待匹配车型数据包括多个车型特征;/n基于预设条件对每组待匹配车型数据的所述多个车型特征进行划分,划分后的车型特征至少包括第一级特征和第二级特征;/n通过TF-IDF算法,基于待匹配车型数据的第一级特征中的车型特征从标准化车型数据库中确定所述待匹配车型数据对应的第一标准化车型数据集,以及基于所述待匹配车型数据的第二级特征中的车型特征从所述第一标准化车型数据集中确定所述待匹配车型数据对应的标准化车型数据。/n

【技术特征摘要】
1.一种车型数据标准化匹配方法,其特征在于,所述方法包括:
获取多组待匹配车型数据,每组待匹配车型数据包括多个车型特征;
基于预设条件对每组待匹配车型数据的所述多个车型特征进行划分,划分后的车型特征至少包括第一级特征和第二级特征;
通过TF-IDF算法,基于待匹配车型数据的第一级特征中的车型特征从标准化车型数据库中确定所述待匹配车型数据对应的第一标准化车型数据集,以及基于所述待匹配车型数据的第二级特征中的车型特征从所述第一标准化车型数据集中确定所述待匹配车型数据对应的标准化车型数据。


2.根据权利要求1所述的方法,其特征在于,对所述多组待匹配车型数据中的至少两组待匹配车型数据并行处理,同时确定所述至少两组待匹配车型数据的标准化车型数据。


3.根据权利要求1所述的方法,其特征在于,在通过所述TF-IDF算法确定所述待匹配车型数据对应的标准化车型数据前,还包括:
根据所述待匹配车型数据的车系,从所述标准化车型数据库中确定对应车系的标准化车型数据集,基于所述对应车系的标准化车型数据集进行标准化车型数据匹配。


4.根据权利要求1所述的方法,其特征在于,在确定所述待匹配车型数据对应的第一标准化车型数据集之前还包括:
基于预设的停用词库过滤所述待匹配车型数据中的停用词。


5.根据权利要求1所述的方法,其特征在于,还包括:对所述待匹配车型数据中的所述多个车型特征进行数据预处理,所述预处理至少包括数据清洗、归一化、值分析、编码、分级、组合、或过滤。


6.根据权利要求1所述的方法,其特征在于,所述划分后的车型特征还包括第三级特征;
所述基于所述待匹配车型数据的第二级特征中的车型特征从所述第一标准化车型数据集中确定所述待匹配车型数据对应的标准化车型数据,包括:
通过所述TF-IDF算法,基于所述待匹配车型数据的所述第二级特征中的车型特征从所述第一标准化车型数据集中确定所述待匹配车型数据对应的第二标准化车型数据集,以及基于所述待匹配车型数据的所述第三级特征中的车型特征,从所述第二标准化车型数据集中确定所述待匹配车型数据对应的标准化车型数据。


7.根据权利要求1所述的方法,其特征在于,还包括:
对所述待匹配车型数据与其对应的至少一个标准化车型数据进行匹配准确性评估,基于评估结果确定第一车型数据库和第二车型数据库;
其中,所述第一车型数据库包括匹配不准确的车型数据及其对应的标准化车型数据,所述第二车型数据库包括匹配准确的车型数据及其对应的标准化车型数据;所述第一车型数据库用于优化所述TF-IDF算法,所述第二车型数据库用于索引待匹配车型数据的标准化车型数据。


8.根据权利要求7所述的方法,其特征在于,所述对所述待匹配车型数据与其对应的至少一个标准化车型数据进行匹配准确性评估,基于评估结果确定第一车型数据库和第二车型数据库包括:
计算所述待匹配车型数据与其对应标准化车型数据之间的车型特征的相似度,基于相似度进行匹配准确性自动打分;
基于打分结果确定所述第一车型数据库和所述第二车型数据库。


9.根据权利要求7所述的方法,其特征在于,所述第一车型数据库用于优化所述TF-IDF算法包括:
基于所述第一车型数据库中的待匹配车型数据的车型特征,以及其对应的标准化车型数据的车型特征,更新所述TF-IDF算法中的多级词袋模型;
其中,所述多级词袋模型的更新至少包括在多级词袋中加入车型特征的同义词表述。


10.根据权利要求7所述的方法,其特征在于,所述第二车型数据库用于索引待匹配车型数据的标准化车型数据包括:
当第二待匹配车型数据与已被标准化匹配的第一待匹配车型数据相似时,从所述第二车型数据库中确定所述第二待匹配车型数据的标准化车型数据。


11.根据权利要求1所述的方法,其特征在于,还包括:
从至少两个不同的数据源获取多组待匹配车型数据,每组所述待匹配车型数据对应一辆车的一组运营数据。


12.根据权利要求11所述的方法,其特征在于,还包括:
将所述多组待匹配车型数据中对应的标准化车型数据相同的待匹配车型数据对应的车辆的至少部分运营数据合并,生成车辆运营数据库,基于所述车辆营运数据库自动确定待评估车辆的价格和车型数据来源。


13.一种车型数据标准化匹配系统,其特征在于,所述系统包括:
获取模块,用于获取多组...

【专利技术属性】
技术研发人员:薛淼孟格思李敏王瑜
申请(专利权)人:北京嘀嘀无限科技发展有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1