一种基于SVM聚类的车险特征的有效性分析方法技术

技术编号:34770907 阅读:21 留言:0更新日期:2022-08-31 19:32
本发明专利技术公开了一种基于SVM聚类的车险特征的有效性分析方法,包括车联网GPS卫星定位数据的清洗,补限速信息,行程化,补天气和poi信息,计算风险因子,最后以赔付率预测为例进行风险因子的有效性分析。本发明专利技术的有益效果是:可以大幅度减少建模所需因子的个数,缓解因子间的多重共线性,提高模型的泛化能力。提高模型的泛化能力。提高模型的泛化能力。

【技术实现步骤摘要】
一种基于SVM聚类的车险特征的有效性分析方法


[0001]本专利技术涉及一种车辆保险特征因子的分析方法,具体为一种基于SVM聚类方法的车险特征因子的有效性分析方法,属于机器学习和特征工程


技术介绍

[0002]SVM是一种基于SRM原则的学习算法,最初用它来处理模式识别问题。
[0003]1964年出现的广义肖像算法是SVM寻找超平面分类思想的雏形,1992年SVM被推广到非线性可分的情形,1993年被应用到非完全可分的情形,1995年被用来估计实值函数,1996年推广到线性算子方程领域。支持向量机首先把原始数据空间映射(升维)到一个维数更高的特征空间,进而实现在高维特征空间中寻找最优的分类超平面完成分类,这种非线性变换是通过一个内积函数实现的,SVM通过最大间隔因子来控制训练过程,进而实现分类平面只选择最大分类间隔的分类超平面。当样本线性不可分时,通过加入松弛因子来处理异常值。这个过程可以转化为一个凸二次优化问题,进而构造拉格朗日函数,然后通过KKT条件求出原问题的对偶问题,此时问题也就转化成了最小序列优化算法(SMO)可以求得全局最优解的问题。
[0004]支持向量机聚类算法(Support Vector Clustering,SVC)是基于核的聚类算法的一种,其实现的过程如下:(1)构建支持向量的函数表达式。原数据通过核函数映射到高维的特征空间,在高维特征空间中搜索最小的封闭的能包围同类所有数据的最小超球体(设其半径为R)。该球体可以分单元地把高维数据映射回原来的数据空间时,此时每个单元就是一个独立的类别,球体的轮廓映射成成原数据空间中各类别边界的轮廓,处在轮廓上的样本点称作支持向量,它们一起构成支持向量的函数表达式。(2)类别标定。在高维特征空间中通过对任意实例进行采样,如果两个采样点在经过核方法映射后的高维空间中距离超球体的中心距离大于球体的半径,则这两个实例点不在同一个类别,反之,该对样本点属于同一类别。
[0005]例如:对车险业务来说,每个用户的风险因子太多不利于后续的模型分析,较为有效的方法是选取较为显著的几个因子进行聚类分析,然而现有技术中并未有基于SVM聚类分析法,基于此,本申请提出一种基于SVM聚类方法的车险特征因子的有效性分析方法。

技术实现思路

[0006]本专利技术的目的就是为了解决这一问题而提供的一种基于SVM聚类方法的车险特征因子的有效性分析方法。
[0007]本专利技术通过以下技术方案来实现上述目的:一种基于SVM聚类方法的车险特征因子的有效性分析方法,其特征在于,包括以下步骤:
[0008]步骤一、获取车联网数据,通过车联网采集装设备提供的卫星定位数据获取车联网数据;
[0009]步骤二、对数据进行预处理并补全道路限速信息;
[0010]步骤三、数据的行程化处理,将离散的GPS点按照特定规则合并成多段行程;
[0011]步骤四、补天气以及补poi数据;
[0012]步骤五、提取计算各个风险因子的值;
[0013]步骤六、选取风险因子进行聚类分析;
[0014]步骤七、根据聚类后的特征进行建模分析。
[0015]作为本专利技术再进一步的方案:所述步骤一中,车联网数据采集装备包括前装设备T

Box、后采集装备OBD、后视镜、行车记录仪等,采集的数据包括卫星定位经度、卫星定位纬度、卫星定位时间、系统设备时间、卫星精度等。其中,常见的数据点采集频率为1秒、15秒或30秒。
[0016]作为本专利技术再进一步的方案:所述步骤二中,数据的预处理和补全道路信息包括:
[0017]A.对所有车联网数据进行清洗,过滤掉有缺失字段的数据并对时间字段进行转换;
[0018]B.对预处理后的数据进行补限速操作。
[0019]作为本专利技术再进一步的方案:所述步骤三中,通过调用算法包按照一定的规则将车联网数据划分成一个个的小行程。
[0020]作为本专利技术再进一步的方案:所述步骤四中,对每一个行程进行补天气和poi信息。
[0021]作为本专利技术再进一步的方案:所述步骤五中,调用算法包计算出每辆车的121个风险因子。
[0022]作为本专利技术再进一步的方案:所述步骤六中,根据保险公司的需求,对其要分析的风险因子进行聚类分析,本专利采用构造完全图的类别标定方法,具体步骤如下:
[0023]A.计算特征空间中球体内或球体上的点对x
i
和x
i
之间的邻接矩阵A
ij
,它的元素取值规则如下,其中i,j=1,...,N;采样方法为随机采样,为了提高算法的速度,一般连续采样10

20个;
[0024][0025]B.计算A
ij
对应数据集的联通状态,每个连通分量代表一个类别,采用深度优先算法遍历全部样本,确定每个类别的标号;
[0026]C.由于受限支持向量在超球体的外部,因此无法通过以上方式确定它们的类别标号,本文把它们标记为未分类状态;
[0027]D.在构造最优超平面的时候,决策函数可以看成是支持向量关于核函数的展开式,因而算法的复杂度只与支持向量的个数有关,而与特征空间的维数无关;
[0028]E.数据空间中封闭轮廓的形状由两个参数决定:高斯核的尺度参数q和惩罚因子C。
[0029]作为本专利技术再进一步的方案:所述步骤七中,对步骤七中聚出的聚类中心进行建模分析(如对赔付率进行建模)。
[0030]本专利技术的有益效果是:可以大幅度减少建模所需因子的个数,缓解因子间的多重共线性,提高模型的泛化能力。
附图说明
[0031]图1为本专利技术整体流程示意图;
[0032]图2为本专利技术中支持向量机聚类流程图;
[0033]图3为本专利技术中支持向量机聚类示意图。
具体实施方式
[0034]以下将结合本专利技术说明中的附图,对本专利技术的具体实施方式进行完整、清晰地阐述。本
技术人员在没有做出创造性劳动的情况下完成的相似实施例均属于本专利技术的保护范围。
[0035]实施例一
[0036]一种基于SVM聚类的车险特征的有效性分析方法,所述有效性分析方法包括:
[0037]第一:获取车联网数据,通过车联网采集设备提供的卫星定位数据获取车联网数据。所述车联网数据的采集装备包括前装设备T

Box、后采集装备OBD、后视镜、行车记录仪;所述车联网数据包括卫星定位经度、卫星定位纬度、卫星定位时间、系统设备时间、卫星精度。
[0038]第二:对车辆网数据进行预处理并补全道路限速信息。所述步骤二中,车联网数据的预处理和补全道路信息包括:A.对所有车联网数据进行清洗,过滤掉有缺失字段的数据并对时间字段进行转换;B.对预处理后的数据进行补限速操作。
[0039]第三:车联网数据的行程化处理,将离散的GPS点按照特定规则合并成多段行程。
[0040]第四:补天气以及本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于SVM聚类的车险特征的有效性分析方法,其特征在于,所述有效性分析方法包括:步骤一、获取车联网数据,通过车联网采集设备提供的卫星定位数据获取车联网数据;步骤二、对车辆网数据进行预处理并补全道路限速信息;步骤三、车联网数据的行程化处理,将离散的GPS点按照特定规则合并成多段行程;步骤四、补天气以及补poi数据;步骤五、提取计算各个风险因子的值;步骤六、选取风险因子进行聚类分析;步骤七、以聚类中心为特征进行建模分析。2.根据权利要求1所述的一种基于SVM聚类的车险特征的有效性分析方法,其特征在于:所述步骤一中,所述车联网数据的采集装备包括前装设备T

Box、后采集装备OBD、后视镜、行车记录仪;所述车联网数据包括卫星定位经度、卫星定位纬度、卫星定位时间、系统设备时间、卫星精度。3.根据权利要求1所述的一种基于SVM聚类的车险特征的有效性分析方法,其特征在于,所述步骤二中,车联网数据的预处理和补全道路信息包括:A.对所有车联网数据进行清洗,过滤掉有缺失字段的数据并对时间字段进行转换;B.对预处理后的数据进行补限速操作。4.根据权利要求1所述的一种基于SVM聚类的车险特征的有效性分析方法,...

【专利技术属性】
技术研发人员:吴志辉
申请(专利权)人:上海评驾科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1