【技术实现步骤摘要】
一种带有马尔可夫链数据处理的汽车风险用户筛查方法
本专利技术涉及汽车风险用户分类
,尤其涉及一种带有马尔可夫链数据处理的汽车风险用户筛查方法。
技术介绍
随着人工智能这一科技成果的不断发展,深度学习分类神经网络迁移到各个研究领域,人工智能给人类带来的实际价值成为众多科研工作者努力的方向;例如将分类网络应用到汽车行业的高低风险用户筛查方面,成为汽车行业更好地服务于用户的重要辅助工具和参考信息。由于汽车高低风险用户筛查的数据来自车辆驾驶系统,其提供的数据量不仅巨大,还具有大量的噪声,同时数据的辨识度低,可用的数据属性之间存在较大差异,给网络训练带来困难。随着网络的加深,容易导致过拟合,导致网络模型无法收敛。目前,马尔科夫链作为解释时间进程的概念,广泛应用于语音识别、文本识别、路径辨识等人工智能领域;或是在金融领域,其被用于预测企业产品的市场占有率,或是作为信号模型用于熵编码技术等等,但其都成为主方法用以解决各种问题。在汽车风险用户筛查方面暂时还没有马尔科夫链的相关应用,以解决数据的预处理问题,来加强汽车风险用户筛查的准确性。
技术实现思路
针对上述现有技术的不足,本专利技术提供带有马尔可夫链数据处理的汽车风险用户筛查方法。为解决上述技术问题,本专利技术所采取的技术方案是:一种带有马尔可夫链数据处理的汽车风险用户筛查方法,包括如下步骤:步骤1:从数据库中读取驾驶行为相关数据,根据GPS获取的经纬度和数据采集时间,对数据进行预处理,提升数据的置信度和可靠性,过程如下:步骤1. ...
【技术保护点】
1.一种带有马尔可夫链数据处理的汽车风险用户筛查方法,其特征在于,包括如下步骤:/n步骤1:从数据库中读取驾驶行为相关数据,根据GPS获取的经纬度和数据采集时间,对数据进行预处理,提升数据的置信度和可靠性;/n步骤2:针对各个城市的具体位置信息,根据经纬度和时间数据进行网格化划分,对每个小区域每个时间段的驾驶行为中车辆运行数据统计,并做数据处理;/n步骤3:根据处理后的特征数据将时间序列数据划分为若干个状态,确定出不带倾向性的被测量分布的区间划分形式,统计数据在划分区间内的状态转移情况和状态转移矩阵;/n步骤4:预处理状态转移情况和状态转移矩阵,结合未经马尔科夫链处理的部分特征,共同组成数据特征,用于分类神经网络输入;/n步骤5:训练阶段利用深度卷积神经网络压缩特征大小,丰富特征维度,提取主要特征,将特征网络最后一层输出的特征向量输入到全连接层,并经过softmax归一化后得到用户高低风险的分类结果;/n步骤6:计算交叉熵损失,通过随机梯度下降来最小化损失函数,从而更新网络模型参数,实现更好的高低风险用户筛查效果。/n
【技术特征摘要】 【专利技术属性】
1.一种带有马尔可夫链数据处理的汽车风险用户筛查方法,其特征在于,包括如下步骤:
步骤1:从数据库中读取驾驶行为相关数据,根据GPS获取的经纬度和数据采集时间,对数据进行预处理,提升数据的置信度和可靠性;
步骤2:针对各个城市的具体位置信息,根据经纬度和时间数据进行网格化划分,对每个小区域每个时间段的驾驶行为中车辆运行数据统计,并做数据处理;
步骤3:根据处理后的特征数据将时间序列数据划分为若干个状态,确定出不带倾向性的被测量分布的区间划分形式,统计数据在划分区间内的状态转移情况和状态转移矩阵;
步骤4:预处理状态转移情况和状态转移矩阵,结合未经马尔科夫链处理的部分特征,共同组成数据特征,用于分类神经网络输入;
步骤5:训练阶段利用深度卷积神经网络压缩特征大小,丰富特征维度,提取主要特征,将特征网络最后一层输出的特征向量输入到全连接层,并经过softmax归一化后得到用户高低风险的分类结果;
步骤6:计算交叉熵损失,通过随机梯度下降来最小化损失函数,从而更新网络模型参数,实现更好的高低风险用户筛查效果。
2.根据权利要求1所述的带有马尔可夫链数据处理的汽车风险用户筛查方法,其特征在于:所述步骤1包括以下步骤:
步骤1.1:检查数据中是否存在重复数据,若包含,只保留一条数据;
步骤1.2:对缺失数据进行删除元组、0值和平均值填充、K最近邻距离法填充的操作;
步骤1.3:依据各城市的经纬度,将不在各城市范围内的数据视为异常数据,依据实际情况采用逐步向后删除、均值剔除和逻辑错误删除的其中一种统计方法进行数据清洗;
步骤1.4:依据卫星定位技术对定位精度的影响,将少于数据量阈值数的数据视为无效数据,再重新进行数据清洗处理。
3.根据权利要求1所述的带有马尔可夫链数据处理的汽车风险用户筛查方法,其特征在于:所述步骤2包括以下步骤:
步骤2.1:选取某一城市,对不同采集时间的所有数据进行合并处理,并根据经纬度画出散点图,观察汽车的驾驶分布状况,根据散点图密集程度设置城市网格划分标准,得出其不同划分标准情况下的区域网格大小;
步骤2.1.1:假设该城市的最大、最小经度分别为max(X)、min(X),最大、最小纬度分别为max(Y)、min(Y),设置城市划分网格的边长为ri(i=1,2,3,…,m),其中m表示划分网格有m种可能性标准,则该城市在经纬度上划分的网格个数分别为:
其中,nlength,i表示第i种可能性划分标准下经度划分的网格个数,nwidth,i表示第i种可能性划分标准下纬度划分的网格个数;
步骤2.1.2:将不同可能性划分标准下各区域车辆运行数据的方差相加,依据最小方差法,在不同可能性划分标准中确定方差最小的为最优网格划分标准;或者根据小区域内的方差进行投票法进行调整,以避免出现大量的无数据区域;
步骤2.2.:在已划分好的空间小区域中,根据是否是路段高峰时间点将其划分为M个时间段;
步骤2.3:在已划分好的每个小区域的每个时间段中,对数据进行均值和方差统计,并在此基础上进行数据计算:
其中,与σijk分别是该城市第i行第j列网格第k个时间段中数据的均值和方差,xk为该网格k时间段未经处理的数据,x′k是该网格k时间段处理后的数据。
4.根据权利要求1所述的带有马尔可夫链数据处理的汽车风险用户筛查方法,其特征在于:所述步骤3包括以下步骤:
步骤3.1:根据处理后的特征数据x′的分布情况将时间序列数据划分为N个状态;
技术研发人员:刘洋,郑泉,
申请(专利权)人:睿驰达新能源汽车科技北京有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。