一种带有马尔可夫链数据处理的汽车风险用户筛查方法技术

技术编号:26971859 阅读:32 留言:0更新日期:2021-01-06 00:03
本发明专利技术公开一种带有马尔可夫链数据处理的汽车风险用户筛查方法,属于汽车风险用户分类技术领域,该方法获取用户行程中的数据属性,并获取数据的经纬度和时间,对数据进行清洗与整合;根据时间和空间将数据划分为小区域,提取每个区域的数据特征;将每个区域处理后的数据映射成马尔科夫链的数据格式,获得状态转移矩阵;将所提取特征应用到卷积神经网络模型训练分类器,利用交叉熵损失更新网络参数。本发明专利技术解决了如何从众多特征中提取对分类最有效特征的问题,同时实现了特征空间维度的转变,获取了一组具有同类样本的不变性、不同样本的鉴别性的分类特征。

【技术实现步骤摘要】
一种带有马尔可夫链数据处理的汽车风险用户筛查方法
本专利技术涉及汽车风险用户分类
,尤其涉及一种带有马尔可夫链数据处理的汽车风险用户筛查方法。
技术介绍
随着人工智能这一科技成果的不断发展,深度学习分类神经网络迁移到各个研究领域,人工智能给人类带来的实际价值成为众多科研工作者努力的方向;例如将分类网络应用到汽车行业的高低风险用户筛查方面,成为汽车行业更好地服务于用户的重要辅助工具和参考信息。由于汽车高低风险用户筛查的数据来自车辆驾驶系统,其提供的数据量不仅巨大,还具有大量的噪声,同时数据的辨识度低,可用的数据属性之间存在较大差异,给网络训练带来困难。随着网络的加深,容易导致过拟合,导致网络模型无法收敛。目前,马尔科夫链作为解释时间进程的概念,广泛应用于语音识别、文本识别、路径辨识等人工智能领域;或是在金融领域,其被用于预测企业产品的市场占有率,或是作为信号模型用于熵编码技术等等,但其都成为主方法用以解决各种问题。在汽车风险用户筛查方面暂时还没有马尔科夫链的相关应用,以解决数据的预处理问题,来加强汽车风险用户筛查的准确性。
技术实现思路
针对上述现有技术的不足,本专利技术提供带有马尔可夫链数据处理的汽车风险用户筛查方法。为解决上述技术问题,本专利技术所采取的技术方案是:一种带有马尔可夫链数据处理的汽车风险用户筛查方法,包括如下步骤:步骤1:从数据库中读取驾驶行为相关数据,根据GPS获取的经纬度和数据采集时间,对数据进行预处理,提升数据的置信度和可靠性,过程如下:步骤1.1:检查数据中是否存在重复数据,若包含,只保留一条数据;步骤1.2:对缺失数据进行删除元组、0值和平均值填充、K最近邻距离法填充的操作;步骤1.3:依据各城市的经纬度,将不在各城市范围内的数据视为异常数据,依据实际情况采用逐步向后删除、均值剔除和逻辑错误删除的其中一种统计方法进行数据清洗;步骤1.4:依据卫星定位技术对定位精度的影响,将少于数据量阈值数的数据视为无效数据,再重新进行数据清洗处理。步骤2:针对各个城市的具体位置信息,根据经纬度和时间数据进行网格化划分,对每个小区域每个时间段的驾驶行为中车辆运行数据统计,并做数据处理,过程如下:步骤2.1:选取某一城市,对不同采集时间的所有数据进行合并处理,并根据经纬度画出散点图,观察汽车的驾驶分布状况,根据散点图密集程度设置城市网格划分标准,得出其不同划分标准情况下的区域网格大小;步骤2.1.1:假设该城市的最大、最小经度分别为max(X)、min(X),最大、最小纬度分别为max(Y)、min(Y),设置城市划分网格的边长为ri(i=1,2,3,…,m),其中m表示划分网格有m种可能性标准,则该城市在经纬度上划分的网格个数分别为:其中,nlength,i表示第i种可能性划分标准下经度划分的网格个数,nwidth,i表示第i种可能性划分标准下纬度划分的网格个数;步骤2.1.2:将不同可能性划分标准下各区域车辆运行数据的方差相加,依据最小方差法,在不同可能性划分标准中确定方差最小的为最优网格划分标准;或者根据小区域内的方差进行投票法进行调整,以避免出现大量的无数据区域;步骤2.2.:在已划分好的空间小区域中,根据是否是路段高峰时间点将其划分为M个时间段;步骤2.3:在已划分好的每个小区域的每个时间段中,对数据进行均值和方差统计,并在此基础上进行数据计算:其中,与σijk分别是该城市第i行第j列网格第k个时间段中数据的均值和方差,xk为该网格k时间段未经处理的数据,x′k是该网格k时间段处理后的数据。步骤3:根据处理后的特征数据将时间序列数据划分为若干个状态,确定出不带倾向性的被测量分布的区间划分形式,统计数据在划分区间内的状态转移情况和状态转移矩阵,过程如下:步骤3.1:根据处理后的特征数据x′的分布情况将时间序列数据划分为N个状态;所述状态的划分为等间隔划分或者依据实际分布情况进行非等间隔的划分;步骤3.2:根据状态的上下边界将经网格化处理后的数据进行数据到状态的转换x(i)→s(i),i=1,2,…,并生成马尔科夫链;其中,x(i)为i时刻经网格化处理后的数据,s(i)为i时刻的状态;步骤3.2.1:假设状态的上下边界分别为B和A,则状态间的间隔为:步骤3.2.2:当x(i)∈[A+(k-1)Δ,A+kΔ]时,s(i)=k,k=1,2,…,N,如此操作就将每一时间点对应的特征数据变换为[1,2,…,N]之间的状态数据,同时具有了马尔科夫链的性质,故全部状态信息s(i)组成的数据集合就是一个马尔科夫链;步骤3.3:统计各状态s(i)的转移情况,提取马尔科夫特征;步骤3.3.1:定义马尔科夫特征即各状态时的转移情况,状态i向上、向下转移次数记为状态i的保持次数为ki,和ki的计算公式为:其中s(j)表示j时刻的状态,s(j+1)表示j+1时刻的状态,L表示数据点数;步骤3.4:根据提取的和ki,计算状态转移概率和状态转移矩阵,过程如下:步骤3.4.1:状态为i=1时,对应的状态转移概率及状态保留概率为:其中,p1,1为从状态1转移到状态1的概率,p1,2为从状态1转移到状态2的概率;步骤3.4.2:当状态为1<i<N时,对应的状态转移概率及状态保留概率为:其中,pi,i-1为从状态i-1转移到状态i的概率,pi,i为从状态i转移到状态i的概率,pi,i+1为从状态i转移到状态i+1的概率;步骤3.4.3:当状态为i=N时,对应的状态转移概率及状态保留概率为:其中,pN,N-1为从状态N转移到状态N-1的概率,pN,N为状态N转移到状态N的概率;步骤3.4.4:状态转移矩阵可以表示为:步骤4:预处理状态转移情况和状态转移矩阵,结合未经马尔科夫链处理的部分特征,共同组成数据特征,用于分类神经网络输入,过程如下:步骤4.1:将部分未经马尔科夫链处理的数据扭矩,功率进行标准化处理后,结合状态转移矩阵,共同组成高低风险用户筛查神经网络的特征向量;步骤4.2:采用S折交叉验证模型随机选取75%数据制作成训练集,25%数据制作测试集。步骤5:训练阶段利用深度卷积神经网络压缩特征大小,丰富特征维度,提取主要特征,将特征网络最后一层输出的特征向量输入到全连接层,并经过softmax归一化后得到用户高低风险的分类结果,过程如下:步骤5.1:神经网络的三层卷积层利用具有多种特征维度的共享参数的卷积核对特征向量进行局部特征提取合并,标准卷积输出矩阵Y=(yij)可由输入特征矩阵X=(xij)和卷积核矩阵W=(wij)计算得出:其中,m,n是权重矩阵位置坐标,i,j是输入特征矩阵位置坐标,wmn为处于m,n位置的滤波器大小,xi+m,j+n为处于i,j位置要经滤波器处本文档来自技高网...

【技术保护点】
1.一种带有马尔可夫链数据处理的汽车风险用户筛查方法,其特征在于,包括如下步骤:/n步骤1:从数据库中读取驾驶行为相关数据,根据GPS获取的经纬度和数据采集时间,对数据进行预处理,提升数据的置信度和可靠性;/n步骤2:针对各个城市的具体位置信息,根据经纬度和时间数据进行网格化划分,对每个小区域每个时间段的驾驶行为中车辆运行数据统计,并做数据处理;/n步骤3:根据处理后的特征数据将时间序列数据划分为若干个状态,确定出不带倾向性的被测量分布的区间划分形式,统计数据在划分区间内的状态转移情况和状态转移矩阵;/n步骤4:预处理状态转移情况和状态转移矩阵,结合未经马尔科夫链处理的部分特征,共同组成数据特征,用于分类神经网络输入;/n步骤5:训练阶段利用深度卷积神经网络压缩特征大小,丰富特征维度,提取主要特征,将特征网络最后一层输出的特征向量输入到全连接层,并经过softmax归一化后得到用户高低风险的分类结果;/n步骤6:计算交叉熵损失,通过随机梯度下降来最小化损失函数,从而更新网络模型参数,实现更好的高低风险用户筛查效果。/n

【技术特征摘要】
1.一种带有马尔可夫链数据处理的汽车风险用户筛查方法,其特征在于,包括如下步骤:
步骤1:从数据库中读取驾驶行为相关数据,根据GPS获取的经纬度和数据采集时间,对数据进行预处理,提升数据的置信度和可靠性;
步骤2:针对各个城市的具体位置信息,根据经纬度和时间数据进行网格化划分,对每个小区域每个时间段的驾驶行为中车辆运行数据统计,并做数据处理;
步骤3:根据处理后的特征数据将时间序列数据划分为若干个状态,确定出不带倾向性的被测量分布的区间划分形式,统计数据在划分区间内的状态转移情况和状态转移矩阵;
步骤4:预处理状态转移情况和状态转移矩阵,结合未经马尔科夫链处理的部分特征,共同组成数据特征,用于分类神经网络输入;
步骤5:训练阶段利用深度卷积神经网络压缩特征大小,丰富特征维度,提取主要特征,将特征网络最后一层输出的特征向量输入到全连接层,并经过softmax归一化后得到用户高低风险的分类结果;
步骤6:计算交叉熵损失,通过随机梯度下降来最小化损失函数,从而更新网络模型参数,实现更好的高低风险用户筛查效果。


2.根据权利要求1所述的带有马尔可夫链数据处理的汽车风险用户筛查方法,其特征在于:所述步骤1包括以下步骤:
步骤1.1:检查数据中是否存在重复数据,若包含,只保留一条数据;
步骤1.2:对缺失数据进行删除元组、0值和平均值填充、K最近邻距离法填充的操作;
步骤1.3:依据各城市的经纬度,将不在各城市范围内的数据视为异常数据,依据实际情况采用逐步向后删除、均值剔除和逻辑错误删除的其中一种统计方法进行数据清洗;
步骤1.4:依据卫星定位技术对定位精度的影响,将少于数据量阈值数的数据视为无效数据,再重新进行数据清洗处理。


3.根据权利要求1所述的带有马尔可夫链数据处理的汽车风险用户筛查方法,其特征在于:所述步骤2包括以下步骤:
步骤2.1:选取某一城市,对不同采集时间的所有数据进行合并处理,并根据经纬度画出散点图,观察汽车的驾驶分布状况,根据散点图密集程度设置城市网格划分标准,得出其不同划分标准情况下的区域网格大小;
步骤2.1.1:假设该城市的最大、最小经度分别为max(X)、min(X),最大、最小纬度分别为max(Y)、min(Y),设置城市划分网格的边长为ri(i=1,2,3,…,m),其中m表示划分网格有m种可能性标准,则该城市在经纬度上划分的网格个数分别为:






其中,nlength,i表示第i种可能性划分标准下经度划分的网格个数,nwidth,i表示第i种可能性划分标准下纬度划分的网格个数;
步骤2.1.2:将不同可能性划分标准下各区域车辆运行数据的方差相加,依据最小方差法,在不同可能性划分标准中确定方差最小的为最优网格划分标准;或者根据小区域内的方差进行投票法进行调整,以避免出现大量的无数据区域;
步骤2.2.:在已划分好的空间小区域中,根据是否是路段高峰时间点将其划分为M个时间段;
步骤2.3:在已划分好的每个小区域的每个时间段中,对数据进行均值和方差统计,并在此基础上进行数据计算:



其中,与σijk分别是该城市第i行第j列网格第k个时间段中数据的均值和方差,xk为该网格k时间段未经处理的数据,x′k是该网格k时间段处理后的数据。


4.根据权利要求1所述的带有马尔可夫链数据处理的汽车风险用户筛查方法,其特征在于:所述步骤3包括以下步骤:
步骤3.1:根据处理后的特征数据x′的分布情况将时间序列数据划分为N个状态;

【专利技术属性】
技术研发人员:刘洋郑泉
申请(专利权)人:睿驰达新能源汽车科技北京有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1