一种结合变长自注意力机制与统计特征的风险评估方法技术

技术编号:37963085 阅读:13 留言:0更新日期:2023-06-30 09:38
本发明专利技术公开了一种结合变长自注意力机制与统计特征的风险评估方法,包括以下步骤,步骤一,对原始未标注的源数据流进行行程切分,剔除gps超过5000个点的行程,步骤二,使用transformer预训练模型进行训练,使用轨迹还原,事故行程预测的预训练任务训练至模型收敛,保存该自监督模型参数,提取模型最后4层的输出特征,将数层特征拼接到一起作为行程特征,步骤三,将行程特征与行程所对应的车辆信息进行拼接,作为模型输入,使用全连接网络进行推理,输出一维驾驶行为得分,与人工专家打分或赔付相关信息进行比对,计算loss,反向传播优化模型参数。本发明专利技术在实施的时候,通过对车辆行程数据的分析以及驾驶行为数据的分析,能够增加评估的准确性。能够增加评估的准确性。能够增加评估的准确性。

【技术实现步骤摘要】
一种结合变长自注意力机制与统计特征的风险评估方法


[0001]本专利技术属于计算机
,具体为一种结合变长自注意力机制与统计特征的风险评估方法。

技术介绍

[0002]相同的驾驶行为对于不同的驾龄、车辆,可能带来不同的风险,单独的两个模型无法实现区分相同驾驶行为,不同人员车辆的属性特征带来的不同风险,或区分相同人员车辆的属性不同驾驶行为带来的不同风险。
[0003]现有技术中,大多是使用单纯轨迹数据或单纯统计特征与人员属性特征,对行车风险进行评估,但单纯轨迹数据较难提取长期统计特征与人员车辆的属性特征;单纯统计特征与人员属性特征难以细致刻画特定的客户画像。

技术实现思路

[0004]针对上述情况,为克服现有技术的缺陷,本专利技术提供一种结合变长自注意力机制与统计特征的风险评估方法,有效的解决了
技术介绍
中的问题。
[0005]为实现上述目的,本专利技术提供如下技术方案:一种结合变长自注意力机制与统计特征的风险评估方法,包括以下步骤,
[0006]步骤一,对原始未标注的源数据流进行行程切分,剔除gps超过5000个点的行程,
[0007]步骤二,使用transformer预训练模型进行训练,使用轨迹还原,事故行程预测的预训练任务训练至模型收敛,保存该自监督模型参数,提取模型最后4层的输出特征,将数层特征拼接到一起作为行程特征,
[0008]步骤三,将行程特征与行程所对应的车辆信息进行拼接,作为模型输入,使用全连接网络进行推理,输出一维驾驶行为得分,与人工专家打分或赔付相关信息进行比对,计算loss,反向传播优化模型参数,
[0009]步骤四,重复步骤二与步骤三至模型收敛。
[0010]优选的,所述步骤一具体包括以下步骤:
[0011]步骤101,将原始未标注的源数据进行归纳,并将其输入到预处理程序中,
[0012]步骤102,预处理程序能够对gps超过5000个点的行程进行剔除,得到数据库一,
[0013]步骤103,数据库一中的数据再次被预处理程序进行处理,将其切分成预定长度的数据点,以构成数据库二。
[0014]优选的,所述步骤103中,当切割后的数据长度小于预定长度时,使用0数据作为补充,以使得每段数据的长度均相同。
[0015]优选的,对数据库二中的数据随机抽取部分进行标记,标记完成后,将标记数据中的30%使用0数据进行替换,30%数据使用该形成均值进行替换,40%的数据不变。
[0016]优选的,抽取数据库中的50%

70%进行标记。
[0017]与现有技术相比,本专利技术的有益效果是:
[0018]本专利技术在实施的时候,通过对车辆行程数据的分析以及驾驶行为数据的分析,能够增加评估的准确性。
附图说明
[0019]附图用来提供对本专利技术的进一步理解,并且构成说明书的一部分,与本专利技术的实施例一起用于解释本专利技术,并不构成对本专利技术的限制。在附图中:
[0020]图1为本专利技术的结构示意图。
具体实施方式
[0021]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例;基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0022]由图1给出,本专利技术公开了一种结合变长自注意力机制与统计特征的风险评估方法,有效的解决了
技术介绍
中的问题。
[0023]为实现上述目的,本专利技术提供如下技术方案:一种结合变长自注意力机制与统计特征的风险评估方法,
[0024]步骤一,对原始未标注的源数据流进行行程切分,剔除gps超过5000个点的行程,对于gps超过5000个点的行程数据,其不具有代表性,在模型训练时,需要将其进行剔除,从而保证了本方法的评估结果,
[0025]步骤二,使用transformer预训练模型进行训练,使用轨迹还原,事故行程预测的预训练任务训练至模型收敛,保存该自监督模型参数,提取模型最后4层的输出特征,将数层特征拼接到一起作为行程特征,此步骤的目的在于,对行程数据进行分析,以判断行程数据对行车风险的影响,
[0026]步骤三,将行程特征与行程所对应的车辆信息进行拼接,作为模型输入,使用全连接网络进行推理,输出一维驾驶行为得分,与人工专家打分或赔付相关信息进行比对,计算loss,反向传播优化模型参数,此步骤的目的在于,对驾驶行为进行分析,以判断驾驶行为对行程风险的影响,
[0027]步骤四,重复步骤二与步骤三至模型收敛,通过不断的对步骤二与步骤三中的数据进行分析优化,能够不断优化模型,从而增加本模型对风险评估的准确性。
[0028]所述步骤一具体包括以下步骤:
[0029]步骤101,将原始未标注的源数据进行归纳,并将其输入到预处理程序中,
[0030]步骤102,预处理程序能够对gps超过5000个点的行程进行剔除,得到数据库一,
[0031]步骤103,数据库一中的数据再次被预处理程序进行处理,将其切分成预定长度的数据点,以构成数据库二。
[0032]所述步骤103中,当切割后的数据长度小于预定长度时,使用0数据作为补充,以使得每段数据的长度均相同,每段数据的长度不相同,例如可以将每段数据的长度分割成50个点,以便后续对模型进行训练。
[0033]对数据库二中的数据随机抽取部分进行标记,标记完成后,将标记数据中的30%
使用0数据进行替换,30%数据使用该形成均值进行替换,40%的数据不变。
[0034]抽取数据库中的50%

70%进行标记,抽取较多的数据会影响数据的还原,而抽取较少的数据,则会影响评估的准确性。
[0035]需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
[0036]尽管已经示出和描述了本专利技术的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本专利技术的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本专利技术的范围由所附权利要求及其等同物限定。
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种结合变长自注意力机制与统计特征的风险评估方法,其特征在于:步骤一,对原始未标注的源数据流进行行程切分,剔除gps超过5000个点的行程,步骤二,使用transformer预训练模型进行训练,使用轨迹还原,事故行程预测的预训练任务训练至模型收敛,保存该自监督模型参数,提取模型最后4层的输出特征,将数层特征拼接到一起作为行程特征,步骤三,将行程特征与行程所对应的车辆信息进行拼接,作为模型输入,使用全连接网络进行推理,输出一维驾驶行为得分,与人工专家打分或赔付相关信息进行比对,计算loss,反向传播优化模型参数,步骤四,重复步骤二与步骤三至模型收敛。2.根据权利要求1所述的一种结合变长自注意力机制与统计特征的风险评估方法,其特征在于:所述步骤一具体包括以下步骤:步骤101,将原始未标注的源数据进行归纳,并将其输入到预处理程序中,步骤102...

【专利技术属性】
技术研发人员:鲁鑫
申请(专利权)人:北京宏瓴科技发展有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1