当前位置: 首页 > 专利查询>之江实验室专利>正文

一种基于车险场景的半自动化特征工程方法技术

技术编号:39816517 阅读:9 留言:0更新日期:2023-12-22 19:35
本申请涉及一种基于车险场景的半自动化特征工程方法

【技术实现步骤摘要】
一种基于车险场景的半自动化特征工程方法、系统和介质


[0001]本申请涉及数据处理
,特别是涉及一种基于车险场景的半自动化特征工程方法

系统和介质


技术介绍

[0002]车险行业的数据以结构化数据为主,不同保险公司的车险数据格式不统一,数据形式以多张表为主,不同数据表之间互相独立存储

如何通过特征工程生成高质量的用于机器学习和深度模型的特征,也成了关键的一步

[0003]目前已有的自动化特征工程方法大多针对单表数据集,且不具备字段自动分类功能,或字段自动分类效果差

而对于车险场景下的多表数据集,如何通过特征工程将多张数据表生成符合模型的输入特征,以实现车险事件的有效识别,目前尚未提出有效的解决方案


技术实现思路

[0004]基于此,有必要针对上述技术问题,提供一种基于车险场景的半自动化特征工程方法

系统和介质

[0005]第一方面,本申请实施例提供了一种基于车险场景的半自动化特征工程方法,所述方法包括:获取各数据表中各字段的统计特征;其中,所述数据表包括一张主表和多张从表;根据各所述数据表中各字段的统计特征和字段信息对各所述字段进行分类,得到各所述字段对应的字段类型,并基于所述字段类型确定对应的特征衍生策略以及特征聚合策略;基于所述字段类型,生成各所述数据表之间的表连接关系;基于所述特征衍生策略对各所述数据表中的字段进行特征衍生,得到衍生特征;并基于所述表连接关系以及所述特征聚合策略将各所述从表中的原始特征和所述衍生特征聚合到所述主表上,得到聚合后的主表;基于所述字段类型对所述聚合后的主表中的特征进行预处理,将预处理后的特征输入至模型中进行训练,获得识别模型;基于所述识别模型对数据表记录的车险事件进行识别,获得识别结果

[0006]在其中一个实施例中,所述基于所述表连接关系以及所述特征聚合策略将各所述从表中的原始特征和所述衍生特征聚合到所述主表上,得到聚合后的主表包括:基于所述表连接关系,确定当前从表所对应的上一层数据表;基于所述上一层数据表和所述特征聚合策略对所述当前从表的所有特征进行特征聚合,生成所述当前从表的聚合特征;将所述当前从表的聚合特征与所述上一层数据表的原始特征和所述衍生特征进行拼接;并判断所述上一层数据表是否为主表,直至所述上一层数据表为所述主表,得到聚
合后的主表

[0007]在其中一个实施例中,所述基于所述上一层数据表和所述特征聚合策略对所述当前从表的所有特征进行特征聚合,生成所述当前从表的聚合特征包括:基于所述表连接关系,确定所述上一层数据表中唯一
ID
字段对应的所述当前从表中的多行记录;基于所述特征聚合策略对各字段的所述多行记录进行聚合,获得所述上一层数据表中唯一
ID
对应的一行记录,生成所述当前从表的聚合特征

[0008]在其中一个实施例中,所述字段类型包括:
ID


分类对象类

数值类

日期类

文本类

布尔类;基于所述字段类型生成对应的特征衍生策略包括:对
ID
类字段进行判断,生成布尔类字段;对分类对象类字段进行判断,生成布尔类字段;以及统计各分类对象出现的次数,生成数值类字段;对数值类字段进行算术运算,生成数值类字段;对日期类字段进行信息提取,生成数值类字段;以及对日期类字段进行判断,生成布尔类字段;对文本类字段进行信息提取,生成分类对象类字段;对布尔类字段进行布尔运算,生成布尔类字段

[0009]在其中一个实施例中,基于所述字段类型生成对应的特征聚合策略包括:若所述字段类型为分类对象类

数值类或日期类,则对所述多行记录中各字段进行统计,得到所述上一层数据表中唯一
ID
对应的一行记录,生成所述当前从表的聚合特征;若所述字段类型为布尔类,则对所述多行记录中各字段进行布尔运算,得到所述上一层数据表中唯一
ID
对应的一行记录,生成所述当前从表的聚合特征

[0010]在其中一个实施例中,所述基于所述字段类型,生成各所述数据表之间的表连接关系包括:获取各所述数据表中的唯一
ID
类字段;基于各所述数据表中唯一
ID
类字段将各所述数据表进行连接,生成各所述数据表之间的表连接关系

[0011]在其中一个实施例中,所述基于所述字段类型对所述聚合后的主表中的特征进行预处理包括:对分类对象类字段和布尔类字段进行编码处理;对数值类字段进行归一化处理;对日期类字段和文本类字段进行剔除

[0012]第二方面,本申请实施例还提供了一种基于车险场景的半自动化特征工程系统,所述系统包括:统计模块,用于获取各数据表中各字段的统计特征;其中,所述数据表包括一张主表和多张从表;分类模块,用于根据各所述数据表中各字段的统计特征和字段信息对各所述字段进行分类,得到各所述字段对应的字段类型,并基于所述字段类型确定对应的特征衍生策略以及特征聚合策略;
生成模块,用于基于所述字段类型,生成各所述数据表之间的表连接关系;聚合模块,用于基于所述特征衍生策略对各所述数据表中的字段进行特征衍生,得到衍生特征;并基于所述表连接关系以及所述特征聚合策略将各所述从表中的原始特征和所述衍生特征聚合到所述主表上,得到聚合后的主表;处理模块,用于基于所述字段类型对所述聚合后的主表中的特征进行预处理,将预处理后的特征输入至模型中进行训练,获得识别模型;基于所述识别模型对数据表记录的车险事件进行识别,获得识别结果

[0013]第三方面,本申请实施例还提供了一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行如上述第一方面所述的方法

[0014]第四方面,本申请实施例还提供了一种存储介质,所述存储介质中存储有计算机程序,其中,所述计算机程序被处理器执行时实现如上述第一方面所述的方法

[0015]上述基于车险场景的半自动化特征工程方法

系统和介质,通过获取各数据表中各字段的统计特征;其中,所述数据表包括一张主表和多张从表;根据各所述数据表中各字段的统计特征和字段信息对各所述字段进行分类,得到各所述字段对应的字段类型,并基于所述字段类型确定对应的特征衍生策略以及特征聚合策略;基于所述字段类型,生成各所述数据表之间的表连接关系;基于所述特征衍生策略对各所述数据表中的字段进行特征衍生,得到衍生特征;并基于所述表连接关系以及所述特征聚合策略将各所述从表中的原始特征和所述衍生特征聚合到所述主表上,得到聚合后的主表;基于所述字段类型对所述聚合后的主表中的特征进行预处理,将预处理后的特征输入至模型中进本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种基于车险场景的半自动化特征工程方法,其特征在于,所述方法包括:获取各数据表中各字段的统计特征;其中,所述数据表包括一张主表和多张从表;根据各所述数据表中各字段的统计特征和字段信息对各所述字段进行分类,得到各所述字段对应的字段类型,并基于所述字段类型确定对应的特征衍生策略以及特征聚合策略;基于所述字段类型,生成各所述数据表之间的表连接关系;基于所述特征衍生策略对各所述数据表中的字段进行特征衍生,得到衍生特征;并基于所述表连接关系以及所述特征聚合策略将各所述从表中的原始特征和所述衍生特征聚合到所述主表上,得到聚合后的主表;基于所述字段类型对所述聚合后的主表中的特征进行预处理,将预处理后的特征输入至模型中进行训练,获得识别模型;基于所述识别模型对数据表记录的车险事件进行识别,获得识别结果
。2.
根据权利要求1所述的方法,其特征在于,所述基于所述表连接关系以及所述特征聚合策略将各所述从表中的原始特征和所述衍生特征聚合到所述主表上,得到聚合后的主表包括:基于所述表连接关系,确定当前从表所对应的上一层数据表;基于所述上一层数据表和所述特征聚合策略对所述当前从表的所有特征进行特征聚合,生成所述当前从表的聚合特征;将所述当前从表的聚合特征与所述上一层数据表的原始特征和所述衍生特征进行拼接;并判断所述上一层数据表是否为主表,直至所述上一层数据表为所述主表,得到聚合后的主表
。3.
根据权利要求2所述的方法,其特征在于,所述基于所述上一层数据表和所述特征聚合策略对所述当前从表的所有特征进行特征聚合,生成所述当前从表的聚合特征包括:基于所述表连接关系,确定所述上一层数据表中唯一
ID
字段对应的所述当前从表中的多行记录;基于所述特征聚合策略对各字段的所述多行记录进行聚合,获得所述上一层数据表中唯一
ID
对应的一行记录,生成所述当前从表的聚合特征
。4.
根据权利要求1所述的方法,其特征在于,所述字段类型包括:
ID


分类对象类

数值类

日期类

文本类

布尔类;基于所述字段类型生成对应的特征衍生策略包括:对
ID
类字段进行判断,生成布尔类字段;对分类对象类字段进行判断,生成布尔类字段;以及统计各分类对象出现的次数,生成数值类字段;对数值类字段进行算术运算,生成数值类字段;对日期类字段进行信息提取,生成数值类字段;以及对日期类字段进行判断,生成布尔类字段;对文...

【专利技术属性】
技术研发人员:董今妮陈奎那崇宁
申请(专利权)人:之江实验室
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1