【技术实现步骤摘要】
特征衍生方法、装置、计算机设备及介质
[0001]本专利技术涉及数据处理领域,尤其涉及一种特征衍生方法、装置、计算机设备及介质。
技术介绍
[0002]随着人工智能技术的发展,依据现有数据中的特征进行机器学习建立相关模型已非常常见。例如,在第三方支付平台或网络购物平台的风险防控领域,常依据现有的包含风险特征(例如,交易事件数据中的交易金额、交易频率等特征)的数据进行机器学习得到风控模型,以及,对于一些电信诈骗的风险识别模型等。
[0003]针对各种风控模型,不法分子会不断的改进作案手段以避开风险防控,使得风险形式不断发生变化,这就需要不断地对风控模型进行改进,以对未来可能出现的新风险做出有效的防控。然而,现有数据中的风险特征无法代表未来的情况,未来的包含新风险特征的数据还没有产生,因此,需要对现有数据中的风险特征进行学习,衍生得到能够反映未来风险的新风险特征,以对风控模型进行改进。其中,对现有特征进行学习衍生得到新特征的过程叫特征衍生。
[0004]目前,要么依据人工经验进行特征衍生,要么利用穷举的方式进行特 ...
【技术保护点】
【技术特征摘要】
1.一种特征衍生方法,其特征在于,包括:获取基础数据,并按照预设标签类型对所述基础数据进行分类,得到初始类别信息;对每个所述初始类别信息进行缺失值处理,得到基础类别信息,其中,每个基础类别信息至少包括一个基础特征;计算每个基础类别信息的基础特征的稳定度,筛选出稳定度超过预设稳定度阈值的基础特征,作为稳定特征;通过预设的特征排序方式,对所述稳定特征进行重要性排序筛选,得到关键特征序列;根据所述关键特征序列进行特征衍生,得到衍生特征。2.如权利要求1所述的特征衍生方法,其特征在于,所述对每个所述初始类别信息进行缺失值处理,得到基础类别信息包括:针对每个初始类别信息,获取所述初始类别信息中每个基础特征对应的特征值;对所述特征值进行数据校验,将未通过校验的特征值作为缺失值;对每个基础特征对应的缺失值进行统计,并将缺失值与所有特征值的比例超过预设比例的基础特征,作为无效特征,并从所述初始类别信息中移除所述无效特征,得到基础类别信息。3.如权利要求1所述的特征衍生方法,其特征在于,所述计算每个基础类别信息的基础特征的稳定度,筛选出稳定度超过预设稳定度阈值的基础特征,作为稳定特征包括:计算每个基础特征的信息值IV,并根据所述信息值IV进行特征筛选,得到关键特征;通过预设方式,计算所述关键特征的稳定度指标PSI,将所述稳定度指标PSI超过预设稳定度阈值的关键特征,作为稳定特征。4.如权利要求3所述的特征衍生方法,其特征在于,所述基础特征包括连续型的特征,所述计算每个基础特征的信息值IV包括:针对对基础特征中数据类型为连续型的特征,进行分箱处理,将连续型的特征转化为离散型特征;针对所有离散型特征进行独热编码,得到数字化变量;根据数字化变量,计算每个特征对应的信息值IV。5.如权利要求1所述的特征衍生方法,其特征在于,所述特征衍生的方式包括特征组合、特征交叉、图像特征生成和文本特征生成中的至少...
【专利技术属性】
技术研发人员:刘波,
申请(专利权)人:中国平安人寿保险股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。