【技术实现步骤摘要】
通话详单数据的特征变量生成方法及装置
本专利技术涉及特征工程
,尤其涉及一种通话详单数据的特征变量生成方法及装置。
技术介绍
随着金融科技的发展,许多机器学习算法开始被用到金融领域,来构建用于自动决策的模型。模型训练需要大量带特征变量的样本。从原始数据生成备用的特征变量的过程就是特征工程。特征工程被认为是建立模型的关键步骤,特征工程的质量通常会直接影响模型效果的好坏。在个人信贷领域,征信机构或部门会使用各种来源的数据,对贷款申请客户的信用进行评价。其中一种常使用到的数据就是客户授权的运营商详单数据。通过特征工程可以从通话记录中生成相关的特征变量,这些特征变量将被用作规则或用来训练模型,以达到反欺诈或信用评估的目的。通话记录包含非常详细的信息,通常包括对方号码(加密)、主被叫类型、开始时间、持续时长、发生地点、通话费用等。大部分现有方案生成的特征变量只关注到其中部分的信息,会忽略一些信息,如通话发生地点、通话费用等。通话记录特征工程的一个关键方法在于对通话记录进行分类,然后再计算相应字段的统计量。如将通话分为主叫和被叫通话,然后分别统计通话数量的计数,得到主叫 ...
【技术保护点】
1.一种通话详单数据的特征变量生成方法,其特征在于,包括:获取原始通话流水数据,并将所述原始通话流水数据进行表格化,得到原始数据表格;对所述原始数据表格进行数据类型和格式验证,确定所述原始数据表格符合要求;在所述原始数据表格上对每次通话执行增加标签操作;按照预设筛选规则筛选所述原始数据表格,得到筛选数据,其中,所述筛选数据包括与所述筛选数据对应的标签;按照预设分组规则对所述筛选数据进行多级分组,得到分组数据,其中,所述分组数据包括分组标签;按照预设统计规则对所述分组数据进行计算,得到特征变量值的直接指标,其中,所述直接指标的完整名称包括时间窗口、多级分类标签、用于统计的列名 ...
【技术特征摘要】
1.一种通话详单数据的特征变量生成方法,其特征在于,包括:获取原始通话流水数据,并将所述原始通话流水数据进行表格化,得到原始数据表格;对所述原始数据表格进行数据类型和格式验证,确定所述原始数据表格符合要求;在所述原始数据表格上对每次通话执行增加标签操作;按照预设筛选规则筛选所述原始数据表格,得到筛选数据,其中,所述筛选数据包括与所述筛选数据对应的标签;按照预设分组规则对所述筛选数据进行多级分组,得到分组数据,其中,所述分组数据包括分组标签;按照预设统计规则对所述分组数据进行计算,得到特征变量值的直接指标,其中,所述直接指标的完整名称包括时间窗口、多级分类标签、用于统计的列名和统计指标名;将所述直接指标中的第n级分组变量与对应第n-1级分组变量的值做比值,得到特征变量值的次生指标,其中,所述次生指标的完整名称为所述直接指标中的第n级分组变量的完整变量名后加上比例后缀,其中,n为分组的总数,n=1,2,3,……,且为自然数;将所述特征变量值的直接指标和所述特征变量值的次生指标横向拼接得到特征宽表。2.根据权利要求1所述的方法,其特征在于,所述原始数据表格包括行和列,每行表示一个客户的一条通话记录,列至少包括通话信息、客户唯一识别编码和贷款申请日期。3.根据权利要求2所述的方法,其特征在于,所述预设筛选规则包括:通话开始时间与贷款申请日期之间的时间距离窗口。4.根据权利要求2所述的方法,其特征在于,所述预设分组规则包括:按照客户、单个标签和多个标签之一或其任意组合进行分组。5.根据权利要求1所述的方法,其特征在于,所述对所述原始数据表格进行数据类型和格式验证,确定所述原始数据表格符合要求包括:对所述原始数据表格进行数据类型和格式验证,确定每一列的数据是预期的数据类型,且符合要求;如果不符合要求,按预设格式转化规则进行格式转化,至符合要求;如果无法转化或转化失败,则提示修改,终止程序。6.一种通话详单数据的特征变量生成装置,其特征在于,包括:表格化模块,用于获取原始通话流水数...
【专利技术属性】
技术研发人员:顾凌云,谢旻旗,段湾,张涛,潘峻,陈悦悌,王存伟,王震宇,赵光琼,周轩,安飞飞,张帅欣,
申请(专利权)人:上海冰鉴信息科技有限公司,
类型:发明
国别省市:上海,31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。