A method, apparatus, attribute recognition card and computer readable medium system. The method comprises identifying cardholder attributes: consumer cardholder data acquisition corresponding to the cardholder data corresponding to the consumer; based on the characteristics of any statistical calculation of any index of any dimension of value, until the traversal of all default feature statistics obtained corresponding to all default index all default dimension values of the first generation the characteristic value of consumption data file; the first eigenvalue of consumption data files and machine learning model based on real property identification of the cardholder. The application of the above scheme can improve the accuracy and coverage of the cardholder's attribute recognition.
【技术实现步骤摘要】
识别持卡人属性的方法、装置、计算机可读介质及系统
本专利技术涉及数据处理领域,尤其涉及一种识别持卡人属性的方法、装置、计算机可读存储介质及系统。
技术介绍
随着电子商务的普及,经常需要基于消费数据识别持卡人的属性(例如,属性、年龄段等),并针对不同属性的人群提供不同的解决方案,从而满足不同属性的人群需求。而目前直接通过持卡人的消费数据所属的行业识别其属性的方案,虽然简单易行,但是存在准确率低、覆盖率低的问题,尤其如果持卡人只在餐饮等并无属性倾向的行业消费,则完全无法根据消费数据判断持卡人的属性。
技术实现思路
本专利技术解决的技术问题是如何提升持卡人属性识别的准确率和覆盖率。为解决上述技术问题,本专利技术实施例提供一种识别持卡人的属性的方法,所述方法包括:获取持卡人对应的消费数据;基于持卡人对应的消费数据,计算任一维度下的任一指标的任一特征统计值,直至遍历得到所有预设的维度下的所有预设的指标所对应的所有预设的特征统计值,生成第一消费数据特征值文件;基于第一消费数据特征值文件和机器学习模型,识别所述持卡人的真实属性。可选地,所述机器学习模型的建立方法包括:获取已明确标记 ...
【技术保护点】
一种识别持卡人属性的方法,其特征在于,包括:获取持卡人对应的消费数据;基于持卡人对应的消费数据,计算任一维度下的任一指标的任一特征统计值,直至遍历得到所有预设的维度下的所有预设的指标所对应的所有预设的特征统计值,生成第一消费数据特征值文件;基于第一消费数据特征值文件和机器学习模型,识别所述持卡人的真实属性。
【技术特征摘要】
1.一种识别持卡人属性的方法,其特征在于,包括:获取持卡人对应的消费数据;基于持卡人对应的消费数据,计算任一维度下的任一指标的任一特征统计值,直至遍历得到所有预设的维度下的所有预设的指标所对应的所有预设的特征统计值,生成第一消费数据特征值文件;基于第一消费数据特征值文件和机器学习模型,识别所述持卡人的真实属性。2.根据权利要求1所述的识别持卡人属性的方法,其特征在于,所述机器学习模型的建立方法包括:获取已明确标记真实属性的持卡人的样本消费数据;基于已明确标记真实属性的持卡人的样本消费数据,计算任一维度下的任一指标的任一特征统计值,直至遍历得到所有预设的维度下的所有预设的指标所对应的所有预设的特征统计值,生成第二消费数据特征值文件;对第二消费数据特征值文件中的特征值进行过滤,生成第二消费数据有效特征值文件;基于第二消费数据有效特征值文件,利用机器学习算法,建立机器学习模型。3.根据权利要求2所述的识别持卡人属性的方法,其特征在于,所述对第二消费数据特征值文件中的特征值进行过滤,包括:第一级过滤,去除无用和重复特征值;第二级过滤,去除无关联特征值。4.根据权利要求3所述的识别持卡人属性的方法,其特征在于,所述第一级过滤包括:利用皮尔森相关系数,计算所述特征值与真实属性的相关系数,去除相关系数小于预设的相关系数第一门限的特征值;计算任两个特征值的相关系数,当任两个特征值的相关系数高于预设的相关系数第二门限时,去除参与计算的任一特征值。5.根据权利要求3所述的识别持卡人属性的方法,其特征在于,所述第二级过滤包括:利用卡方检验方法,计算每一个特征值与真实属性的关联性,去除无关联的特征值;利用机器学习算法,评估多个特征值与真实属性的关联性,去除无关联的特征值。6.根据权利要求2或5所述的识别持卡人属性的方法,其特征在于,所述机器学习算法,包括以下至少一种:回归算法、SVM算法、决策树算法、随机森林算法和Xgboost算法。7.根据权利要求1或2所述的识别持卡人属性的方法,其特征在于,所述预设的维度包括以下至少一种:年份、月份、星期、小时、行业大类、交易渠道、省份和商户。8.根据权利要求1或2所述的识别持卡人属性的方法,其特征在于,所述预设的指标包括以下至少一种:天数、次数、金额、MCC个数、单次平均消费价格、每天平均消费价格、每天平均消费次数、MCC平均消费次数、MCC平均消费金额、MCC平均消费天数、城市个数、城市平均消费次数、城市平均消费金额、城市平均消费天数、年数、月数、年平均消费天数、年平均消费次数、年平均消费金额、年平均消费月数、月平均消费金额、月平均消费天数、月平均消费次数、月平均消费天数、商户关键字。9.根据权利要求1或2所述的识别持卡人属性的方法,其特征在于,所述预设的特征统计值包括以下至少一种:最大值、最小值、中值、计数值、求和值、平均值、标准差、排序值。10.根据权利要求1所述的识别持卡人属性的方法,其特征在于,还包括:按照所识别的所述持卡人的真实属性,将所述持卡人分组,其中第t组人群为标记为第t属性的人群,1≤t≤T,T为真实属性的总个数,T≥1,t为其中任意一个真实属性;针对每一组人群,基于预设的概率图模型,对所述持卡人对应的消费数据进行处理,识别得到所述持卡人的消费属性。11.根据权利要求10所述的识别持卡人属性的方法,其特征在于,所述基于预设的概率图模型,对所获取的持卡人对应的消费数据进行处理,识别得到所述持卡人的消费属性,包括:选取预设的有倾向属性的商户并标记倾向属性,迭代执行如下步骤,直至达到预设的停止迭代的条件:按照标记了倾向属性的商户的倾向属性,标记其所对应的持卡人的消费属性;按照标注了消费属性的持卡人的属性,标记其所对应的未标记倾向属性的商户的倾向属性。12.根据权利要求11所述的识别持卡人属性的方法,其特征在于,所述预设的停止迭代的条件包含以下任意一个:达到最大迭代次数、所有持卡人的属性和所有商户的倾向属性均被标注。13.根据权利要求11所述的识别持卡人属性的方法,其特征在于,所述按照标记了倾向属性的商户的倾向属性,标记其所对应的持卡人的消费属性,包括:将倾向属性为第一属性的商户对应的持卡人的消费属性标记值加0,将倾向属性为第二属性的商户对应的持卡人的消费属性标记值加1;计算所述持卡人的消费属性指数为,所述持卡人的消费属性指数等于消费属性标记值与标记的总次数之商;当所述持卡人的消费属性指数小于预设的消费属性指数第一门限,将所述持卡人的消费属性标记为第一属性;当所述持卡人的消费属性指数大于预设的消费属性指数第二门限,将所述持卡人的消费属性标记为第二属性,所述预设的消费属性指数第二门限大于预设的属性指数第一门限。14.根据权利要求11所述的识别持卡人属性的方法,其特征在于,所述按照标注了属性的持卡人的消费属性,标记其所对应的未标记倾向属性的商户的倾向属性,包括:将消费属性为第一属性的持卡人对应的商户的倾向属性标记值加0,将消费属性为第二属性的持卡人对应的商户的倾向属性标记值加1;计算所述商户的倾向属性指数,所述商户的倾向属性指数等于倾向属性标记值与标记的总次数之商;当所述商户的倾向属性指数小于预设的倾向属性指数第一门限,将所述商户的倾向属性标记为第一属性;当所述商户的倾向属性指数大于预设的倾向属性指数第二门限,将所述商户的倾向属性标记为第二属性,所欲预设的倾向属性指数第二门限大于预设的倾向属性指数第一门限。15.根据权利要求11所述的识别持卡人属性的方法,其特征在于,所述按照标记了倾向属性的商户的倾向属性,标记其所对应的持卡人的消费属性,包括:将倾向属性为第m属性的商户对应的持卡人的第m消费属性标记值加1,直至遍历所有标记了倾向属性的商户对应的所有持卡人,1≤m≤M,其中:M为倾向属性的总个数,M≥1;m为其中任意一个倾向属性;依次计算所述持卡人的所有消费属性指数,其中第m消费属性指数等于第m消费属性标记值与标记的总次数之商;当所述持卡人的第m消费属性指数大于预设的消费属性指数第三门限时,将所述持卡人的消费属性标记为第m属性。16.根据权利要求11所述的识别持卡人属性的方法,其特征在于,所述按照标注了属性的持卡人的消费属性,标记其所对应的未标记倾向属性的商户的倾向属性,包括:将消费属性为第n属性的持卡人对应的商户的第n倾向属性标记值加1,直至遍历所有标记了消费属性的持卡人对应的所有商户,1≤n≤N,其中:N为消费属性的总个数,N≥1;n为其中任意一个消费属性;依次计算所述商户的所有倾向属性指数,其中第n倾向属性指数等于第n倾向属性标记值与标记的总次数之商;当所述商户的第n倾向属性指数大于预设的倾向属性指数第三门限时,将所述商户的倾向属性标记为第n属性。17.根据权利要求1所述的识别持卡人属性的方法,其特征在于,所述持卡人属性包括以下任意一种:年龄段、性别。18.一种识别持卡人属性的装置,其特征在于,包括:获取单元,适于获取持卡人对应的消费数据;计算单元,适于基于持卡人对应的消费数据,计算任一维度下的任一指标的任一特征统计值,直至遍历得到所有预设的维度下的所有预设的指标所对应的所有预设的特征统计值,生成第一消费数据特征值文件;第一识别单元,适于基于第一消费数据特征值文...
【专利技术属性】
技术研发人员:龙凯,赵相龙,张森,王晗,
申请(专利权)人:银联智惠信息服务上海有限公司,
类型:发明
国别省市:上海,31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。