【技术实现步骤摘要】
一种使用流水数据的量化风险评价系统和方法
本专利技术属于数据处理领域,特别涉及一种使用流水数据的客观信用评价方法及系统。
技术介绍
随着信息技术的迅猛发展,大数据已成为当今世界的重要发展趋势。根据联合国的研究报告,全球的数据存量从2005年的150EB(艾字节)增长到2010年的1200EB,并预计将以40%的年增长率继续增长,2020年将达到2007年的44倍,平均20个月翻一番。1EB等于260B(字节),相当于13亿中国人人手一本500页的书加起来的信息量。我们每天的生活都被大数据包围着,一切行为和事件都以数据形式被记录、存储和处理。小到个人、企业,大到集团、区域、城市,越来越多的行业、部门正在经历大数据浪潮带来的革命性影响。大数据之大,不仅在于其容量大,而是通过数据的挖掘、交换、整合和分析,发现数据背后隐藏的客观信用、投资价值、智慧决策等,从而带来大价值、大知识和大发展。那么,如何来挖掘数据中的价值?传统的分析思维是固化的,其分析基础是资产=负债+所有者权益,分析对象是小数据,即二维、静态的结构化数据及合计数,而大数 ...
【技术保护点】
1.一种使用流水数据的客观信用评价方法,其特征在于,包括如下步骤:/n数据采集步骤:至少以数据挖掘机器人挖掘、政务平台导入和自行填报中的一种采集方法采集评价目标的行为规律型数据,且经至少一种数据入口提交至对应的系统中;/n数据处理步骤:包括目标筛选步骤和数学模型计算步骤,所述目标筛选步骤包括数据清洗、异常值查找、目标分类、数据种类完整度检查;所述数学模型计算步骤包括客观信用评分、额度计算;/n结果输出步骤:所述结果输出包括信用指数、信用额度和明细数据,以及目标监测;所述目标监测步骤包括按一定周期更新信用指数、信用额度和明细数据,并对超出变化阈值的指标或评分项提出预警;/n所 ...
【技术特征摘要】
1.一种使用流水数据的客观信用评价方法,其特征在于,包括如下步骤:
数据采集步骤:至少以数据挖掘机器人挖掘、政务平台导入和自行填报中的一种采集方法采集评价目标的行为规律型数据,且经至少一种数据入口提交至对应的系统中;
数据处理步骤:包括目标筛选步骤和数学模型计算步骤,所述目标筛选步骤包括数据清洗、异常值查找、目标分类、数据种类完整度检查;所述数学模型计算步骤包括客观信用评分、额度计算;
结果输出步骤:所述结果输出包括信用指数、信用额度和明细数据,以及目标监测;所述目标监测步骤包括按一定周期更新信用指数、信用额度和明细数据,并对超出变化阈值的指标或评分项提出预警;
所述数据挖掘机器人采集的数据包括来自电子化交易平台的纵向过程数据,所述纵向过程数据包括订单数据、入库数据、出库数据;所述自行填报的数据包括B2G信息平台采集的行为规律数据,所述行为规律数据包括销售、产品、交易对手、人力、银行流水、税收数据。
2.如权利要求1所述的方法,其特征在于:
数据清洗的方法包括:
过滤掉格式异常数据、数据类型错误数据、数据缺失数据、文件错传数据;
利用数据库对各种结构和非结构化数据自动归纳、分类,从中去除不合规的数据;经过数据清洗的数据已经去除了基本的数据异常,但是还未检验数据中的离群值;
异常值查找的方法包括:
将数据清洗后数据按照稳定性进行第一次分类,得到具有宽数据稳定区间(置信区间宽)的不稳定数据和具有窄稳定区间(置信区间窄)的稳定数据;
将第一次分类后的数据按照数据深度和数据广度进行第二次分类,分类后的数据按照数据深度和数据广度二次分类,按照数据深度分类,得到基础数据(原始数据)、特征指标(重要指标)和模型分析(模型计算出的指标)三类数据;按照数据广度分类,得到过程数据、结果数据、时间序列;
数据标准化(归一化),再基于数据密度、离群值、关联性和模式识别中的至少一种建模方法进行第三次分类,得到有异常值数据和无异常值数据,有异常的数据按照每一种建模方法对数据打分,分数越高的数据越有可能成为异常值;
将所述有异常值数据进行重复异常结果排序、筛选(多种模型结果的交、并),按照异常值算法的有效性检验;设定异常警戒参数后还原数据;将还原数据在有限的人工干预下主观排查后标记异常,得到形成特征数据;
将所述无异常值数据和所述特征数据,按照半监督的异常值查找方法,得到精确度曲线标记特征,作为监督数据进入数据库;
目标分类对异常查找后的目标对象划分多种类型,每种类型对应一种或多种特征点,每种类型的目标侧重的数据类型不同,最后按照分类后的特征点给出对应权重,进行数据种类完整度计算;按照不同类型目标的关注度不同,为每一种类型的目标确定核心数据,该核心数据提炼出数据种类完整度、指数、额度的权重较大的特征点;例如以脑力密集型为主的科技型企业人力数据反映了企业的未来发展,销售数据反映其产品的市场认可,这两种数据为其核心数据,从中提炼出科技型企业的人力流动,销售金额等特征,将其归类到对应数据库中,得出该企业的发展轨迹、现状和前景;同时,按照类型分类后的数据按照结果数据和过程数据的相关性再次进行异常值检查;
数据种类完整度检查数据种类完整度在三个维度展开,种类完整度按照行为规律型分为销售、流水、人力、能耗等,数据种类越多,评分越高;每一类型的目标不同种类的数据对应不同的权重(机器给出),给出权重越高的数据类型,得分越高;例如科技型企业人力和销售的权重较高,缺少这一项,得分会比少给银行流水低很多;历史完整度依据提供数据的历史时间给出,历史数据越长,完整度评分越高;给出的数据越新,完整度评分越高;颗粒度中,明细数据种类完整度越高,年度数据种类完整度最低。
3.如权利要求2所述的方法,其特征在于:所述异常值查找的方法还包括:针对数值型的数据,当具有充分的数据与先验统计分布知识时,选取标准的统计分布检测法识别异常值;当数据量的规模较小时,选择密度模型法识别异常值;当数据量充足,而缺少先验统计分布知识时,选取数据簇模型识别异常值;当数据具有明确的时间先后顺序特征,并满足稳态序列判断标准条件,选取基于时间序列原理的模型识别异常值;针对非数值型的数据,由于字符变量,主要分析类型数据相互之间的关联度,以及各项集出现的频繁度的差异性;
优选的检验方法如下:
1)密度检测法,当数据量不充分时使用异常;
2)时间序列检测法,当数据具有明确的时间顺序特征,且满足时间序列稳定性要求时,利用时间序列原理识别数据序列中的异常值;
3)AVF检测法,根据分类属性值的频繁程度识别字符型。
4.如权利要求1所述的方法,其特征在于,所述数据种类完整度检查包括种类检查、历史、颗粒度检查,通过机器挖掘权重,其中种类检查公式表示为:
其中,m表示数据类型的总数(例如总共有七种数据类型,m=7);x表示数据类型的种类;(例如x(销售记录)=3,x(银行流水)=4,x(工资记录)=5,x(应收账款)=6,x(用电)=7,x(用水)=8,x(房产+土地)=9,x(车辆+其他固定资产)=10)缺失数据法计算公式为:
F(X)最终=F(X)总-F(X)缺失式2
其中,F(X)最终表示数据种类完整度的最终得分;F(X)总为填报数据种类计算结果;F(X)缺失表示未填报数据种类计算结果。
5.如权利要求4所述的方法,其特征在于,历史数据的所述数据完整度计算:
对每一种数...
【专利技术属性】
技术研发人员:朱志伟,刘炳文,
申请(专利权)人:金电联行北京信息技术有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。