【技术实现步骤摘要】
一种基于数据挖掘的企业融资基金匹配方法
[0001]本专利技术涉及数据挖掘
,尤其涉及一种基于数据挖掘的企业融资基金匹配方法。
技术介绍
[0002]伴随着企业间合作行为、企业经营行为日益丰富,企业作为经济实体,在寻求合作与融资时需要丰富的企业信息作为参考。随着企业数量以及交易信息数据的增长,其产生的数据量也越来越多,并且每年呈指数级增长。随着大数据信息时代的到来以及大数据处理技术的日益发展,我们可以从海量冗杂的企业活动数据中挖掘有价值的数据,帮助券商、基金公司等投资方挖掘和计算企业全方位的信息,包括发现和挖掘企业之间的关联关系,找寻未知关系以促进企业合作,识别企业资本行为,构造企业风险评估模型等。通过数据挖掘技术自动形成企业融资信用标签与基金公司需求进行匹配,能够显著降低基金公司的服务成本、缩短服务时间、提升服务覆盖面,进而促进更多优质的中小企业获得融资。
[0003]对于企业画像来说,就是把企业信息标签化,利用大数据技术对税务系统、纳税人第三方的数据进行分析的基础上为企业建立标签模型体系,将企业的具体行为属 ...
【技术保护点】
【技术特征摘要】
1.一种基于数据挖掘的企业融资基金匹配方法,其特征在于,包括如下步骤:S1:企业征信数据标准化:依据企业名称采集目标企业的征信信息,将海量征信信息数据进行融合,标准化处理;S2:企业征信数据指标化:对企业征信数据进行指标化处理,根据RFM和无监督聚类算法对指标进行衍生和筛选,确立初步的指标库。S3:企业画像构建与计算:构建通过企业画像描述企业特征的维度体系,并通过维度权重计算形成企业画像标签;S4:企业画像标签展示与检索:企业画像标签的展示包括单个企业画像与标签展示和企业群画像与标签展示;企业画像标签检索支持金融机构通过画像标签筛选的方式检索符合要求的潜在投资对象;S5:企业画像标签内容维护:画像系统根据企业发展数据的变化不断更新企业特征;采用滑动窗过滤算法,周期性地更新企业画像系统。2.根据权利要求1所述的方法,其特征在于,企业征信数据标准化,其数据处理步骤包含:(1)征信数据的获取完成数据仓库模型建设、数据源的定义、数据抽取、转换清洗及加载(ETL)工作;具体步骤包括:数据源的定义:将接口数据、库表数据、非结构化数据统一管理和加工成便于存储、管理和使用的统一结构化数据;通过交叉比对、规则校验把结构不统一、数据信息不完整的数据源变成符合统一结构标准的,放到数据仓库中;数据抽取、转换清洗及加载:在数据抽取、转换清洗及加载(ETL)的过程中,根据本次建模中征信数据系统的特点建立ETL策略,包括征信数据抽取频率、征信数据颗粒度、征信数据维度;ETL结束后,对于整个过程的监控及跟踪处理也是必不可少的步骤。其中,在数据抽取阶段,针对接口形式的数据采用触发器更新的方式;库表形式的数据中,针对每年、每月更新一次的数据,采用全量更新的方式;针对实时更新、每日更新、每周更新的数据,采用基于数据时间戳的增量抽取机制;在数据转换阶段,将上述过程抽取的原始企业征信数据转换为以时间、地域、行业等不同的数据维度,进而运用相关规则进行数据质量校验,排除不符合分析质量要求的数据;(2)征信数据的治理将取自一个以上数据源系统的详细数据,以及用于分析的集成汇总数据都存储在中心数据库;它在逻辑上是一个完整的库;从层次上来看,征信数据管理分为源数据层、校验数据层、基础数据层、产品数据层4个层次:源数据层:是其它各层的数据的基础,源数据层将来源于各个数据源的数据进行统一规范化加工与存储,并运用适当的策略进行更新;校验数据层:当源数据层数据到达后,通过既定的数据校验规则和校验流程对数据内容进行校验,通过校验的数据加载到中心数据库中,未通过校验的数据返回到下一层,错误的数据形成数据反馈报文反馈给与其对应的数据源的管理机构;
基础数据层:主要存储的是通过校验的关键征信业务数据;中心数据库主要是存储校验通过的数据,并将通过事后校验查出的错误数据退回到下一层,并最终形成错误反馈报文反馈给上报机构;产品数据层:基础数据入库和整理完毕后,按照服务产品的种类、既定的数据抽取逻辑和挖掘分析加载到产品数据层,为用户准备好服务所需要的产品数据。(3)征信数据的应用建立企业征信数据库,在其基础上进行数据治理、建模模型后,所提供的信用产品主要就是企业整体画像展示、企业标签及企业画像标签检索;企业画像标签检索将基于企业画像生成的企业标签结果通过No
‑
sql的数据形式存在于数据库中,支持高速缓存,适用于对企业画像数据的快速查询,其输出的记过能够被能够通过Web页面进行展示,用于基金公司的获客分析与投资决策。3.根据权利要求1所述的方法,其特征在于,S2:企业征信数据指标化主要运用RFM(Recency,Frequency,Monetary)指标衍生和无监督聚类指标衍生;(1)RFM(Recency,Frequency,Monetary)指标衍生具体衍生方法为:统计对象:企业财务统计、专利统计、行政信息;统计窗口:短期窗以近6个月为周期,长期窗从近1年到近3年;聚合函数:连续型函数如最大值、最小值、和、均值;统计变量:连续型变量是指在指定区间内可以任意取值的变量;离散型变量是指有限固定取值、可列举的变量;根据业务知识归纳和提炼出的新的特征指标,以提高特征指标的预测能力和相关性;(2)无监督聚类指标衍生从初始指标之间关系和特点出发,运用KMeans无监督聚类算法生产特征指标;对于这一阶段内生成的新特征指标,在衍生阶段不予处理,参与到后续的筛选过程中;本次建模中具体衍生方式分为两种:基于时间序列的指标聚类:针对具有时间序列的征信数据指标,按照其时间维度进行聚类和指标值计算;基于业务解释的指标聚类:针对具有相关性的不同征信指标,在特定时间截面上针对选定的征信指标集进行聚类,并根据聚类结果生成新特征指标,对受评企业打上相应的标签值;(3)指标过滤指标过滤的目标是首先按照规则对数据集进行指标选择,然后根据业务经验对筛选出的指标进行业务分类,形成企业基本面、履约能力、偿债能力、成长性、经营能力的维度;指标过滤的步骤包括:针对连续型指标,运用方差过滤法;针对离散型指标,运用同值过滤法;计算指标之间的相关系数,删除相关系数过高的指标组的其中一个;计算指标与目标变量之间的相关系数,删除相关系数过小的指标;运用XGBoost算法进行指标重要性排序,剔除指标重要性小于阈值的指标。
4.根据...
【专利技术属性】
技术研发人员:崔光裕,张帆,张志明,杨宝华,崔乐乐,
申请(专利权)人:天元大数据信用管理有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。