一种基于互联网数据的P2P企业自动识别方法与系统技术方案

技术编号:17971230 阅读:60 留言:0更新日期:2018-05-16 11:51
本发明专利技术公开了一种基于互联网数据的P2P企业自动识别方法,包括以下步骤:1、采集企业数据;2、清洗整合结构化数据;3、形成结构化宽表;4、形成特征数据;5、进行数学建模;6、人工交叉验证;7、接收用户识别请求;8、采集企业数据;9、利用模型进行企业识别;10、返回模型识别结果。本发明专利技术同时公开了一种基于上述方法的系统,包括服务器、分类建模装置、自动识别装置。本发明专利技术提出的方法和系统充分考虑了互联网数据的非结构性,将非结构化数据进行整合;同时以获取的数据特征值作为样本进行数学建模,以一种精确有效且通用的数据分析方法对P2P企业进行自动识别,大量节省人工成本,并且能够综合各种数据进行分析,提高识别效率与精确度。

【技术实现步骤摘要】
一种基于互联网数据的P2P企业自动识别方法与系统
本专利技术涉及互联网金融
,尤其涉及一种P2P企业自动识别方法与系统。
技术介绍
P2P企业自动识别是利用大数据技术,将采集到的各种企业数据整合后,进行特征提取与数学建模,利用模型自动为使用者提供P2P企业识别结果以供参考。精确快速的企业判断将极大提高用户的效率,节省人工判断成本,并且结果更为准确。目前,P2P网络借贷平台初具雏形,网贷平台蓬勃发展,但也有许多企业不具备提供P2P业务服务的资格,问题平台数量巨大,因而需要对P2P企业进行仔细识别。现有技术中,通常使用人工网上信息搜索或实地走访的方法来判断P2P企业,这种方法耗时较长,效率较低,并且误差较大,需要综合各方面信息进行评价判断,其结果受个人影响较大。如果查询到的信息无效或过于复杂,判断结果可能会出现很大偏差。并且P2P企业数量很多,在需要判断大量企业是否是P2P企业时,人工判断极为费时费力。此外,在查询企业在互联网上的数据时,能够查询到的大多是非结构化数据,很难直接应用于模型。中国专利CN107067322A提出了一种应用于P2P网络借贷企业数据接入模型的系统及方法,提本文档来自技高网...
一种基于互联网数据的P2P企业自动识别方法与系统

【技术保护点】
一种基于互联网数据的P2P企业自动识别方法,其特征在于,包括以下主要步骤:步骤1、采集结构化和非结构化企业数据;步骤2、清洗整合提炼为结构化数据;步骤3、结合非数值型与数值型两部分数据形成结构化宽表;步骤4、选取样本进行特征转化,形成特征数据;步骤5、利用特征数据进行数学建模;步骤6、人工交叉验证,调整模型;步骤7、服务器端接收用户输入的识别请求;步骤8、系统进入网站采集企业数据;步骤9、利用模型进行企业识别;步骤10、服务器端返回模型识别结果。

【技术特征摘要】
1.一种基于互联网数据的P2P企业自动识别方法,其特征在于,包括以下主要步骤:步骤1、采集结构化和非结构化企业数据;步骤2、清洗整合提炼为结构化数据;步骤3、结合非数值型与数值型两部分数据形成结构化宽表;步骤4、选取样本进行特征转化,形成特征数据;步骤5、利用特征数据进行数学建模;步骤6、人工交叉验证,调整模型;步骤7、服务器端接收用户输入的识别请求;步骤8、系统进入网站采集企业数据;步骤9、利用模型进行企业识别;步骤10、服务器端返回模型识别结果。2.如权利要求1所述的基于互联网数据的P2P企业自动识别方法,其特征在于,所述步骤1具体为:服务器端通过数据采集系统等数据源采集非结构化企业数据;所述非结构化企业数据包括P2P企业和非P2P企业数据。3.如权利要求1所述的基于互联网数据的P2P企业自动识别方法,其特征在于,所述步骤4具体为:根据所述步骤3中所述结构化宽表的数据,选取其中已知的P2P企业与非P2P企业数据,以这些企业数据作为样本进行特征转化,把每个字段转化为数值特征,形成特征数据。4.如权利要求1所述的基于互联网数据的P2P企业自动识别方法,其特征在于,所述步骤5具体为:应用所述步骤4中的特征数据,在此基础上利用分类器算法生成一个针对公司是否涉及P2P业务的分类模型,形成P2P企业识别模型。5.如权利要求1所述的基于互联网数据的P2P企业自动识别方法,其特征在于,所述步骤6具体为:利用模型分析预测其他企业涉及P2P业务的概率,结合人工交叉验证,分析预测错误的数据,调整参数重新训练,直到模型达到一定精度,完善所述P2P企业识别模型。6.如权利要求1所述的基于互联网数据的P2P企业自动识别方法,其特征在于,所述步骤7具体为:服务器接收用户发送的识别请求,所述识别信息为用户输入的企业信息或网址。7.如权利要求1所述的基于互联网数据的P2P企业自动识别方法,其特征在于,所述步骤8具体为:系统自动分析用户输入信息,若用户输入的是企业网站,系统自动采集企业网站信息后进行分析,形成企业数据。...

【专利技术属性】
技术研发人员:金耀辉姜华李慧王永坤
申请(专利权)人:上海思贤信息技术股份有限公司
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1