一种企业风险评估方法技术

技术编号:18289512 阅读:33 留言:0更新日期:2018-06-24 04:13
本发明专利技术涉及大数据技术领域,尤其是一种企业风险评估方法。本发明专利技术所述的方法包括数据采集、风险评分和风险评分校正;所述的数据采集是在互联网上采集企业相关的文本数据;所述的风险评分是先根据企业网络数据进行文本倾向性识别,然后根据企业公安、人力资源、社保、供水、供电、国税、地税、司法、外资数据以及网络数据分析结果做Lasso回归模型得到初始分数;所述的评分校正充分考虑到企业之间的关系,根据相关企业的初步评分以及企业关系对该企业进行分数校正;根据获得的评分判断企业的风险。本发明专利技术实现了对企业风险的全面分析、评估。

【技术实现步骤摘要】
一种企业风险评估方法
本专利技术涉及大数据
,尤其是一种企业风险评估方法。
技术介绍
随着信息技术的飞速发展尤其是互联网大数据的发展以及普及,人类进入了瞬息万变的信息时代。任何企业都处在一个信息庞大的环境中,企业周围充斥着互联网数据、政府数据、内部系统数据等各种各样的数据。在企业发展过程中欠薪、倒闭等问题时有发生,这对企业的生产经营以及社会环境造成不良影响。
技术实现思路
本专利技术解决的技术问题在于一种基于多模型融合的企业风险评估方法;实现对企业存在风险进行全面的分析、评估。本专利技术解决上述技术问题的技术方案是:所述的方法包括数据采集、风险评分和风险评分校正;所述的数据采集是在互联网上采集企业相关的文本数据;所述的风险评分是先根据企业网络数据进行文本倾向性识别,然后根据企业公安、人力资源、社保、供水、供电、国税、地税、司法、外资数据以及网络数据分析结果做Lasso回归模型得到初始分数;所述的评分校正充分考虑到企业之间的关系,根据相关企业的初步评分以及企业关系对该企业进行分数校正;根据获得的评分判断企业的风险。所述的文本数据的采集流程是:第一步,获取待采集的URL;第二步,解析DNS找到服务器的IP;第三步,抓取网页数据获取网页html代码;第四步,解析页面html代码获取文本内容;第五步,对抓取的数据进行文本抽取,链接抽取,把抽取的链接加入待采集URL队列;第六步,进行文本特征提取,生成网页指纹;第七步,判断内容是否重复;第八步,如果已有相同文章则放弃抓取返回第一步,否则对正文文本进行分词操作;第九步,使用crf命名识别找出文章相关联的企业;第十步,把文章文本内容以及相关的企业存储数据库。所述的文本倾向性识别流程是:第一步,人工标注训练样本集;第二步,对训练样本进行自动分词;第三步,利用情感词表标识文本中的情感特征词;第四步,利用TF-IDF公式和情感词本身的情感权重对特征权重进行计算;第五步,根据文本情感特征和权重得到文档情感向量的特征空间;第六步,根据企业名称查找相关的文本;第七步,遍历所有文本进行分词以及特征权重计算,得到文本的情感向量的特征空间;第八步,利用逻辑分类器对文本进行分类;第九步,得到文本的倾向性分类结果;第十步,取企业相关所有文本的情感分析结果的均值作为最后结果。所述的做线性回归模型得到初始分数是:第一步,抽取各类数据一级特征,公安数据抽取有无刑事案件以及案件个数作为特征,人力资源数据抽取连续6个月员工人数,社保、供水、供电、国税、地税数据抽取连续6个月缴费数据,把是否欠费、欠费月数作为特征,司法数据抽取有无诉讼以及诉讼个数作为特征,外资数据抽取最近6个月有无外资撤资作为特征;第二步,抽取二级特征,人力资源、社保、供水、供电、国税、地税连续6个月的环比数、环比率;第三步,特征处理,对布尔型特征采取{0,1}表示,数值型特征进行归一化;第四步,人工标注一批数据集作为训练集;第五步,模型训练,使用Lasso回归,采用梯度下降法进行模型训练;第六步,根据训练得到的参数对企业进行评分。所述的对企业进行分数校正流程是:第一步,构建企业投资关系图;第二步,采用广度优先搜索方法搜索父节点f、父节点的父节点ff、子节点s、子节点的子节点ss;第三步,计算最终分数,公式如下:其中nf、nff、ns、nss分别为父节点、父父节点、子节点、子子节点个数,λfi、λffi、λsi、λssi为第i个父节点、父父节点、子节点、子子节点的投资比例,αfi、αffi、αsi、αssi为第i个父节点、父父节点、子节点、子子节点的参数,设置为1/10;Rfi、Rffi、Rsi、Rssi为第i个父节点、父父节点、子节点、子子节点的初始分数,R为当前节点的初始分数。本专利技术使用文本分类模型先对企业相关的互联网数据进行情感倾向分析,再利用企业的政府数据以及互联网数据结果多个维度对企业进行Lasso回归分析得出初始分数,最后考虑到企业之间的关联性对企业评分进行纠正得到最终的评分。经过多个模型融合后提高了企业评测的准确度。本专利技术充分利用了互联网数据、政府数据,首先对企业资讯数据做情感倾向性分析,然后使用企业各维度数据做Lasso回归,最后又充分考虑企业之间的关系做最终的分数校正,提高了企业风险评测的准确性。附图说明下面结合附图对本专利技术进一步说明:图1是本专利技术分析逻辑流程框图;图2是本专利技术数据采集流程图;图3是本专利技术风险评分流程图;图4是本专利技术企业关系图。具体实施方式如图1-4所示,本专利技术包括数据采集、风险评分、风险评分校正。数据采集负责在互联网上采集企业相关的文本数据;风险评分先根据企业网络数据进行文本倾向性识别,然后根据企业公安、人力资源、社保、供水、供电、国税、地税、司法、外资数据以及网络数据分析结果做Lasso回归模型得到初始分数;评分校正充分考虑到企业之间的关系,根据相关企业的初步评分以及企业关系对该企业进行分数校正。如图2所示:所述的数据采集负责在互联网上采集企业相关的文本数据,包括如下步骤:第一步,在URL待采集队列中获取待采集的URL;第二步,解析DNS找到服务器的IP;第三步,通过java中URLConnection获取网页数据的html文本内容;第四步,通过自动或者模板的方式解析页面html代码获取文本内容;第五步,对抓取的数据进行文本抽取,链接抽取,把本链接加入到已采集列表Visited表,把抽取的链接加入待采集URL队列;第六步,自动文本特征提取,生成网页SimpleHash指纹;第七步,计算网页指纹的余弦距离d,如果d>0.9则表示内容重复否则不重复;第八步,如果已有相同文章则放弃抓取返回第一步,否则对正文文本进行分词操作;第九步,使用crf命名实体识别找出文章相关联的企业;第十步,把文章文本内容以及相关的企业存储数据库。如图3所示:所述的风险评分先根据企业网络数据进行文本倾向性识别,其特征在于:第一步,人工标注训练样本集;第二步,对训练样本进行自动分词;第三步,利用情感词表标识文本中的情感特征词;第四步,利用TF-IDF公式和情感词本身的情感权重对特征权重进行计算;第五步,根据文本情感特征和权重得到文档情感向量的特征空间;第六步,根据企业名称查找相关的文本;第七步,遍历所有文本进行分词以及特征权重计算,得到文本的情感向量的特征空间;第八步,利用逻辑分类器对文本进行分类;第九步,得到文本的倾向性分类结果;第十步,取企业相关所有文本的情感分析结果的均值做为最后结果。所述的根据企业公安、人力资源、社保、供水、供电、国税、地税、司法、外资数据以及网络数据分析结果做线性回归模型得到初始分数,包括如下步骤:第一步,抽取各类数据一级特征,公安数据抽取有无刑事案件以及案件个数作为特征,人力资源数据抽取连续6个月员工人数,社保、供水、供电、国税、地税数据抽取连续6个月缴费数据,把是否欠费、欠费月数作为特征,司法数据抽取有无诉讼以及诉讼个数作为特征,外资数据抽取最近6个月有无外资撤资作为特征;第二步,抽取二级特征,人力资源、社保、供水、供电、国税、地税连续6个月的环比数、环比率;第三步,特征处理,对布尔型特征采取{0,1}表示,数值型特征进行归一化;第四步,人工标注一批数据集作为训练集;第五步,模型训练,使用Las本文档来自技高网...
一种企业风险评估方法

【技术保护点】
1.一种企业风险评估方法,其特征在于:所述的方法包括数据采集、风险评分和风险评分校正;所述的数据采集是在互联网上采集企业相关的文本数据;所述的风险评分是先根据企业网络数据进行文本倾向性识别,然后根据企业公安、人力资源、社保、供水、供电、国税、地税、司法、外资数据以及网络数据分析结果做Lasso回归模型得到初始分数;所述的评分校正充分考虑到企业之间的关系,根据相关企业的初步评分以及企业关系对该企业进行分数校正;根据获得的评分判断企业的风险。

【技术特征摘要】
1.一种企业风险评估方法,其特征在于:所述的方法包括数据采集、风险评分和风险评分校正;所述的数据采集是在互联网上采集企业相关的文本数据;所述的风险评分是先根据企业网络数据进行文本倾向性识别,然后根据企业公安、人力资源、社保、供水、供电、国税、地税、司法、外资数据以及网络数据分析结果做Lasso回归模型得到初始分数;所述的评分校正充分考虑到企业之间的关系,根据相关企业的初步评分以及企业关系对该企业进行分数校正;根据获得的评分判断企业的风险。2.根据权利要求1所述的方法,其特征在于:所述的文本数据的采集流程是:第一步,获取待采集的URL;第二步,解析DNS找到服务器的IP;第三步,抓取网页数据获取网页html代码;第四步,解析页面html代码获取文本内容;第五步,对抓取的数据进行文本抽取,链接抽取,把抽取的链接加入待采集URL队列;第六步,进行文本特征提取,生成网页指纹;第七步,判断内容是否重复;第八步,如果已有相同文章则放弃抓取返回第一步,否则对正文文本进行分词操作;第九步,使用crf命名识别找出文章相关联的企业;第十步,把文章文本内容以及相关的企业存储数据库。3.根据权利要求1所述的方法,其特征在于:所述的文本倾向性识别流程是:第一步,人工标注训练样本集;第二步,对训练样本进行自动分词;第三步,利用情感词表标识文本中的情感特征词;第四步,利用TF-IDF公式和情感词本身的情感权重对特征权重进行计算;第五步,根据文本情感特征和权重得到文档情感向量的特征空间;第六步,根据企业名称查找相关的文本;第七步,遍历所有文本进行分词以及特征权重计算,得到文本的情感向量的特征空间;第八步,利用逻辑分类器对文本进行分类;第九步,得到文本的倾向性分类结果;第十步,取企业相关所有文本的情感分析结果的均值作为最后结果。4.根据权利要求2所述的方法,其特征在于:所述的文本倾向性识别流程是:第一步,人工标注训练样本集;第二步,对训练样本进行自动分词;第三步,利用情感词表标识文本中的情感特征词;第四步,利用TF-IDF公式和情感词本身的情感权重对特征权重进行计算;第五步,根据文本情感特征和权重得到文档情感向量的特征空间;第六步,根据企业名称查找相关的文本;第七步,遍历所有文本进行分词以及特征权重计算,得到文本的情感向量的特征空间;第八步,利用逻辑分类器对文本进行分类;第九步...

【专利技术属性】
技术研发人员:侯朋李勇波季统凯
申请(专利权)人:国云科技股份有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1