一种企业风险评估方法技术

技术编号：18289512 阅读：33 留言：0更新日期：2018-06-24 04:13

本发明专利技术涉及大数据技术领域，尤其是一种企业风险评估方法。本发明专利技术所述的方法包括数据采集、风险评分和风险评分校正；所述的数据采集是在互联网上采集企业相关的文本数据；所述的风险评分是先根据企业网络数据进行文本倾向性识别，然后根据企业公安、人力资源、社保、供水、供电、国税、地税、司法、外资数据以及网络数据分析结果做Lasso回归模型得到初始分数；所述的评分校正充分考虑到企业之间的关系，根据相关企业的初步评分以及企业关系对该企业进行分数校正；根据获得的评分判断企业的风险。本发明专利技术实现了对企业风险的全面分析、评估。

全部详细技术资料下载

【技术实现步骤摘要】
一种企业风险评估方法
本专利技术涉及大数据
，尤其是一种企业风险评估方法。
技术介绍
随着信息技术的飞速发展尤其是互联网大数据的发展以及普及，人类进入了瞬息万变的信息时代。任何企业都处在一个信息庞大的环境中，企业周围充斥着互联网数据、政府数据、内部系统数据等各种各样的数据。在企业发展过程中欠薪、倒闭等问题时有发生，这对企业的生产经营以及社会环境造成不良影响。
技术实现思路
本专利技术解决的技术问题在于一种基于多模型融合的企业风险评估方法；实现对企业存在风险进行全面的分析、评估。本专利技术解决上述技术问题的技术方案是：所述的方法包括数据采集、风险评分和风险评分校正；所述的数据采集是在互联网上采集企业相关的文本数据；所述的风险评分是先根据企业网络数据进行文本倾向性识别，然后根据企业公安、人力资源、社保、供水、供电、国税、地税、司法、外资数据以及网络数据分析结果做Lasso回归模型得到初始分数；所述的评分校正充分考虑到企业之间的关系，根据相关企业的初步评分以及企业关系对该企业进行分数校正；根据获得的评分判断企业的风险。所述的文本数据的采集流程是：第一步，获取待采集的URL；第二步，解析DNS找到服务器的IP；第三步，抓取网页数据获取网页html代码；第四步，解析页面html代码获取文本内容；第五步，对抓取的数据进行文本抽取，链接抽取，把抽取的链接加入待采集URL队列；第六步，进行文本特征提取，生成网页指纹；第七步，判断内容是否重复；第八步，如果已有相同文章则放弃抓取返回第一步，否则对正文文本进行分词操作；第九步，使用crf命名识别找出文章相关联的企业；第十步，...
一种企业风险评估方法

【技术保护点】
1.一种企业风险评估方法，其特征在于：所述的方法包括数据采集、风险评分和风险评分校正；所述的数据采集是在互联网上采集企业相关的文本数据；所述的风险评分是先根据企业网络数据进行文本倾向性识别，然后根据企业公安、人力资源、社保、供水、供电、国税、地税、司法、外资数据以及网络数据分析结果做Lasso回归模型得到初始分数；所述的评分校正充分考虑到企业之间的关系，根据相关企业的初步评分以及企业关系对该企业进行分数校正；根据获得的评分判断企业的风险。

【技术特征摘要】
1.一种企业风险评估方法，其特征在于：所述的方法包括数据采集、风险评分和风险评分校正；所述的数据采集是在互联网上采集企业相关的文本数据；所述的风险评分是先根据企业网络数据进行文本倾向性识别，然后根据企业公安、人力资源、社保、供水、供电、国税、地税、司法、外资数据以及网络数据分析结果做Lasso回归模型得到初始分数；所述的评分校正充分考虑到企业之间的关系，根据相关企业的初步评分以及企业关系对该企业进行分数校正；根据获得的评分判断企业的风险。2.根据权利要求1所述的方法，其特征在于：所述的文本数据的采集流程是：第一步，获取待采集的URL；第二步，解析DNS找到服务器的IP；第三步，抓取网页数据获取网页html代码；第四步，解析页面html代码获取文本内容；第五步，对抓取的数据进行文本抽取，链接抽取，把抽取的链接加入待采集URL队列；第六步，进行文本特征提取，生成网页指纹；第七步，判断内容是否重复；第八步，如果已有相同文章则放弃抓取返回第一步，否则对正文文本进行分词操作；第九步，使用crf命名识别找出文章相关联的企业；第十步，把文章文本内容以及相关的企业存储数据库。3.根据权利要求1所述的方法，其特征在于：所述的文本倾向性识别流程是：第一步，人工标注训练样本集；第二步，对训练样本进行自动分词；第三步，利用情感词表标识文本中的情感特征词；第四步，利用TF-IDF公式和情感词本身的情感权重对特征权重进行计算；第五步，根据文本情感特征和权重得到文档情感向量的特征空间；第六步，根据企业名称查找相关的文本；第七步，遍历所有文本进行分词以及特征权重计算，得到文本的情感向量的特征空间；第八步，利用逻辑分类器对文本进行分类；第九步，得到文本的倾向性分类结果；第十步，取企业相关所有文本的情感分析结果的均值作为最后结果。4.根据权利要求2所述的方法，其特征在于：所述的文本倾向性识别流程是：第一步，人工标注训练样本集；第二步，对训练样本进行自动分词；第三步，利用情感词表标识文本中的情感特征词；第四步，利用TF-IDF公式和情感词本身的情感权重对特征权重进行计算；第五步，根据文本情感特征和权重得到文档情感向量的特征空间；第六步，根据企业名称查找相关的文本；第七步，遍历所有文本进行分词以及特征权重计算，得到文本的情感向量的特征空间；第八步，利用逻辑分类器对文本进行分类；第九步...

【专利技术属性】
技术研发人员：侯朋，李勇波，季统凯，
申请(专利权)人：国云科技股份有限公司，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人