一种使用非结构化数据进行风险评估的方法技术

技术编号:32222115 阅读:30 留言:0更新日期:2022-02-09 17:27
本发明专利技术涉及一种使用非结构化数据进行风险评估的方法,属于人工智能领域。本发明专利技术利用互联网新闻数据、评论数据对企业合作风险进行评估,避免了只审查企业资质与实施能力,忽视企业风评等信息所带来的风险;利用互联网数据的实时性对企业合作风险进行评估,避免了因信息陈旧带来的企业合作风险。与现有技术相比,本发明专利技术提出的技术方案采用非结构化数据对企业合作关系进行风险评估。在这种方法中,我们对互联网上与待评估企业相关的新闻数据、评论数据、判决文书数据进行了采集,并综合进行企业风险评估评分。这种方法有效的补充了企业合作之前应该关注的信息,同时保证了待评估企业信息的实时性。信息的实时性。信息的实时性。

【技术实现步骤摘要】
一种使用非结构化数据进行风险评估的方法


[0001]本专利技术属于人工智能领域,具体涉及一种使用非结构化数据进行风险评估的方法。

技术介绍

[0002]在企业之间进行合作时,通常需要对合作方企业进行风险评估,以确认该合作是否会带来经济风险。当前对合作企业进行风险评估的方法,除了人工审查的方式外,主要基于结构化数据对合作方进行风险评估。
[0003]使用结构化数据进行风险预警的方法通常由以下步骤组成:
[0004]数据整合清洗。对各个不同来源的结构化数据进行整合,并根据数据质量情况对数据进行必要的清洗转换。
[0005]特征选择。根据业务知识选择对风险预警效果有益的特征数据项。
[0006]算法选择。根据标注数据量及特征复杂程度,选择适用的机器学习或深度学习算法。
[0007]模型训练。将标注数据集进行划分后,输入模型进行调参训练,并根据评估效果迭代进行数据清洗、特征选择、算法选择和模型训练的工作。
[0008]模型部署。将训练完成的模型部署为在线服务,提供风险预警服务能力。r/>[0009]将本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种使用非结构化数据进行风险评估的方法,其特征在于,该方法包括如下步骤:S1、数据采集首先选择采集数据源,其次,在采集过程中,利用scrapy技术从网络上采集数据,使用待评估企业名称和常用别名对信息进行过滤,然后,选择包含待评估企业的相关信息进行逐条采集,包括新闻标题/正文、判决文书和评论信息;最后将采集的数据存储到mysql数据库中;S2、数据清洗经过采集得到的互联网数据含有大量特殊字符和噪声信息,需要对数据信息进行清洗;S3、主题分类根据会对企业合作造成影响的各类事项,总结出评价主题类别,建立相关标签体系,并对数据进行分类;S4、情感分析对经过主题分类后的数据进行正负面的情感倾向分析;S5、风险评估为主题类别设置影响因子P,统计每个主题类别的正面、负面和中性数据的数量,并对其按照情感倾向数值计算各个主题类别的情感指数C,之后依据六个主题的影响因子进行综合评估,得到风险指数N。2.如权利要求1所述的使用非结构化数据进行风险评估的方法,其特征在于,所述步骤S1中数据源包括官方新闻媒体和主流社交网站。3.如权利要求1所述的使用非结构化数据进行风险评估的方法,其特征在于,所述步骤S2具体包括:通过删除原始企业新闻、判决文书、评论数据中多余的空格和换行符、筛选重复以及无关的数据内容、消除数据中的歧义信息、利用聚类分析进行噪声信息的确认及去除,最终将其存放至.txt文档中,并用换行符分隔。4.如权利要求1

3任一项所述的使用非结构化数据进行风险评估的方法,其特征在于,所述步骤S3具体包括如下步骤:S31、建立标签体系,人为地在“产品宣传、企业信誉、国家安全、劳务纠纷、价值观”这五个方面定义主题分类,同时将不属于当前五类的数据归为“其它”主题类别;S32、将经过清洗后的数据存放在.txt文档中,并用换行符

\n

分隔;随后对30%数据人工标注主题标签为0,1,2,3,4,5,分别对应“其他、产品宣传、企业信誉、国家安全、劳务纠纷、价值观”六个类别;S33、使用BERT模型对标注数据集进行训练分析;S34、将剩下70%的文本数据输入以上已经训练好的模型中进行主题分类。5.如权利要求4所述的使用非结构化数据进行风险评估的方法,其特征在于,所述步骤S33具体包括:将BERT模型输入实际可用的长度设置为400,大于400字的数据文本称为长文本,其余文本称为短文本,随后对长文本进行有重叠(...

【专利技术属性】
技术研发人员:史亚琪王楠刘佳雯
申请(专利权)人:航天科工网络信息发展有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1