一种精准识别高风险建筑企业的方法、系统及设备技术方案

技术编号:34740704 阅读:21 留言:0更新日期:2022-08-31 18:32
本发明专利技术涉及一种精准识别高风险建筑企业的方法、系统及设备,包括以下步骤:基于互联网数据进行信息收集;第一判断步骤,所述第一判断步骤包括:根据行业分类从收集的信息中进行建筑业参与者判断,在判断为是建筑业参与者的情况下采集所述建筑业参与者的第一建筑企业数据,所述第一建筑企业数据包括企业诚信数据和企业金融数据;对所述第一建筑企业数据进行分析处理以识别出高风险建筑企业。本发明专利技术基于互联网信息对建筑业参与者进行识别,并对其的企业诚信数据和企业金融数据进行采集,通过对采集的数据进行处理分析,呈现出建筑产业链条上各参与者的画像,精准识别出高风险建筑企业。业。业。

【技术实现步骤摘要】
一种精准识别高风险建筑企业的方法、系统及设备


[0001]本专利技术涉及数据处理
,具体地,涉及一种精准识别高风险建筑企业的方法、系统及设备。

技术介绍

[0002]由于建筑行业有诸如关联度高、产业链长和资产负债率偏高等等行业特点,如何精准识别出高风险的建筑企业,从而避免选取到存在经营、财务等各类风险的合作对象是急需解决的技术问题。
[0003]现有的企业风险识别技术虽然能为企业或个人防范化解金融风险提供一些解决方案,但通常是为了满足各行各业的通用需求,所涉及的信用评估和风险评估的维度和方法无法很好的满足建筑行业对于高风险企业的识别需求;另一方面,建筑企业多采用多元化业务布局,业务范围涉及建筑工程的多个细分领域,在现有的技术中大部分仅对建筑企业自身的风险进行了评估,而忽略了其关联公司的风险,例如:在执行业务活动中关联企业会因资金等原因以自有的股权出质、不动产或动产抵押为其他方提供担保;并且,由于建筑行业的产业链长且复杂,而建筑企业的上下游的经营风险将会对其产生影响,现有的技术通常没有考虑到产业链中各参与者的风险带来的潜在的合作风险。

技术实现思路

[0004]本专利技术的目的是提供一种精准识别高风险建筑企业的方法、系统及设备,解决了现有技术中存在的问题,通过对采集的建筑企业诚信数据和金融数据进行处理分析,精准识别出高风险建筑企业。
[0005]为了实现上述目的,本专利技术第一方面提供一种精准识别高风险建筑企业的方法,包括以下步骤:基于互联网数据进行信息收集;第一判断步骤,所述第一判断步骤包括:根据行业分类从收集的信息中进行建筑业参与者判断,在判断为是建筑业参与者的情况下采集所述建筑业参与者的第一建筑企业数据,所述第一建筑企业数据至少包括企业诚信数据和企业金融数据;对所述第一建筑企业数据进行分析处理以识别出高风险建筑企业。
[0006]进一步地,所述对所述第一建筑企业数据进行分析处理以识别出高风险建筑企业的步骤包括:对所述第一建筑企业数据进行数据预处理以形成第二建筑企业数据,所述第二建筑企业数据包括:第一识别数据和第二识别数据;对所述第二识别数据进行数据挖掘以形成第三识别数据,所述数据挖掘包括:实体字段提取和事件类型抽取;基于所述第一识别数据和所述第三识别数据进行分析处理以实现高风险建筑企业的识别。
[0007]进一步地,所述第三识别数据包括:裁判文书、中标业绩、动产抵押、股权出质、是否交叉持股和活跃度。
[0008]进一步地,所述基于所述第一识别数据和所述第三识别数据进行分析处理以实现高风险建筑企业的识别的步骤包括:对建筑业参与者的多个风险评估维度向量化以得到多个模型变量参数;建立风险识别模型;进行数据样本训练;进行风险识别模型预训练;使用
风险识别模型进行建筑业参与者风险等级评估。
[0009]进一步地,所述进行数据样本训练的步骤包括:采用先验指标进行数据样本的预标注;构建分类回归树数据集合训练集;基于所述训练集进行训练,得到预训练分类回归树;通过对标签数据的不断的抽查,纠正预训练分类回归树分类错误的数据;使用公认的权威数据作为交叉验证的标准。
[0010]进一步地,所述实体字段提取的步骤包括:建立提取模型;获取标注后的预训练数据集;基于所述预训练数据集,结合Bert+CRF模型训练所述提取模型;运用所述提取模型提取实体字段。
[0011]进一步地,所述事件类型抽取采用基于BERT

DGCNN的中文事件抽取方法,其中:第一部分为事件类型预测模型,第二部分为对事件角色抽取模型,将第一部分的抽取结果与所述实体字段作为第二部分的输入。
[0012]进一步地,所述基于所述第一识别数据和所述第三识别数据进行分析处理以实现高风险建筑企业的识别的步骤还包括:股权穿透分析,所述股权穿透分析包括对各建筑业参与者的人员唯一性和关联关系进行判定。
[0013]本专利技术第二方面提供一种精准识别高风险建筑企业的系统,其特征在于,包括:信息收集模块,被配置为基于互联网数据进行信息收集;信息判断模块,被配置为从收集的信息中判断出建筑业参与者;数据采集模块,被配置为采集所述建筑业参与者的第一建筑企业数据,所述第一建筑企业数据包括企业诚信数据和企业金融数据;数据预处理模块,被配置为对所述第一建筑企业数据进行数据预处理以形成第二建筑企业数据,所述数据预处理模块包括第一识别单元和第二识别单元,所述第一识别单元被配置为从第二建筑企业数据中判断出第一识别数据,所述第二识别单元被配置为从第二建筑企业数据中判断出第二识别数据;数据挖掘模块,被配置为对所述第二识别数据进行数据挖掘以形成第三识别数据,所述数据挖掘模块包括:实体字段提取子模块和事件类型抽取子模块,所述实体字段提取子模块被配置为对所述第二识别数据进行实体字段的提取,所述事件类型抽取子模块被配置为基于BERT

DGCNN进行中文事件抽取;风险识别模块,被配置为基于第一识别数据和第三识别数据进行分析处理以实现高风险建筑企业的识别;数据通信模块,被配置为在各模块之间传输数据;数据存储模块,被配置为存储数据采集模块、数据预处理模块、数据挖掘模块和风险识别模块的数据。
[0014]本专利技术第三方面提供一种精准识别高风险建筑企业的设备,其特征在于,包括存储器和处理器,所述存储器上存储有计算机程序,所述存储器和所述处理器之间互相通信连接,该计算机程序被所述处理器执行时,执行前述的任一种精准识别高风险建筑企业的方法。
[0015]上述技术方案中,基于互联网信息对建筑企业及其关联公司、建筑业产业链中的各参与者进行识别,并对其的企业诚信数据和企业金融数据进行采集、预处理和挖掘分析后形成第一识别数据和第三识别数据,基于第一识别数据和第三识别数据进行建筑业参与者的经营能力和诚信分析可以呈现出了建筑产业链条上各参与者的画像,精准识别出高风险建筑企业;通过多渠道收集第一建筑企业数据,并对各个来源的多种格式的第一建筑企业数据进行自动化的采集、数据结构化、数据深度扩展与关联等处理,为高风险建筑企业的识别提供了全面、有效的数据支撑,还对企业经营的健康程度的判断做出重要的支持;基于
第一识别数据和第三识别数据进行股权穿透分析,能够对建筑企业及关联公司的金融风险进行识别,对建筑企业的新风险做出重要的提示,为客户避免潜在的合作风险。
附图说明
[0016]附图是用来提供对本专利技术的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本专利技术,但并不构成对本专利技术的限制。在附图中:
[0017]图1是本专利技术精准识别高风险建筑企业的方法的流程示意图;
[0018]图2是本专利技术对第一建筑企业数据进行分析处理以识别出高风险建筑企业的流程示意图;
[0019]图3是本专利技术基于所述第一识别数据和所述第三识别数据进行分析处理以实现高风险建筑企业的识别的流程示意图;
[0020]图4是本专利技术进行数据样本训练的流程示意图;
[0021]图5是本专利技术构建的分类回归树数据集本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种精准识别高风险建筑企业的方法,其特征在于,包括以下步骤:基于互联网数据进行信息收集;第一判断步骤,所述第一判断步骤包括:根据行业分类从收集的信息中进行建筑业参与者判断,在判断为是建筑业参与者的情况下采集所述建筑业参与者的第一建筑企业数据,所述第一建筑企业数据至少包括企业诚信数据和企业金融数据;对所述第一建筑企业数据进行分析处理以识别出高风险建筑企业。2.根据权利要求1所述的精准识别高风险建筑企业的方法,其特征在于,所述对所述第一建筑企业数据进行分析处理以识别出高风险建筑企业的步骤包括:对所述第一建筑企业数据进行数据预处理以形成第二建筑企业数据,所述第二建筑企业数据包括:第一识别数据和第二识别数据;对所述第二识别数据进行数据挖掘以形成第三识别数据,所述数据挖掘包括:实体字段提取和事件类型抽取;基于所述第一识别数据和所述第三识别数据进行分析处理以实现高风险建筑企业的识别。3.根据权利要求2所述的精准识别高风险建筑企业的方法,其特征在于,所述第三识别数据包括:裁判文书、中标业绩、动产抵押、股权出质、是否交叉持股和活跃度。4.根据权利要求3所述的精准识别高风险建筑企业的方法,其特征在于,所述基于所述第一识别数据和所述第三识别数据进行分析处理以实现高风险建筑企业的识别的步骤包括:对建筑业参与者的多个风险评估维度向量化以得到多个模型变量参数;建立风险识别模型;进行数据样本训练;进行风险识别模型预训练;使用风险识别模型进行建筑业参与者风险等级评估。5.根据权利要求4所述的精准识别高风险建筑企业的方法,其特征在于,所述进行数据样本训练的步骤包括:采用先验指标进行数据样本的预标注;构建分类回归树数据集合训练集;基于所述训练集进行训练,得到预训练分类回归树;通过对标签数据的不断的抽查,纠正预训练分类回归树分类错误的数据;使用公认的权威数据作为交叉验证的标准。6.根据权利要求2所述的精准识别高风险建筑企业的方法,其特征在于,所述实体字段提取的步骤包括:建立提取模型;获取标注后的预训练数据集;基于所述预训练数据集,结合Bert+CRF模型训练所述提取模型;运用所述提取模型提取实体字段。7.根据权利要求2所述的...

【专利技术属性】
技术研发人员:张森连朝晖张大丽谭卓和艳玲王迪童雅梅
申请(专利权)人:四川隧唐科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1