企业身份信息数据融合方法及装置制造方法及图纸

技术编号:38255211 阅读:12 留言:0更新日期:2023-07-27 10:18
本申请公开了一种企业身份信息数据融合方法及装置,用以解决数据治理能力差的技术问题。其中,一种数据融合方案,包括:采集企业对象的身份信息数据,并构成原始数据集合;对若干身份信息数据进行预处理,更新为整合数据集合;根据预设识别策略,确定整合数据集合中的唯一标识属性,作为融合键;建立整合数据集合中任意元素与融合键的关联关系,更新为融合数据集合;分别输入至命名实体识别模型、事件抽取模型、文本相似度计算模型、关键词提取模型,得到第一、第二、第三、第四信息分析数据,并以预设存储格式策略存储,作为企业对象在当前周期内的身份信息数据。这样将来自不同数据库的数据规范化,统一治理,提高了企业合规改进效率。率。率。

【技术实现步骤摘要】
企业身份信息数据融合方法及装置


[0001]本申请涉及数据处理
,尤其涉及一种企业身份信息数据融合方法及装置。

技术介绍

[0002]近年来,围绕最新政策,主导开展了涉案企业合规改进。涉案企业合规可以理解为对于涉嫌单位犯罪的企业,在其认罪认罚并自愿制定和实施合规整改计划的条件下,可作出不批准逮捕、变更强制措施、不起诉,或者从宽处罚的量刑简易的一项制度。
[0003]为了筛选哪些企业使用企业合规政策办理,监督企业合规切实整改,跟踪合规企业运行质效,需要从不同监管部门获取企业相关数据。
[0004]在实现现有技术的过程中,专利技术人发现:企业合规案件办理的核心点就是获取数据并进行治理,但是由于不同部门的数据质量参差不齐,缺乏统一的规范和治理体系,难以获取并进行数据分析。因此,需要提供一种企业身份信息数据融合方法及装置,用以解决数据治理能力差的技术问题。

技术实现思路

[0005]本申请实施例提供一种企业身份信息数据融合方法及装置,用以解决数据治理能力差的技术问题。
[0006]具体的,一种企业身份信息数据融合方法,应用于筛选涉案企业中的合规企业,包括以下步骤:从若干区块数据库中,以接口对接、数据库对接、文件包对接、消息队列对接的采集方式,采集包含增量同步数据和全量同步数据的同步数据,作为企业对象的身份信息数据;将企业对象的若干身份信息数据构成原始数据集合;对所述原始数据集合中的若干身份信息数据进行预处理,包括填充空值字段、补充必要字段、删除重复字段,更新原始数据集合为整合数据集合;根据预设识别策略,确定整合数据集合中的唯一标识属性,作为对应企业对象的融合键;建立整合数据集合中任意元素与融合键的关联关系,更新整合数据集合为融合数据集合;输入融合数据集合至命名实体识别模型,得到第一信息分析数据;输入融合数据集合至事件抽取模型,得到第二信息分析数据;输入融合数据集合至文本相似度计算模型,得到第三信息分析数据;输入融合数据集合至关键词提取模型,得到第四信息分析数据;以预设结构化存储格式策略,存储第一信息分析数据、第二信息分析数据、第三信息分析数据、第四信息分析数据,作为企业对象在当前周期内的身份信息数据;
进一步的,所述输入融合数据集合至命名实体识别模型,得到第一信息分析数据,具体步骤包括:确定融合数据集合中的文本单元;按照预设分句策略,对所述文本单元进行分割,得到若干句子单元;通过Jieba分词库,对所述若干句子单元进行分割,得到若干词语单元;通过Word2Vec模型,将所述若干词语单元转变为若干词向量;通过BILSTM

CRF模型,对所述若干词向量进行序列标定,确定所述文本单元中的命名实体、命名实体位置、命名实体类型,作为第一信息分析数据;进一步的,所述输入融合数据集合至事件抽取模型,得到第二信息分析数据,具体步骤包括:确定融合数据集合中的文本单元;基于预设位置编码、预设向量编码、预设句子分类编码,对所述文本单元进行转码,得到对应所述文本单元的嵌入向量;输入所述嵌入向量至预训练的BERT模型,得到对应所述嵌入向量的编码序列;采用与预训练的BERT模型连接的二分类器,基于所述编码序列,预测主实体;根据主实体,从编码序列中,抽取主实体首部、尾部对应的编码向量;基于主实体首部、尾部对应的编码向量,预测主实体对应的客实体、主实体客实体之间的关系;提取主实体、主实体对应的客实体、主实体客实体之间的关系,组成三元组;将若干三元组,作为第二信息分析数据;进一步的,所述输入融合数据集合至文本相似度计算模型,得到第三信息分析数据,具体步骤包括:确定融合数据集合中的第一句子单元、第二句子单元;基于预设位置编码、预设向量编码、预设句子分类编码,对所述第一句子单元进行转码,得到对应所述第一句子单元的第一嵌入向量;对所述第二句子单元进行转码,得到对应所述第二句子单元的第二嵌入向量;输入所述第一嵌入向量、所述第二嵌入向量至预训练的ALBERT模型,得到对应第一嵌入向量的第一文本向量、对应第二嵌入向量的第二文本向量;输入第一文本向量、第二文本向量至全连接层进行运算,得到预测相似值;当预测相似值大于预设阈值,确定第一文本、第二文本为相似信息,作为第三信息分析数据;进一步的,所述输入融合数据集合至关键词提取模型,得到第四信息分析数据,具体步骤包括:确定融合数据集合中的文本单元;按照预设分句策略,对所述文本单元进行分割,得到若干句子单元;通过Jieba分词库,对所述若干句子单元进行分割,得到若干词语单元;确定指定词性的若干词语单元,作为候选关键词;将候选关键词作为节点,构建节点集合;当候选关键词对应的词语单元在长度为K的窗口中共现时,将节点之间的关系作
为边,构建边集合;根据节点集合、边集合,构建有向有权图;定义节点的得分函数:;其中,节点V
i
、V
j
之间边的权重为W
ji
;In(V
i
)为指向节点V
i
的点集合;Out(V
i
)为节点V
j
指向的点集合;输入预设初值,迭代计算节点的权重值,直至任意节点的误差率小于预设极限值;通过TextRank算法,对节点的权重值进行倒序排序;获取前T个节点,并在候选关键词集合中,标记节点对应的词语单元;将标记后的词语单元进行组合,得到词组关键词,作为第四信息分析数据。
[0007]进一步的,所述采集包含增量同步数据和全量同步数据的同步数据由数据源数量级、变更频率、变更类型、系统架构、数据库表设计确定。
[0008]进一步的,所述企业对象在当前周期内的身份信息数据存储于Greenplum数据库。
[0009]进一步的,所述Greenplum数据库支持全文检索;当检索企业对象在当前周期内的身份信息数据时,使用Elasticsearch数据分析引擎存储检索数据。
[0010]进一步的,所述方法还包括:采用关系型数据库,存储所述企业对象在当前周期内的身份信息数据对应的应用支撑数据。
[0011]本申请实施例还提供一种企业身份信息数据融合装置。
[0012]具体的,一种企业身份信息数据融合装置,应用于筛选涉案企业中的合规企业,包括以下模块:采集模块,用于从若干区块数据库中,以接口对接、数据库对接、文件包对接、消息队列对接的采集方式,采集包含增量同步数据和全量同步数据的同步数据,作为企业对象的身份信息数据;还用于将企业对象的若干身份信息数据构成原始数据集合;融合模块,用于对所述原始数据集合中的若干身份信息数据进行预处理,包括填充空值字段、补充必要字段、删除重复字段,更新原始数据集合为整合数据集合;还用于根据预设识别策略,确定整合数据集合中的唯一标识属性,作为对应企业对象的融合键;还用于建立整合数据集合中任意元素与融合键的关联关系,更新整合数据集合为融合数据集合;分析模块,用于输入融合数据集合至命名实体识别模型,得到第一信息分析数据;还用于输入融合数据集合至事件抽取模型,得到第二信息分析数据;还用于输入融合数据集合至文本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种企业身份信息数据融合方法,其特征在于,应用于筛选涉案企业中的合规企业,包括以下步骤:从若干区块数据库中,以接口对接、数据库对接、文件包对接、消息队列对接的采集方式,采集包含增量同步数据和全量同步数据的同步数据,作为企业对象的身份信息数据;将企业对象的若干身份信息数据构成原始数据集合;对所述原始数据集合中的若干身份信息数据进行预处理,包括填充空值字段、补充必要字段、删除重复字段,更新原始数据集合为整合数据集合;根据预设识别策略,确定整合数据集合中的唯一标识属性,作为对应企业对象的融合键;建立整合数据集合中任意元素与融合键的关联关系,更新整合数据集合为融合数据集合;输入融合数据集合至命名实体识别模型,得到第一信息分析数据;输入融合数据集合至事件抽取模型,得到第二信息分析数据;输入融合数据集合至文本相似度计算模型,得到第三信息分析数据;输入融合数据集合至关键词提取模型,得到第四信息分析数据;以预设结构化存储格式策略,存储第一信息分析数据、第二信息分析数据、第三信息分析数据、第四信息分析数据,作为企业对象在当前周期内的身份信息数据;其中,所述输入融合数据集合至命名实体识别模型,得到第一信息分析数据,具体步骤包括:确定融合数据集合中的文本单元;按照预设分句策略,对所述文本单元进行分割,得到若干句子单元;通过Jieba分词库,对所述若干句子单元进行分割,得到若干词语单元;通过Word2Vec模型,将所述若干词语单元转变为若干词向量;通过BILSTM

CRF模型,对所述若干词向量进行序列标定,确定所述文本单元中的命名实体、命名实体位置、命名实体类型,作为第一信息分析数据;所述输入融合数据集合至事件抽取模型,得到第二信息分析数据,具体步骤包括:确定融合数据集合中的文本单元;基于预设位置编码、预设向量编码、预设句子分类编码,对所述文本单元进行转码,得到对应所述文本单元的嵌入向量;输入所述嵌入向量至预训练的BERT模型,得到对应所述嵌入向量的编码序列;采用与预训练的BERT模型连接的二分类器,基于所述编码序列,预测主实体;根据主实体,从编码序列中,抽取主实体首部、尾部对应的编码向量;基于主实体首部、尾部对应的编码向量,预测主实体对应的客实体、主实体客实体之间的关系;提取主实体、主实体对应的客实体、主实体客实体之间的关系,组成三元组;将若干三元组,作为第二信息分析数据;所述输入融合数据集合至文本相似度计算模型,得到第三信息分析数据,具体步骤包括:确定融合数据集合中的第一句子单元、第二句子单元;
基于预设位置编码、预设向量编码、预设句子分类编码,对所述第一句子单元进行转码,得到对应所述第一句子单元的第一嵌入向量;对所述第二句子单元进行转码,得到对应所述第二句子单元的第二嵌入向量;输入所述第一嵌入向量、所述第二嵌入向量至预训练的ALBERT模型,得到对应第一嵌入向量的第一文本向量、对应第二嵌入向量的第二文本向量;输入第一文本向量、第二文本向量至全连接层进行运算,得到预测相似值;当预测相似值大于预设阈值,确定第一文本、第二文本为相似信息,作为第三信息分析数据;所述输入融合数据集合至关键词提取模型,得到第四信息分析数据,具体步骤包括:确定融合数据集合中的文本单元;按照预设分句策略,对所述文本单元进行分割,得到若干句子单元;通过Jieba分词库,对所述若干句子单元进行分割,得到若干词语单元;确定指定词性的若干词语单元,作为候选关键词;将候选关键词作为节点,构建节点集合;当候选关键词对应的词语单元在长度为K的窗口中共现时,将节点之间的关系作为边,构建边集合;根据节点集合、边集合,构建有向有权图;定义节点的得分函数:;其中,节点V
i
、V
j
之间边的权重为W
ji
;In(V
i
)为指向节点V
i
的点集合;Out(V
i
)为节点V
j
指向的点集合;输入预设初值,迭代计算节点的权重值,直至任意节点的误差率小于预设极限值;通过TextRank算法,对节点的权重值进行倒序排序;获取前T个节点,并在候选关键词集合中,标记节点对应的词语单元;将标记后的词语单元进行组合,得到词组关键词,作为第四信息分析数据。2.如权利要求1所述的数据融合方法,其特征在于,所述采集包含增量同步数据和全量同步数据的同步数据由数据源数量级、变更频率、变更类型、系统架构、数据库表设计确定。3.如权利要求1所述的数据融合方法,其特征在于,所述企业对象在当前周期内的身份信息数据存储于Greenplum数据库。4.如权利要求3所述的数据融合方法,其特征在于,所述Greenplum数据库支持全文检索;当检索企业对象在当前周期内的身份信息数据时,使用Elasticsearch数据分析引擎存储检索数据。5.如权利要求1所述的数据融合方法,其特征在于,所述方法还包括:采用关系型数据库,存储所述企业对象在当前周期内的身份信息数据对应的应用支撑数据。6.一种企业身份信息数据融合装置,其特征在于,应用于筛选涉案企业中的合规企业,
...

【专利技术属性】
技术研发人员:冯婷郭颖王雅静应志红
申请(专利权)人:北京华宇信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1