企业自然人实体综合判断对齐方法及系统技术方案

技术编号:24409826 阅读:33 留言:0更新日期:2020-06-06 08:41
本发明专利技术涉及企业自然人实体综合判断对齐方法及系统;本发明专利技术方法及系统引入机器学习方法,综合多个企业投资数据特征,对不同企业的重要同名自然人是否是同一自然人做出准确的判断。选取企业投资路径的远近来作为判断相同姓名自然人是否是同一人的主要判断依据之一,充分使用企业投资数据的本来特性,同时借助企业名称、企业地址以及同名自然人数量等综合特征来构建模型。集成多个特征相互配合共同得出计算结果,判断结果准确率非常高;为企业自然人实体对齐提供十分重要且有效的方法。

The method and system of enterprise natural person entity comprehensive judgment alignment

【技术实现步骤摘要】
企业自然人实体综合判断对齐方法及系统
本专利技术涉及自然语言处理
,特别涉及企业自然人实体综合判断对齐方法及系统。
技术介绍
随着大数据技术的发展,对于不同数据源中的自然人是否是同一的判断越来越重要;自然人重名的情况十分常见,再者现实生活中,经常出现同一自然人投资多家企业的情况。大数据技术中,将企业和股东、高管等信息抽离出来建立起知识图谱,对于市场调查,投资分析,金融监管等领域有十分重要的应用。当将多个数据源中的信息提取出来时进行关联分析时,身份的唯一性识别就变得非常重要。比如说在绘制关联图谱时,如果不能判断不同企业信息的自然人是同一个人,则不会将图谱节点进行合并,会在一张图谱中出现多个同名节点(这些节点事实上是同一个实体自然人),影响图谱的推理分析能力。且同一人身份的判断的准确性要求很高,不确定同名的两个人是同一个人的情况下,贸然将不同的数据进行合并,则可能产生关联网络构建的错误。目前识别企业间同名人的方法主要依赖于数据,如招聘数据、身份证数据。现有的情况是大多数数据来源都不会公布身份证信息;一则进行隐私保护,二则信息简化;比如工商登记信息中不含有股东等人的身份证信息。或者从其他海量的非正式文本比如新闻、舆情等中获取的数据中更不会含有身份证信息。因此面临巨大的实体识别需求,急需一种准确高效的企业自然人实体唯一性识别方法。
技术实现思路
本专利技术的目的在于提供企业自然人实体综合判断对齐方法及系统;充分挖掘数据的关联性,发挥数据集成分析的优势;引入机器学习方法,综合多个企业投资数据特征,对不同企业的重要同名自然人是否是同一自然人做出准确的判断。为解决上述技术问题,本专利技术实施例提供了以下技术方案:企业自然人实体综合判断对齐方法,利用企业投资关系的远近等特征来辅助判断不同企业间相同姓名的自然人是否是同一人。当两个企业投资关系度数小于设置阈值时,认为这两个企业间相同姓名的自然人是同一人。本专利中自然人为企业的主要股东、董事、监事、高管等。包含以下实现步骤:(1)获取企业数据,所述企业数据包含投资关系、主要相关自然人、企业地址、企业名称;(2)用包含企业间投资路径、企业名称相似性、企业地址相似性、同名自然人个数的特征向量来构建判断模型;(3)使用标注数据训练模型;(4)将待判定企业对之间的特征向量输入到训练后的模型中,由模型判断出同名自然人是否是同一人的概率;当概率值大于设置阈值时判断为同一人。进一步的,所述步骤(2)中的投资路径数据为两企业之间的最短投资路径。进一步的,所述方法包含将投资路径数据向量化转化的过程。进一步的,所述步骤(2)中所述特征向量为:x=[X1、X2、X3、X4…];其中X为待判定企业对的特征向量数据,X1为最短投资路径的倒数,X2为同名自然人个数、X3为企业名称关键字的相似度、X4企业地址的相似度。进一步的,所述模型公式为:其中f(x)为不同企业同名人为同一人的概率;其中θ为模型需要训练的参数,x为量化后的特征向量。进一步的,所述模型训练过程中损失函数的公式如下:其中j(θ)为损失函数,m为样本个数,y(i)为第i个样本的判断标注值,hθ(x(i))为第i样本的模型预测值,n为模型参数个数,λ为正则项参数。进一步的,当企业间的最短投资路径长度大于5时将最短投资路径向量为置为0。进一步的,所述企业名称相似性通过关键字最长公共子序列来计算。进一步的,所述企业地址相似性判断中按照省、市、区、街道、建筑的顺序进行逐级匹配,匹配成功为1,匹配失败相应位置为0。进一步的,所述企业地址相似性判断中包含对缺失地址补齐的步骤。进一步的,本专利技术提供一种基于关联网络的企业间同名人识别系统;包含数据获取模块,数据存储模块;数据处理模块;所述数据获取模块,获取待分析目标的相关数据;所述数据存储模块存储包括数据获取模块和数据处理模块的输出的数据;所述数据处理模块;通过上述企业自然人实体综合判断对齐方法完成判断不同企业信息中相同姓名的自然人是否是同一人。进一步的,本专利技术提供了一种电子设备,所述电子设备,所述电子设备包含存储器和处理器,所述存储器和处理器相连,所述处理器通过本专利技术方法来完成判断不同企业信息中相同姓名的自然人是否是同一人。进一步的,本专利技术提供一种包括计算机可读指令的计算机可读存储介质,所述计算机可读指令使得电子设备执行本专利技术方法所包含的操作步骤。与现有技术相比,本专利技术方法及系统具有以下有益效果:本专利技术方法及系统引入机器学习方法,综合多个企业投资数据特征,对不同企业的重要同名自然人是否是同一自然人做出准确的判断。选取企业投资路径的远近来作为判断相同姓名自然人是否是同一人的主要判断依据之一,充分使用企业投资数据的本来特性,同时借助企业名称、企业地址以及同名自然人数量等,综合特征来构建模型,集成多个特征,多个特征相互作用,共同得出计算结果,判断结果准确率非常高;充分挖掘数据的关联性,发挥数据集成分析的优势;为企业自然人实体对齐提供十分重要且有效的方法。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本专利技术的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。图1为本专利技术方法实现步骤示意图。图2为实施例1中企业投资网络示意图。图3为实施例2中所述系统的示意框图。具体实施方式下面将结合本专利技术实施例中附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本专利技术实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本专利技术的实施例的详细描述并非旨在限制要求保护的本专利技术的范围,而是仅仅表示本专利技术的选定实施例。基于本专利技术的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本专利技术保护的范围。为解决上述技术问题,本专利技术实施例提供了以下技术方案:企业自然人实体综合判断对齐方法,充分挖掘数据的关联性,发挥数据集成分析的优势;引入机器学习方法,综合多个企业投资数据特征,对不同企业的重要同名自然人是否是同一自然人做出准确的判断。企业投资关系的远近在很大程度上会反应出企业之间的密切程度;如果投资关系很近的两家企业在主要股东和高管中包含姓名相同的自然人;那么该自然是同一自然人的概率很高。将关联关系远近作为判断相同姓名自然人是否是同一自然人的依据,在企业最短投资路径判断技术成熟的基础上,巧妙应用企业关联关系;知识图谱技术等,极大的简化了自然人唯一性的判断计算过程,具有较高的准确性。为知识图谱的优化搭建,图谱推理调查等提供了数据保障。具体的包括以下步骤:...

【技术保护点】
1.企业自然人实体综合判断对齐方法,其特征在于,包含以下实现步骤:/n(1)获取企业数据,所述企业数据包含投资关系、主要相关自然人、企业地址、企业名称;/n(2)用包含企业间投资路径、企业名称相似性、企业地址相似性、同名自然人个数的特征向量来构建判断模型;/n(3)使用标注数据训练模型;/n(4)将待判定企业对之间的特征向量输入到训练后的模型中,由模型判断出同名自然人是否是同一人的概率;当概率值大于设置阈值时判断为同一人。/n

【技术特征摘要】
1.企业自然人实体综合判断对齐方法,其特征在于,包含以下实现步骤:
(1)获取企业数据,所述企业数据包含投资关系、主要相关自然人、企业地址、企业名称;
(2)用包含企业间投资路径、企业名称相似性、企业地址相似性、同名自然人个数的特征向量来构建判断模型;
(3)使用标注数据训练模型;
(4)将待判定企业对之间的特征向量输入到训练后的模型中,由模型判断出同名自然人是否是同一人的概率;当概率值大于设置阈值时判断为同一人。


2.如权利要求1所述的方法,其特征在于;所述步骤(2)中的投资路径数据为两企业之间的最短投资路径。


3.如权利要求2所述的方法,其特征在于;所述方法包含将投资路径数据向量化转化的过程。


4.如权利要求3所述的方法,其特征在于;所述步骤(2)中所述特征向量为:x=[X1、X2、X3、X4…];其中X为待判定企业对的特征向量数据,X1为最短投资路径的倒数,X2为同名自然人个数、X3为企业名称关键字的相似度、X4企业地址的相似度。


5.如权利要求4所述的方法,其特征在于,所述模型公式为:



其中f(x)为不同企业同名人为同一人的概率;其中θ为模型需要训练的参数,x为量化后的特征向量。


6.如权利要求5所述的方法,其特征在于,所述模型训练过程中损失函数的公式如下:



其中j(θ)为损失函数,m为样本个数,y(i)为第i个样本的判断...

【专利技术属性】
技术研发人员:李焕刘世林罗镇权张发展康青杨吴桐曾途
申请(专利权)人:成都数联铭品科技有限公司
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1