一种企业关系挖掘方法技术

技术编号:22883933 阅读:42 留言:0更新日期:2019-12-21 07:17
一种企业关系挖掘方法,属于数据挖掘领域,包括:关系定义:企业关系包括法人关系、股东关系、任职关系、分支机构关系、对外投资关系和竞争关系;数据获取:企业数据包括营业执照信息、股东信息、员工信息、分支机构信息和经营范围标注信息;数据清洗:检查数据一致性、处理无效值和缺失值;多源数据融合:将调查、分析得到的所有信息综合到一起,并对所有信息进行统一的评价;关系抽取。企业关系挖掘是构建企业关系图谱的核心,企业关系图谱可将企业关系以结构化的图形展示给用户,方便用户快速理解和进一步探索。挖掘企业关系可以发现企业社交圈、发现企业投资圈、发现企业股权结构、发现企业实际控制人、进行企业风险评估等。

An enterprise relationship mining method

【技术实现步骤摘要】
一种企业关系挖掘方法
本专利技术属于数据挖掘
,具体涉及一种企业关系挖掘方法。
技术介绍
2012年,谷歌提出了知识图谱的概念,用于增强搜索引擎功能。知识图谱是对客观物理世界的一种结构化的符号表达,也是一个网状知识库,它由具有属性的实体通过关系链接而成,关系也包含自身的属性。从图论的角度理解,知识图谱其在本质上是一种概念网络,其节点表示客观物理世界中的实体,而边则表示实体之间存在的各种语义关系。企业与企业之间、企业与人物之间存在着各种关系。通过这些关系,可以构建企业关系网络,也就是企业知识图谱。构建企业知识图谱,能够帮助我们从大量杂乱的数据中挖掘出企业潜在关联,生成企业画像。企业知识图谱构建的关键点在于企业关系挖掘。企业关系挖掘常用的方法有基于规则的方法、基于有监督的统计学习的方法、无监督的开放关系抽取方法、引入第三方数据等。其中,基于规则的方法是使用关系抽取模板从文本中抽取实体关系的一种方法;基于有监督的统计学习的方法是将关系抽取任务转变为分类问题的一种方法;无监督的开放关系抽取方法的主要思想是将所有的动词短语都看作是潜在的关系本文档来自技高网...

【技术保护点】
1.一种企业关系挖掘方法,其特征在于,包括以下步骤:/n步骤一、关系定义/n企业关系包括法人关系、股东关系、任职关系、分支机构关系、对外投资关系和竞争关系;/n步骤二、数据获取/n企业数据包括营业执照信息、股东信息、员工信息、分支机构信息和经营范围标注信息;/n步骤三、数据清洗/n检查数据一致性、处理无效值和缺失值;/n步骤四、多源数据融合/n将调查、分析得到的所有信息综合到一起,并对所有信息进行统一的评价;/n步骤五、关系抽取。/n

【技术特征摘要】
1.一种企业关系挖掘方法,其特征在于,包括以下步骤:
步骤一、关系定义
企业关系包括法人关系、股东关系、任职关系、分支机构关系、对外投资关系和竞争关系;
步骤二、数据获取
企业数据包括营业执照信息、股东信息、员工信息、分支机构信息和经营范围标注信息;
步骤三、数据清洗
检查数据一致性、处理无效值和缺失值;
步骤四、多源数据融合
将调查、分析得到的所有信息综合到一起,并对所有信息进行统一的评价;
步骤五、关系抽取。


2.根据权利要求1所述的一种企业关系挖掘方法,其特征在于,步骤一具体包括以下步骤:
S101:法人关系
法定代表人是由出资人或股东依法设立的公司所有事项负责人,法定代表人与公司关系密切,法定代表人和公司之间有法人关系;
S102:股东关系
股东是公司的资金投入者,将发起人和投资人统称为股东,股东可以分为个人股东和企业股东,个人股东、企业股东都和公司之间有股东关系;
S103:任职关系
公司的员工和公司之间有任职关系,公司的员工包括董事、高管、普通员工;
S104:分支机构关系
分支机构是总公司所属的不具有独立法人地位的派出机构,分支机构在不同的企业或行业有不同的名称,分支机构和总公司有分支机构关系;
S105:对外投资关系
企业以企业的名义去投资其他企业,成为其它企业的股东,企业和被投资的企业之间有对外投资关系;
S106:竞争关系
同一行业的企业存在竞争关系,经营范围重叠度高的企业之间竞争关系强,重叠度低的企业竞争关系弱,地理位置相距远的企业之间竞争关系弱,地理位置相距近的企业之间竞争关系强。


3.根据权利要求2所述的一种企业关系挖掘方法,其特征在于,步骤二具体包括以下步骤:
S201:营业执照信息
营业执照信息包括统一社会信用代码、企业名称、法定代表人、登记机关、住所、经营范围;
数据来源:黄页88网站、一呼百应网站、全国企业信用信息公示系统网站;
数据获取方法为:
S20101:建立企业名录
分别打开黄页88网站和一呼百应网站,找到企业名录列表并下载企业名称数据到数据库表即企业名录表;
S20102:查询条件
打开全国企业信用信息公示系统网站,在查询框内输入企业名录表内的第一个企业名,并下载查询到的营业执照信息数据到数据库表即企业营业执照信息表;
S20103:重复查询
重复步骤S20102,依次录入企业名录表的下一个企业名,直至所有单位查询完毕;
S202:股东信息
股东信息包括股东名称、股东类型、证件类型、证件号码;
数据来源:全国企业信用信息公示系统网站、百度信用网站、天眼查网站、企查查网站、启信宝网站;
数据获取方法为:
S20201:查询条件
分别打开数据来源中的网站,在查询框内输入企业名录表内的第一个企业名,并下载查询到的股东信息数据到数据库表即企业股东信息表;
S20202:重复查询
重复步骤S20201,依次录入企业名录表的下一个企业名,直至所有单位查询完毕;
S203:员工信息
员工信息包括员工姓名、职位;
数据来源:全国企业信用信息公示系统网站;
数据获取方法为:
S20301:查询条件
打开全国企业信用信息公示系统网站,在查询框内输入企业名录表内的第一个企业名,下载查询到的企业主要员工信息数据到数据库表即企业员工信息表;
S20302:重复查询
重复步骤S20301,依次录入企业名录表的下一个企业名,直至所有单位查询完毕;
S204:分支机构信息
分级机构信息包括分支机构统一社会信用代码、分支机构名称;
数据来源:全国企业信用信息公示系统网站、启信宝、天眼查;
数据获取方法为:
S20401:查询条件
分别打开数据来源中的网站,在查询框内输入企业名录表内的第一个企业名,并下载查询到的分支机构信息数据到数据库表即企业分支机构信息表;
S20402:重复查询
重复步骤S20401,依次录入企业名录表的下一个企业名,直至所有单位查询完毕;
S205:经营范围标注信息
经营范围标注信息包括企业名称、经营范围、所属行业;
数据来源:天眼查网站;
数据获取方法为:
S20501:查询条件
打开天眼查网站,在查询框内输入企业名录表内的第一个企业名,并下载查询到的分支机构信息数据到数据库表即企业经营范围标注表;
S20502:重复查询
重复步骤S20501,依次录入企业名录表的下一个企业名,直至所有单位查询完毕。


4.根据权利要求3所述的一种企业关系挖掘方法,其特征在于,步骤三具体包括以下步骤:
S301:一致性检查
根据每个变量的合理取值范围和相互关系,检查数据是否合乎要求,发现超出正常范围、逻辑上不合理或相互矛盾的数据;
S302:无效值和缺失值处理。


5.根据权利要求4所述的一种企业关系挖掘方法,其特征在于,步骤301具体包括以下步骤:
S30101:统一社会信用代码检查
统一社会信用代码编码是18位阿拉伯字母或者大写英文字母,不符合编码规则的数据都被重置为空;
S30102:股东类型检查
股东类型取值包括股东、自然人股东、企业股东、其他投资者、内资合伙企业、企业法人、法人股东,其他取值或空值重置为股东;
S30103:证件类型检查
股东信息中的证件类型取值包括合伙企业营业执照、公司法人营业执照,其他取值重置为空。


6.根据权利要求5所述的一种企业关系挖掘方法,其特征在于,步骤302具体包括以下步骤:
S30201:股东信息处理
股东信息表中的股东姓名字段缺失则删掉此条股东信息记录;
S30202:员工信息处理
员工信息表中员工姓名字段缺失则删掉此条员工信息记录;
S30203:分支机构信息处理
分支机构信息表中分支机构名称字段缺失则删掉此条分支机构信息记录。


7.根据权利要求6所述的一种企业关系挖掘方法,其特征在于,步骤四具体包括以下步骤:
S401:企业名录去重
企业名录从两个源数据获取,企业名称存在重叠现象。多源数据进行融合时需要进行去重处理;
企业名录表的主键为企业名称,在Oracle...

【专利技术属性】
技术研发人员:马越吕东方梁贝贝李涛杨茜姜涛
申请(专利权)人:长春市万易科技有限公司
类型:发明
国别省市:吉林;22

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1