The invention provides a method and device for distinguishing celebrities from enterprises. The method comprises: obtaining related query names linked set of enterprise; enterprise association table names gets the set of enterprises; according to the relation table of the names of enterprises, enterprises of the enterprise each vector generation enterprise set corresponding to the enterprise; vector clustering, generating the query the names of the enterprises set. Heavy celebrity enterprises the embodiment of the invention provides a method and a device for distinguishing, related to the query name associated with each enterprise to generate the corresponding vector quantization, the enterprise, according to the results of cluster enterprise vector generation enterprise name query sub set, so that the same enterprise subset corresponding to the query names for the same a natural person, which will be enterprise celebrity to distinguish, and can visually see each natural person of the enterprise, in order to carry out a variety of subsequent analysis and investigation.
【技术实现步骤摘要】
一种企业重名人区分方法及装置
本专利技术涉及信息检索
,具体涉及一种企业重名人区分方法及装置。
技术介绍
在日常生活中,人们经常需要查询某些人作为高管、法人等的公司信息,以便进行后续的各种分析和调查。然而在进行企业信息检索查询时,经常遇到相同人名的情况。例如,在企业信息检索库中查询“张三”作为高管的公司,检索结果可能出现X公司、Y公司、C公司等上百家公司,作为这些公司高管的张三可能指代的是不同的自然人。现有的企业信息检索系统无法区分哪些“张三”是同一个自然人,并对应哪些公司,对查询用户造成困扰。因此,对企业重名人进行区分的需求是目前业界亟待解决的重要课题。
技术实现思路
针对现有技术中的缺陷,本专利技术实施例提供了一种企业重名人区分方法及装置。第一方面,本专利技术实施例提供一种企业重名人区分方法,所述方法包括:获取与待查询人名相关联的企业集合;获取所述企业集合的人名-企业关联关系表;根据所述人名-企业关联关系表,生成所述企业集合中每个企业对应的企业向量;对所述企业向量聚类,生成所述待查询人名的企业子集合。第二方面,本专利技术实施例提供一种企业重名人区分装置,所述装置包括:第一获取模块,用于获取与待查询人名相关联的企业集合;第二获取模块,用于获取所述企业集合的人名-企业关联关系表;企业向量化模块,用于根据所述人名-企业关联关系表,生成所述企业集合中每个企业对应的企业向量;聚类模块,用于对所述企业向量聚类,生成所述待查询人名的企业子集合。第三方面,本专利技术实施例提供一种电子设备,包括:存储器和处理器,所述处理器和所述存储器通过总线完成相互间的通信;所述存储 ...
【技术保护点】
一种企业重名人区分方法,其特征在于,包括:获取与待查询人名相关联的企业集合;获取所述企业集合的人名‑企业关联关系表;根据所述人名‑企业关联关系表,生成所述企业集合中每个企业对应的企业向量;对所述企业向量聚类,生成所述待查询人名的企业子集合。
【技术特征摘要】
1.一种企业重名人区分方法,其特征在于,包括:获取与待查询人名相关联的企业集合;获取所述企业集合的人名-企业关联关系表;根据所述人名-企业关联关系表,生成所述企业集合中每个企业对应的企业向量;对所述企业向量聚类,生成所述待查询人名的企业子集合。2.根据权利要求1所述的方法,其特征在于,所述获取所述企业集合的人名-企业关联关系表,包括:获取与所述企业集合中每个企业相关联的人名;获取与所述企业集合中每个企业相关联的企业;根据所述每个企业相关联的人名和所述每个企业相关联的企业生成所述每个企业的人名-企业关联关系,根据所述人名-企业关联关系生成所述企业集合的人名-企业关联关系表。3.根据权利要求2所述的方法,其特征在于,所述根据所述人名-企业关联关系表,生成所述企业集合中每个企业对应的企业向量,包括:获取所述人名-企业关联关系表中的所有人名;获取所述人名-企业关联关系表中的所有企业;根据所述所有人名和所述所有企业生成所述每个企业对应的企业向量,根据所述人名-企业关联关系,将所述企业向量中与所述企业相关联的元素标记为1,与所述企业无关联的元素标记为0。4.根据权利要求3所述的方法,其特征在于,所述对所述企业向量聚类,生成所述待查询人名的企业子集合包括:根据下述公式计算待划分的企业集合:Di=Di-1-Ci-1,(i>0)其中,D0为所述与待查询人名相关联的企业集合,C0为空集,Di为第i个待划分的企业集合,Ci为第i个企业子集;计算企业向量Dij与企业向量Dik的距离,若所述距离小于预设阈值,则将Dij所对应的企业划分至Ci中,其中,Dij为Di中的第j个企业所对应的企业向量,Dik为Di中的参考企业所对应的企业向量;根据所述Ci组成所述待查询人名的企业子集合。5.根据权利要求4所述的方法,其特征在于,所述计算企业向量Dij与企业向量Dik的距离具体为:根据下述公式计算企业向量的距离:
【专利技术属性】
技术研发人员:程浩,张快,
申请(专利权)人:北京金堤科技有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。