嵌入向量的生成方法、基于企业对的同名人员分类方法及装置制造方法及图纸

技术编号:34519805 阅读:21 留言:0更新日期:2022-08-13 21:08
本发明专利技术公开了一种嵌入向量的生成方法、基于企业对的同名人员分类方法及装置,该方法包括:以企业关联关系数据库中每个企业为节点、以每个企业之间的所有关联关系信息的权重之和为边,生成企业关联关系同构图;对企业关联关系同构图进行采样,得到每个企业的采样序列;采用预设的自然语言处理模型对每个企业的采样序列进行训练处理,得到每个企业的嵌入向量。本发明专利技术实施例提供的方法及装置,通过采用同构图构建企业关联关系图,结构简单;同时避免了部分关联关系无法转化为标签构建关系图的问题,可以实现所有关联关系均包含在关系图中;并且新增企业以及企业关系可以直接通过增加节点以及边权重的方法实现,易于引入新的企业以及企业间关系。业以及企业间关系。业以及企业间关系。

【技术实现步骤摘要】
嵌入向量的生成方法、基于企业对的同名人员分类方法及装置


[0001]本专利技术涉及图像检测
,具体而言,涉及一种嵌入向量的生成方法、基于企业对的同名人员分类方法、装置、计算机可读存储介质及电子设备。

技术介绍

[0002]自然人人名消歧是企业信息分析中的难题。在工商公开信息中,对于企业的相关人员,官方披露仅包含人员姓名,不包含人员的唯一身份识别代码,因此当两家企业同时出现两个相同的人名时,难以判断两人是否为同一人。
[0003]传统方法中解决人名消歧一般依赖人为设定策略进行关系判断,判断的准确性受限于人工策略的完备程度。同时,由于企业信息的复杂性,人工策略难以深入利用企业的多维度信息,导致结果准确率较低。

技术实现思路

[0004]鉴于此,本专利技术提出了一种嵌入向量的生成方法、基于企业对的同名人员分类方法、装置、计算机可读存储介质及电子设备,以解决现有技术中两家企业同时出现两个相同的人名时难以判断是否为同一个人的问题。
[0005]第一方面,本专利技术实施例提供了一种嵌入向量的生成方法,所述方法包括:以企业关联关系数据库中每个企业为节点、以每个企业之间的所有关联关系信息的权重之和为边,生成企业关联关系同构图;对所述企业关联关系同构图进行采样,得到每个企业的采样序列;采用预设的自然语言处理模型对所述每个企业的采样序列进行训练处理,得到每个企业的嵌入向量。
[0006]进一步地,所述对所述企业关联关系同构图进行采样,得到每个企业的采样序列,包括:以所述企业关联关系同构图中每个节点为起点,沿着边进行随机游走,直至途径k个节点,得到每个企业的游走序列,其中k为正整数。
[0007]进一步地,当一个节点具有多个边时,所述沿着边进行随机游走,包括:根据同一个节点的每条边在所有边中所占的权重,确定沿着每条边进行随机游走的概率。
[0008]进一步地,所述采用预设的自然语言处理模型对所述每个企业的采样序列进行训练处理,得到每个企业的嵌入向量,包括:采用预设的word2vec自然语言处理模型对所述每个企业的采样序列进行训练处理,得到每个企业的嵌入向量。
[0009]第二方面,本专利技术实施例还提供了一种基于企业对的同名人员分类方法,所述方法包括:在待分类企业对中的两家企业均在当前的企业关联关系同构图中的情况下,从预先采用上述各实施例提供的方法得到的嵌入向量中,提取待分类企业对中两家企业的嵌入向量;将所述两家企业的嵌入向量输入预先构建的二分类模型进行预测,得到预测结果;其中,所述企业对由同名人员名下的两个企业组成。
[0010]进一步地,所述方法还包括:在待分类企业对中的两家企业存在至少一家企业不
在所述当前的企业关联关系同构图中的情况下,将未在所述当前的企业关联关系同构图中的企业添加至所述当前的企业关联关系同构图中,生成最新的企业关联关系同构图;采用与待分类企业对中的两家企业均在当前的企业关联关系同构图中类似的企业对分类方法进行企业对分类。
[0011]进一步地,所述将未在所述当前的企业关联关系同构图中的企业添加至所述当前的企业关联关系同构图中,包括:寻找与未在所述当前的企业关联关系同构图中的企业具有关联关系的企业,将所述未在所述当前的企业关联关系同构图中的企业作为新的节点以及其与具有关联关系的企业之间的所有关联关系的权重之和作为新的边添加至所述当前的企业关联关系同构图中。
[0012]进一步地,所述预测结果包括将企业对划分为正标签或负标签,其中,正负标签基于所述企业对是否属于同一个自然人划分得到。
[0013]进一步地,所述二分类模型预先采用如下方法构建得到:获取带正负标签的企业对;从所述嵌入向量中,提取带正负标签的企业对中每个企业的嵌入向量,形成企业对的嵌入向量对;将所述企业对的嵌入向量对输入到初始的二分类模型进行标签类别预测,得到企业对的预测标签;根据企业对的所带正负标签和所述预测标签计算评价指标值,并通过所述评价指标值确定初始的所述二分类模型的阈值,得到最终的二分类模型。
[0014]进一步地,所述通过所述评价指标值确定初始的所述二分类模型的阈值,包括:从初始的所述二分类模型的阈值范围中,选取所述评价指标值最高时所对应的阈值;其中,初始的所述二分类模型的阈值范围通过计算所有带正或负标签的企业对的嵌入向量对中两个嵌入向量的余弦相似度得到。
[0015]进一步地,所述将所述两家企业的嵌入向量输入预先构建的二分类模型进行预测,得到预测结果之前,还包括:将待分类企业对中两家企业的嵌入向量输入同一个全连接网络,得到转换后的两家企业的嵌入向量。
[0016]第三方面,本专利技术实施例提供了一种嵌入向量的生成装置,所述装置包括:同构图生成单元,用于以企业关联关系数据库中每个企业为节点、以每个企业之间的所有关联关系信息的权重之和为边,生成企业关联关系同构图;采样单元,用于对所述企业关联关系同构图进行采样,得到每个企业的采样序列;处理单元,用于采用预设的自然语言处理模型对所述每个企业的采样序列进行训练处理,得到每个企业的嵌入向量。
[0017]进一步地,所述采样单元,还用于:以所述企业关联关系同构图中每个节点为起点,沿着边进行随机游走,直至途径k个节点,得到每个企业的游走序列,其中k为正整数。
[0018]进一步地,当一个节点具有多个边时,所述沿着边进行随机游走,包括:根据同一个节点的每条边在所有边中所占的权重,确定沿着每条边进行随机游走的概率。
[0019]进一步地,所述处理单元,还用于:采用预设的word2vec自然语言处理模型对所述每个企业的采样序列进行训练处理,得到每个企业的嵌入向量。
[0020]第四方面,本专利技术实施例还提供了一种基于企业对的同名人员分类装置,所述装置包括:在待分类企业对中的两家企业均在当前的企业关联关系同构图中的情况下,嵌入向量提取单元,用于从预先采用上述各实施例提供的方法得到的嵌入向量中,提取待分类企业对中两家企业的嵌入向量;分类单元,用于将所述两家企业的嵌入向量输入预先构建的二分类模型进行预测,得到预测结果;其中,所述企业对由同名人员名下的两个企业组
成。
[0021]进一步地,所述装置还包括:在待分类企业对中的两家企业存在至少一家企业不在所述当前的企业关联关系同构图中的情况下,添加单元,用于将未在所述当前的企业关联关系同构图中的企业添加至所述当前的企业关联关系同构图中,生成最新的企业关联关系同构图;采用与待分类企业对中的两家企业均在当前的企业关联关系同构图中类似的企业对分类方法进行企业对分类。
[0022]进一步地,所述将未在所述当前的企业关联关系同构图中的企业添加至所述当前的企业关联关系同构图中,包括:寻找与未在所述当前的企业关联关系同构图中的企业具有关联关系的企业,将所述未在所述当前的企业关联关系同构图中的企业作为新的节点以及其与具有关联关系的企业之间的所有关联关系的权重之和作为新的边添加至所述当前的企业关联关系同构图中。
[0023]进一步地,所述预测结果包括本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种嵌入向量的生成方法,其特征在于,所述方法包括:以企业关联关系数据库中每个企业为节点、以每个企业之间的所有关联关系信息的权重之和为边,生成企业关联关系同构图;对所述企业关联关系同构图进行采样,得到每个企业的采样序列;采用预设的自然语言处理模型对所述每个企业的采样序列进行训练处理,得到每个企业的嵌入向量。2.根据权利要求1所述的方法,其特征在于,所述对所述企业关联关系同构图进行采样,得到每个企业的采样序列,包括:以所述企业关联关系同构图中每个节点为起点,沿着边进行随机游走,直至途径k个节点,得到每个企业的游走序列,其中k为正整数。3.根据权利要求2所述的方法,其特征在于,当一个节点具有多个边时,所述沿着边进行随机游走,包括:根据同一个节点的每条边在所有边中所占的权重,确定沿着每条边进行随机游走的概率。4.根据权利要求1所述的方法,其特征在于,所述采用预设的自然语言处理模型对所述每个企业的采样序列进行训练处理,得到每个企业的嵌入向量,包括:采用预设的word2vec自然语言处理模型对所述每个企业的采样序列进行训练处理,得到每个企业的嵌入向量。5.一种基于企业对的同名人员分类方法,其特征在于,所述方法包括:在待分类企业对中的两家企业均在当前的企业关联关系同构图中的情况下,从预先采用如权利要求1

4任一所述方法得到的嵌入向量中,提取待分类企业对中两家企业的嵌入向量;将所述两家企业的嵌入向量输入预先构建的二分类模型进行预测,得到预测结果;其中,所述企业对由同名人员名下的两个企业组成。6.根据权利要求5所述的方法,其特征在于,所述方法还包括:在待分类企业对中的两家企业存在至少一家企业不在所述当前的企业关联关系同构图中的情况下,将未在所述当前的企业关联关系同构图中的企业添加至所述当前的企业关联关系同构图中,生成最新的企业关联关系同构图;采用与待分类企业对中的两家企业均在当前的企业关联关系同构图中类似的企业对分类方法进行企业对分类。7.根据权利要求6所述的方法,其特征在于,所述将未在所述当前的企业关联关系同构图中的企业添加至所述当前的企业关联关系同构图中,包括:寻找与未在所述当前的企业关联关系同构图中的企业具有关联关系的企业,将所述未在所述当前的企业关联关系同构图中的企业作为新的节点以及其与具有关联关系的企业之间的所有关联关系的权重之和作为新的边添加至所述当前的企业关联关系同构图中。8.根据权利要求5

7任一所述的方法,其特征在于,所述预测结果包括将企业对划分为正标签或负标签,其中,正负标签基于所述企业对是否属于同一个自然...

【专利技术属性】
技术研发人员:温嘉瑶
申请(专利权)人:河南天眼查科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1