一种企业行业标签的生成方法及装置制造方法及图纸

技术编号:31984078 阅读:23 留言:0更新日期:2022-01-20 02:01
本申请公开了一种企业行业标签的生成方法及装置,所述方法包括:获取目标企业的名称以及经营范围信息;从目标企业的名称中提取出目标特征词;基于各个特征词与行业的对应关系,将与目标特征词相对应的行业,确定为目标企业的行业标签;若获取到目标企业的经营范围信息,利用预先训练好的行业分类模型中的分组模型对经营范围信息进行处理,得到目标企业属于各个小组的概率;基于目标企业属于各个小组的概率,选取出至少一个目标小组,并分别通过目标小组对应的模型对经营范围信息进行处理,得到目标企业所属的初选行业;从目标企业所属的初选行业中选取至少一个初选行业,确定为目标企业的行业标签;将确定的所有目标企业的行业标签汇总并输出。业标签汇总并输出。业标签汇总并输出。

【技术实现步骤摘要】
一种企业行业标签的生成方法及装置


[0001]本申请涉及行业划分
,特别涉及一种企业行业标签的生成方法及装置。

技术介绍

[0002]现今,在需要行业中,通常需要对各个企业打上所属的行业的标签,以便于对企业进行关联,或者基于行业标签与企业进行业务往来等。
[0003]现有的企业的行业标签通常由工作人员基于企业的相关信息,凭借个人经验或先前的标签生成记录,确定当前待确定的企业的行业,并录入相应的行业标签。
[0004]但是由于一个企业并不一定属于一个行业,并且个别行业先对冷门,所以通过人工标注的方式的准确性相对较低,并且效率相对较慢。

技术实现思路

[0005]基于上述现有技术的不足,本申请提供了一种企业行业标签的生成方法及装置,以解决现有的行业标签的生成方法的准确性以及效率相对较低的问题。
[0006]为了实现上述目的,本申请提供了以下技术方案:
[0007]本申请第一方面提供了一种企业行业标签的生成方法,包括:
[0008]获取目标企业的名称以及经营范围信息;
[0009]若获取到所述目标企业的名称,从所述目标企业的名称中提取出目标特征词;
[0010]基于预先确定的各个特征词与行业的对应关系,将与所述目标特征词相对应的行业,确定为所述目标企业的行业标签;其中,一个所述特征词对应的行业为所述特征词属于各个行业的概率中的最大值所对应的行业;所述特征词属于各个行业的概率利用统计得到的所述特征词在各个行业中的词频计算得到;
[0011]若获取到所述目标企业的经营范围信息,利用预先训练好的行业分类模型中的分组模型,对所述经营范围信息进行处理,得到所述目标企业属于各个小组的概率;
[0012]基于所述目标企业属于各个小组的概率,选取出至少一个目标小组,并分别通过所述目标小组对应的模型对所述经营范围信息进行处理,得到所述目标企业所属的初选行业;其中,各个所述小组对应的模型组成所述行业分类模型的第二层网络;
[0013]从所述目标企业所属的初选行业中选取至少一个初选行业,确定为所述目标企业的行业标签;
[0014]将确定的所有所述目标企业的行业标签汇总并输出。
[0015]可选地,在上述的方法中,所述基于所述目标企业属于各个小组的概率,选取出至少一个目标小组,并分别通过所述目标小组对应的模型对所述经营范围信息进行处理,得到所述目标企业所属的初选行业,包括:
[0016]若所述目标企业属于小规模企业,且从所述目标企业的名称中未提取出目标特征词,则从则将所述目标企业所属概率最大的所述小组作为目标小组;
[0017]通过所述目标小组对应的模型对所述经营范围信息进行处理,得到所述目标企业
属于多个行业的概率;
[0018]将所述目标企业属于多个行业的概率中的最大值对应的行业确定为所述目标企业所属的初选行业。
[0019]可选地,在上述的方法中,所述基于所述目标企业属于各个小组的概率,选取出至少一个目标小组,并分别通过所述目标小组对应的模型对所述经营范围信息进行处理,得到所述目标企业所属的初选行业,包括:
[0020]若所述目标企业不属于小规模企业,且从所述目标企业的名称中提取到目标特征词,判断所述目标企业属于各个小组的概率中的最大概率和第二大概率的差值是否小于第一阈值;其中,所述第二大概率为仅小于所述最大概率的概率值;
[0021]若判断出所述目标企业属于各个小组的概率中的最大概率和第二大概率的差值小于第一阈值,则将所述最大概率对应的小组以及将所述第二大概率对应的小组确定为目标小组;
[0022]分别针对每个目标小组,通过所述目标小组对应的模型对所述经营范围信息进行处理,得到所述目标小组对应的所述目标企业属于多个行业的概率;
[0023]将每个所述目标小组对应的所述目标企业属于多个行业的概率中的最大值对应的行业确定为所述目标企业所属的初选行业;
[0024]若判断出所述目标企业属于各个小组的概率中的最大概率和第二大概率的差值不小于第一阈值,则将所述最大概率对应的小组确定为目标小组;
[0025]通过所述目标小组对应的模型对所述经营范围信息进行处理,得到所述目标企业属于多个行业的概率;
[0026]将所述目标企业属于多个行业的概率中的最大值对应的行业确定为所述目标企业所属的初选行业。
[0027]可选地,在上述的方法中,所述基于所述目标企业属于各个小组的概率,选取出至少一个目标小组,并分别通过所述目标小组对应的模型对所述经营范围信息进行处理,得到所述目标企业所属的初选行业,包括:
[0028]若所述目标企业不属于小规模企业,且从所述目标企业的名称中未提取到目标特征词,则判断所述最大概率和所述第二大概率的差值是否小于第二阈值;
[0029]若所述最大概率和所述第二大概率的差值是否小于第二阈值,则将所述最大概率对应的小组以及将所述第二大概率对应的小组确定为目标小组;
[0030]分别针对每个目标小组,通过所述目标小组对应的模型对所述经营范围信息进行处理,得到所述目标小组对应的所述目标企业属于多个行业的概率;
[0031]按照从大到小的顺序,将每个所述目标小组对应的所述目标企业属于多个行业的概率中的前两名对应的行业,确定为所述目标企业所属的初选行业。
[0032]可选地,在上述的方法中,所述从所述目标企业所属的初选行业中选取至少一个初选行业,确定为所述目标企业的行业标签,包括:
[0033]若每个所述目标企业所属的初选行业均由不同的所述目标小组对应的模型得到,则将每个所述目标企业所属的初选行业均确定为所述目标企业的行业标签;
[0034]若任意两个所述目标企业所属的初选行业由同一的所述目标小组对应的模型得到,则将各个所述初选行业按照所述目标企业属于各个所述初选行业的概率从大到小的顺
序进行排序;
[0035]将排序在第一位的所述初选行业以及满足预设条件的各个所述初选行业,确定为所述目标企业的行业标签;其中,所述预设条件为当前的所述初选行业以及排序在当前的所述初选行业前的所有所述初选行业中,所述目标企业属于其中的任意两个相邻的所述初选行业的概率均小于第三阈值。
[0036]可选地,在上述的方法中,还包括:
[0037]获取文本语料;
[0038]从所述文本语料中提取出多个候选词;
[0039]计算每个所述候选词对应的评分;
[0040]按照评分从大到小的顺序对各个所述候选词进行排序,得到排序结果;
[0041]将所述排序结果中排序在前N位的所述候选词作为目标候选词;
[0042]针对每个所述目标候选词,若所述目标候选词不存在于词表中,则将所述目标候选词确定为新词;其中,所述词表中存储有已确定的各个行业的所述关键词。
[0043]可选地,在上述的方法中,还包括:
[0044]针对确定的每个所述目标企业的行业标签,将所述行本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种企业行业标签的生成方法,其特征在于,包括:获取目标企业的名称以及经营范围信息;若获取到所述目标企业的名称,从所述目标企业的名称中提取出目标特征词;基于预先确定的各个特征词与行业的对应关系,将与所述目标特征词相对应的行业,确定为所述目标企业的行业标签;其中,一个所述特征词对应的行业为所述特征词属于各个行业的概率中的最大值所对应的行业;所述特征词属于各个行业的概率利用统计得到的所述特征词在各个行业中的词频计算得到;若获取到所述目标企业的经营范围信息,利用预先训练好的行业分类模型中的分组模型,对所述经营范围信息进行处理,得到所述目标企业属于各个小组的概率;基于所述目标企业属于各个小组的概率,选取出至少一个目标小组,并分别通过各个所述目标小组对应的模型对所述经营范围信息进行处理,得到所述目标企业所属的初选行业;其中,各个所述小组对应的模型组成所述行业分类模型的第二层网络;从所述目标企业所属的初选行业中选取至少一个初选行业,确定为所述目标企业的行业标签;将确定的所有所述目标企业的行业标签汇总并输出。2.根据权利要求1所述的方法,其特征在于,所述基于所述目标企业属于各个小组的概率,选取出至少一个目标小组,并分别通过各个所述目标小组对应的模型对所述经营范围信息进行处理,得到所述目标企业所属的初选行业,包括:若所述目标企业属于小规模企业,且从所述目标企业的名称中未提取出目标特征词,则从则将所述目标企业所属概率最大的所述小组作为目标小组;通过所述目标小组对应的模型对所述经营范围信息进行处理,得到所述目标企业属于多个行业的概率;将所述目标企业属于多个行业的概率中的最大值对应的行业确定为所述目标企业所属的初选行业。3.根据权利要求2所述的方法,其特征在于,所述基于所述目标企业属于各个小组的概率,选取出至少一个目标小组,并分别通过各个所述目标小组对应的模型对所述经营范围信息进行处理,得到所述目标企业所属的初选行业,包括:若所述目标企业不属于小规模企业,且从所述目标企业的名称中提取到目标特征词,判断所述目标企业属于各个小组的概率中的最大概率和第二大概率的差值是否小于第一阈值;其中,所述第二大概率为仅小于所述最大概率的概率值;若判断出所述目标企业属于各个小组的概率中的最大概率和第二大概率的差值小于第一阈值,则将所述最大概率对应的小组以及将所述第二大概率对应的小组确定为目标小组;分别针对每个目标小组,通过所述目标小组对应的模型对所述经营范围信息进行处理,得到所述目标小组对应的所述目标企业属于多个行业的概率;将每个所述目标小组对应的所述目标企业属于多个行业的概率中的最大值对应的行业确定为所述目标企业所属的初选行业;若判断出所述目标企业属于各个小组的概率中的最大概率和第二大概率的差值不小于第一阈值,则将所述最大概率对应的小组确定为目标小组;
通过所述目标小组对应的模型对所述经营范围信息进行处理,得到所述目标企业属于多个行业的概率;将所述目标企业属于多个行业的概率中的最大值对应的行业确定为所述目标企业所属的初选行业。4.根据权利要求3所述的方法,其特征在于,所述基于所述目标企业属于各个小组的概率,选取出至少一个目标小组,并分别通过各个所述目标小组对应的模型对所述经营范围信息进行处理,得到所述目标企业所属的初选行业,包括:若所述目标企业不属于小规模企业,且从所述目标企业的名称中未提取到目标特征词,则判断所述最大概率和所述第二大概率的差值是否小于第二阈值;若所述最大概率和所述第二大概率的差值是否小于第二阈值,则将所述最大概率对应的小组以及将所述第二大概率对应的小组确定为目标小组;分别针对每个目标小组,通过所述目标小组对应的模型对所述经营范围信息进行处理,得到所述目标小组对应的所述目标企业属于多个行业的概率;按照从大到小的顺序,将每个所述目标小组对应的所述目标企业属于多个行业的概率中的前两名对应的行业,确定为所述目标企业所属的初选行业。5.根据权利要求1至4任意一项所述方法,其特征在于,所述从所述目标企业所属的初选行业中选取至少一个初选行业,确定为所述目标企业的行业标签,包括:若每个所述目标企业所属的初选行业均由不同的所述目标小组对应的模型得到,则将每个所述目标企业所属的初选行业均确定为所述目标企业的行业标签;若任意两个所述目标企业所属的初选行业由同一的所述目标小组对应的模型得到,则将各个所述初选行业按照所述目标企业属于各个所述初选行业的概率从大到小的顺序进行排序;将排序在第一位的所述初选行业以及满足预设条件的各个所述初选行业,确定为所述目标企业的行业标签;其中,所述预设条件为当前的所述初选行业以及排序在当前的所述初选行业前的所有所述初选行...

【专利技术属性】
技术研发人员:汪郑秒刘宏吉周继顺杨琳秦海龙
申请(专利权)人:中国建设银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1