一种基于大数据的企业行业分类方法、系统、设备及介质技术方案

技术编号:39181752 阅读:8 留言:0更新日期:2023-10-27 08:29
一种基于大数据的企业行业分类方法、系统、设备及介质,涉及计算机技术领域。在该方法中,包括以下步骤:获取待分类企业的企业信息;根据企业信息提取待分类企业的企业关键词,并基于企业关键词确定待分类企业的企业关键词集;通过预置的相似度计算模型分别计算企业关键词集与各预置的行业关键词集之间的相似度;选取相似度大于相似度阈值的行业关键词集对应的行业类别作为待分类企业的备选所属行业。通过采用本申请提供的技术方案,在对待分类企业进行企业行业分类时,考虑各行业类别的多维数据,有利于提升企业行业分类的准确性。有利于提升企业行业分类的准确性。有利于提升企业行业分类的准确性。

【技术实现步骤摘要】
一种基于大数据的企业行业分类方法、系统、设备及介质


[0001]本申请涉及计算机
,尤其是涉及一种基于大数据的企业行业分类方法、系统、设备及介质。

技术介绍

[0002]国民经济行业分类时指将各个行业按照其生产和经营活动的不同特征进行分类的一种标准化方法,目前,由国家统计局发布的《国民经济行业分类》是最为常用的行业分类标准。
[0003]对于每个企业而言,企业的行业标签是一个非常重要的字段,通过企业的行业标签,能够很好的反映出企业的主要经营业务。因此在一个企业数据库中,需要对企业进行行业分类以确定企业的行业标签。
[0004]目前的企业行业分类方法通常是基于单一指标或少数指标来对企业行业所属进行分类,这种方法容易受到企业自身信息的限制,进而导致企业行业分类的不准确。

技术实现思路

[0005]为了提升企业行业分类的准确性,本申请提供一种基于大数据的企业行业分类方法、系统、设备及介质。
[0006]第一方面,本申请提供了一种基于大数据的企业行业分类方法,所述方法包括以下步骤:获取待分类企业的企业信息;根据所述企业信息提取所述待分类企业的企业关键词,并基于所述企业关键词确定所述待分类企业的企业关键词集;通过预置的相似度计算模型分别计算所述企业关键词集与预置的各行业关键词集之间的相似度;选取所述相似度大于相似度阈值的所述行业关键词集对应的行业类别作为所述待分类企业的备选所属行业。
[0007]通过采用上述技术方案,基于待分类企业的企业信息确定待分类企业的企业关键词集,基于各行业类别的行业关键词确定各行业类别的行业关键词集,通过计算企业关键词集与行业关键词集之间的相似度确定待分类企业的备选所属行业。在进行企业关键词集与行业关键词集的确定时,考虑多维度的企业信息与行业数据,从而更加准确的对待分类企业与各行业类别进行描述,有利于提升企业行业分类的准确性。
[0008]可选的,在选取所述相似度大于相似度阈值的所述行业关键词集对应的行业类别作为所述待分类企业的备选所属行业后,还包括:判断所述待分类企业的所述备选所属行业是否唯一;若否,则确定所述待分类企业的关联企业,并获取各所述关联企业的关联企业信息,所述关联企业信息包括关联企业关联关系信息与关联企业行业分类信息;
根据所述关联企业信息在若干个所述备选所属行业中确定所述待分类企业的所述所属行业。
[0009]通过采用上述技术方案,待分类企业在进行企业行业分类时,可能由于待分类企业的本身属性导致其所属行业较为模糊,此时可能会出现待分类企业重组多个备选所属行业的情况,这些备选所属行业的相似度均大于相似度阈值。此时基于待分类企业的关联企业的关联企业信息对待分类企业进行进一步分类,从而进一步确定待分类企业的准确的所属行业,进一步提高企业行业分类的准确性。
[0010]可选的,在判断所述待分类企业的所述备选所属行业是否唯一后,还包括:若是,则将所述备选所属行业作为所述待分类企业的所属行业。
[0011]通过采用上述技术方案,当待分类企业的备选所属行业唯一时,说明待分类企业具备鲜明的行业特征,此时直接将备选所属行业作为待分类企业的所属行业,完成待分类企业的企业行业分类。
[0012]可选的,在获取待分类企业的企业信息前,还包括行业关键词集创建方法,所述行业关键词集创建方法具体包括:获取国民经济行业分类文件;创建与国民经济行业分类文件规定的行业类别对应的多个所述行业关键词集;获取各所述行业关键词集对应的行业类别的行业关键词;将各行业类别的所述行业关键词分别存放至对应的所述行业关键词集中,完成各所述行业关键词集的创建。
[0013]通过采用上述技术方案,根据国民经济行业分类文件规定的行业类别完成行业关键词集的创建,从而通过行业关键词集对各个行业类别进行描述。
[0014]可选的,在获取各所述行业关键词集对应的行业类别的行业关键词中,具体包括:对于一所述行业关键词集,根据所述国民经济行业分类文件中对所述行业关键词集对应的行业类别的行业注释获取第一行业关键词;获取预置的企业数据库中的同行业企业的所述企业信息,所述同行业企业的所述所属行业与所述行业关键词集对应的行业类别相同;根据所述同行业企业的所述企业信息获取第二行业关键词。
[0015]通过采用上述技术方案,国民经济行业分类文件是由国家规定的企业行业分类标准,国民经济行业分类文件中对行业关键词集对应的行业类别的行业注释用于对该行业类别的行业特征进行说明,能够较好的对该行业类别进行描述。根据行业注释获取的第一行业关键词能够从全局上对该行业类别进行解释,从而实现对行业类别的抽象化描述;但国民经济行业分类文件中对行业关键词集对应的行业类别的行业注释对于该行业类别的描述不够全面,通过同行业企业的企业信息提取该行业类别的第二行业关键词,从而对该行业类别进行进一步的描述,有利于提高行业关键词集对对应行业类别的可解释性。
[0016]可选的,在根据所述关联企业信息在若干个所述备选所属行业中确定所述待分类企业的所述所属行业中,具体包括:根据预置的综合行业评分计算规则对所述关联企业信息与各所述备选所属行业的所述相似度进行处理,计算得出各所述备选所属行业的综合行业评分;选取所述综合行业评分最高的所述备选所属行业作为所述待分类企业的所述所
属行业。
[0017]通过采用上述技术方案,对各个备选所属行业基于综合行业评分进行评价,综合行业评分进一步反映了各个备选所属行业与待分类企业的相似程度,从而从多个备选所属行业中选取出待分类企业的所属行业,进一步提升企业行业分类的准确性。
[0018]可选的,在根据预置的综合行业评分计算规则对所述关联企业信息与各所述备选所属行业的所述相似度进行处理,计算得出各所述备选所属行业的综合行业评分中,具体包括:对于一所述备选所属行业,将该所述备选所属行业与所述待分类企业的所述相似度作为第一行业评分;在所述待分类企业的所述关联企业中确定与该所述备选所属行业的行业类别相同的相同行业关联企业;根据所述相同行业关联企业的所述关联企业信息计算第二行业评分;对所述第一行业评分与所述第二行业评分进行加权计算,完成该所述备选所属行业的所述综合行业评分的计算。
[0019]通过采用上述技术方案,综合行业评分一方面考虑备选所属行业与待分类企业的相似度,另一方面考虑各备选所属行业的相同行业关联企业,这些相同行业关联企业属于需要计算综合行业评分的备选所属行业,同时与待分类企业具有关联关系,通过相同行业关联企业可以进一步对待分类企业所属何种备选所属行业的可能性进行描述,从而使得计算出的备选所属行业的综合行业评分更具说服力。
[0020]在本申请的第二方面提供了一种基于大数据的企业行业分类系统,所述系统包括以下模块:企业信息获取模块(301),用于获取待分类企业的企业信息;企业关键词提取模块(302),用于根据所述企业信息提取所述待分类企业的企业关键词,并基于所述企业关键词确定所述待分类企业的企业关键词集;相似度计算模块(303),用于本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于大数据的企业行业分类方法,其特征在于,所述方法包括以下步骤:获取待分类企业的企业信息;根据所述企业信息提取所述待分类企业的企业关键词,并基于所述企业关键词确定所述待分类企业的企业关键词集;通过预置的相似度计算模型分别计算所述企业关键词集与预置的各行业关键词集之间的相似度;选取所述相似度大于相似度阈值的所述行业关键词集对应的行业类别作为所述待分类企业的备选所属行业。2.根据权利要求1所述的基于大数据的企业行业分类方法,其特征在于,在选取所述相似度大于相似度阈值的所述行业关键词集对应的行业类别作为所述待分类企业的备选所属行业后,还包括:判断所述待分类企业的所述备选所属行业是否唯一;若否,则确定所述待分类企业的关联企业,并获取各所述关联企业的关联企业信息,所述关联企业信息包括关联企业关联关系信息与关联企业行业分类信息;根据所述关联企业信息在若干个所述备选所属行业中确定所述待分类企业的所述所属行业。3.根据权利要求2所述的基于大数据的企业行业分类方法,其特征在于,在判断所述待分类企业的所述备选所属行业是否唯一后,还包括:若是,则将所述备选所属行业作为所述待分类企业的所属行业。4.根据权利要求1所述的基于大数据的企业行业分类方法,其特征在于,在获取待分类企业的企业信息前,还包括行业关键词集创建方法,所述行业关键词集创建方法具体包括:获取国民经济行业分类文件;创建与国民经济行业分类文件规定的行业类别对应的多个所述行业关键词集;获取各所述行业关键词集对应的行业类别的行业关键词;将各行业类别的所述行业关键词分别存放至对应的所述行业关键词集中,完成各所述行业关键词集的创建。5.根据权利要求4所述的基于大数据的企业行业分类方法,其特征在于,在获取各所述行业关键词集对应的行业类别的行业关键词中,具体包括:对于一所述行业关键词集,根据所述国民经济行业分类文件中对所述行业关键词集对应的行业类别的行业注释获取第一行业关键词;获取预置的企业数据库中的同行业企业的所述企业信息,所述同行业企业的所述所属行业与所述行业关键词集对应的行业类别相同;根据所述同行业企业的所述企业信息获取第二行业关键词。6.根据权利要求2所述的基于大数据的企业行业分类方法,其特征在于,在根据所述关联企业信...

【专利技术属性】
技术研发人员:汤静怡左小雷
申请(专利权)人:企知道科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1