一种确定企业产业类别的方法技术

技术编号:24331255 阅读:17 留言:0更新日期:2020-05-29 19:40
本发明专利技术公开了一种确定企业产业类别的方法。该方法包括:设置二维产业标签矩阵;获取待分类企业的N个年度的企业信息;将所获取的待分类企业的N个年度的企业信息分别与所述二维产业标签矩阵中的每一个产业标签进行匹配,得到与N个年度的企业信息对应的N个匹配结果;根据所述N个匹配结果计算得到所述待分类企业的N个产业特征趋势值;根据待分企业的N个产业特征趋势值确定待分企业的行业类别。通过使用上述确定企业产业类别的方法,可以提高企业分类的精度,进而提高用户的体验度。

【技术实现步骤摘要】
一种确定企业产业类别的方法
本申请涉及数据处理
,尤其涉及一种确定企业产业类别的方法。
技术介绍
随着互联网的蓬勃发展,企业信息已进入互联网时代,企业越来越多的信息被公开在互联网的各大免费平台上,例如工商登记信息、上市企业股市信息、企业财务信息、企业经营信息、企业风险信息、企业行政监管信息,这些信息像一个一个的孤岛散落在互联网的各个角落,如果要得到关注企业的产业类别,则需要到互联网的各大免费平台查询,人工将查询到的海量信息集中到一起,然后再将这些信息分类,得到企业的产业类别。然而,这种方式处理耗时长,无法及时更新企业信息,从而导致企业的产业类别信息不准确。现有技术提供了网络爬虫程序,该程序可以自动从互联网的免费平台抓取企业的信息,通过这种方式,可以及时获取到企业的最新信息,进而通过分类处理,得到企业的产业类别。现有技术还提供了将获取到的企业信息通过数据处理、信息建模等一定的技术手段进行归纳统计处理,从而得到企业的产业类别。上述方式虽然可以得到企业的产业类别,但是在分类处理的过程中,都是基于获取到的企业信息,没有从现有的维度延伸分析,导致得到的企业的产业类别不够准确,进一步影响用户体验。
技术实现思路
有鉴于此,本专利技术提供了一种确定企业产业类别的方法,提高企业分类的精度以及用户的体验度。本专利技术的技术方案具体是这样实现的:一种确定企业产业类别的方法,该确定企业产业类别的方法包括:设置二维产业标签矩阵,用于表示各个产业类别和产业标签的关系;所述二维产业标签矩阵包括多个产业单元;所述每个产业单元中设置一个或多个产业标签,每个产业标签均包括:一个或多个特征词;获取待分类企业的N个年度的企业信息;所述N为大于1的整数;将所获取的待分类企业的N个年度的企业信息分别与所述二维产业标签矩阵中的每一个产业标签进行匹配,得到与N个年度的企业信息对应的N个匹配结果;根据所述N个匹配结果计算得到所述待分类企业的N个产业特征趋势值;根据所述待分企业的N个产业特征趋势值确定待分企业的行业类别。较佳的,为所述产业标签设置一个对应的权重。较佳的,该方法还进一步包括:对所述企业信息进行处理,使得所述企业信息具有预先设置的信息格式。较佳的,所述将所获取的待分类企业的N个年度的企业信息分别与所述二维产业标签矩阵中的产业标签进行匹配包括:为所述二维产业标签矩阵中的每一个产业标签均设置N个产业标签匹配记录,所述N个产业标签匹配记录分别对应于N个年度的企业信息;对于每一个年度的企业信息,将企业信息与所述二维产业标签矩阵中的每一个产业标签的特征词匹配,并将匹配结果存储在与该产业标签所对应的该年度的企业信息对应的产业标签匹配记录中;根据每一个产业标签匹配记录的匹配标识数据计算得到每一个产业标签匹配记录的匹配值;根据每一个产业标签匹配记录的匹配值得到与N个年度的企业信息对应的N个匹配结果。较佳的,所述对于每一个年度的企业信息,将企业信息与所述二维产业标签矩阵中的每一个产业标签的特征词匹配,并将匹配结果存储在与该产业标签所对应的该年度的企业信息对应的产业标签匹配记录中包括:将所企业信息进行分组,形成M组分组信息,并为每组分组信息设置相应的分组权重;所述M为自然数;将每一组分组信息分别与所述二维产业标签矩阵中的每一个产业标签中的特征词进行匹配,并将匹配结果存储在该产业标签所对应的该年度的企业信息对应的产业标签匹配记录中。较佳的,所述将每一组分组信息分别与所述二维产业标签矩阵中的每一个产业标签中的特征词进行匹配,并将匹配结果存储在该产业标签所对应的该年度的企业信息对应的产业标签匹配记录中包括:对该分组信息进行分词,并将分词后的得到的每一个词都分别与所述二维产业标签矩阵中的每一个产业标签进行匹配;将该分组信息的名称以及该分组信息的匹配次数作为一个匹配标识数据存储到该分组信息所在的年度的企业信息所对应的产业标签匹配记录中。较佳的,该方法还进一步包括:按照所述二维产业标签矩阵的结构,将一个年度的企业信息所对应的所有产业标签匹配记录组成一个产业标签匹配记录矩阵。较佳的,对于所述产业标签匹配记录矩阵中的每一个产业标签匹配记录,如果所述产业标签匹配记录的匹配值大于0时,则将所述产业标签匹配记录在所述产业标签匹配记录矩阵中所对应的图标记为■,如果所述产业标签匹配记录的匹配值等于0时,则将所述产业标签匹配记录在所述产业标签匹配记录矩阵中所对应的图标记为□,以形成特征点阵图,并将所述特征点阵图作为企业信息所对应的匹配结果。较佳的,所述根据待分企业的N个产业特征趋势值确定待分企业的行业类别包括:将所述待分企业的N个产业特征趋势值中的每个产业类别的各个年度的特征趋势值从大到小排序,取出前U个特征趋势值,将这U个特征趋势值之和作为该产业类别的匹配度值,并将匹配度值最大的产业类别作为待分企业的行业类别;所述U为自然数。较佳的,所述的二维标签矩阵的每一个产业标签的内容根据企业样本信息更新包括:获取待更新的产业标签所对应产业的企业样本信息;对所述的企业样本信息进行分词,并将分词后的所有信息存入一个匹配集合中;将所述的匹配集合中的每一个词都分别与待更新的产业标签进行匹配,当匹配集合中的一个词与所述的产业标签匹配时,将该词的计数加一,同时所述的待更新的产业标签的特征词的计数也加一;当所述匹配集合中的所有词都匹配完成后,将所述待更新的产业标签的特征词计数从小到大排序,取出前V个词作为低命中词;找出所述的匹配集合中没有被所述的待更新的产业标签命中的词,并计算这些词在所述的企业样本信息中出现次数,将这些词的出现次数从大到小排序,取出前V个次数对应的词作为高频词,用所述的高频词替换所述的待更新的产业标签中的低命中词;所述V为自然数;重复循环执行如上的步骤,直至循环次数达到预设的循环次数阀值。如上可见,在本专利技术的确定企业产业类别的方法中,由于设置了二维产业标签矩阵;获取待分类企业的N个年度的企业信息;将所获取的待分类企业的N个年度的企业信息分别与所述二维产业标签矩阵中的每一个产业标签进行匹配,得到与N个年度的企业信息对应的N个匹配结果;根据所述N个匹配结果计算得到所述待分类企业的N个产业特征趋势值;根据待分企业的N个产业特征趋势值确定待分企业的行业类别。因此,通过使用上述确定企业产业类别的方法,可以提高企业分类的精度,进而提高用户的体验度。附图说明图1为本专利技术实施例中的确定企业产业类别的方法的流程示意图。图2为本专利技术实施例中的二维标签矩阵的示意图一。图3为本专利技术实施例中的特征点阵图。图4为本专利技术实施例中的产业特征趋势图。图5为本专利技术实施例中的二维标签矩阵的示意图二。图6为本专利技术实施例中的二维标签矩阵中的产业标签的示意图一。图7为本专利技术实施例中的待分类企业本文档来自技高网...

【技术保护点】
1.一种确定企业产业类别的方法,其特征在于,包括:/n设置二维产业标签矩阵,用于表示各个产业类别和产业标签的关系;所述二维产业标签矩阵包括多个产业单元;所述每个产业单元中设置一个或多个产业标签,每个产业标签均包括:一个或多个特征词;/n获取待分类企业的N个年度的企业信息;所述N为大于1的整数;/n将所获取的待分类企业的N个年度的企业信息分别与所述二维产业标签矩阵中的每一个产业标签进行匹配,得到与N个年度的企业信息对应的N个匹配结果;/n根据所述N个匹配结果计算得到所述待分类企业的N个产业特征趋势值;/n根据所述待分企业的N个产业特征趋势值确定待分企业的行业类别。/n

【技术特征摘要】
1.一种确定企业产业类别的方法,其特征在于,包括:
设置二维产业标签矩阵,用于表示各个产业类别和产业标签的关系;所述二维产业标签矩阵包括多个产业单元;所述每个产业单元中设置一个或多个产业标签,每个产业标签均包括:一个或多个特征词;
获取待分类企业的N个年度的企业信息;所述N为大于1的整数;
将所获取的待分类企业的N个年度的企业信息分别与所述二维产业标签矩阵中的每一个产业标签进行匹配,得到与N个年度的企业信息对应的N个匹配结果;
根据所述N个匹配结果计算得到所述待分类企业的N个产业特征趋势值;
根据所述待分企业的N个产业特征趋势值确定待分企业的行业类别。


2.根据权利要求1所述的确定企业产业类别的方法,其特征在于,
为所述产业标签设置一个对应的权重。


3.根据权利要求1所述的确定企业产业类别的方法,其特征在于,该方法还进一步包括:
对所述企业信息进行处理,使得所述企业信息具有预先设置的信息格式。


4.根据权利要求1所示的确定企业产业类别的方法,其特征在于,所述将所获取的待分类企业的N个年度的企业信息分别与所述二维产业标签矩阵中的产业标签进行匹配包括:
为所述二维产业标签矩阵中的每一个产业标签均设置N个产业标签匹配记录,所述N个产业标签匹配记录分别对应于N个年度的企业信息;
对于每一个年度的企业信息,将企业信息与所述二维产业标签矩阵中的每一个产业标签的特征词匹配,并将匹配结果存储在与该产业标签所对应的该年度的企业信息对应的产业标签匹配记录中;
根据每一个产业标签匹配记录的匹配标识数据计算得到每一个产业标签匹配记录的匹配值;
根据每一个产业标签匹配记录的匹配值得到与N个年度的企业信息对应的N个匹配结果。


5.根据权利要求4所示的确定企业产业类别的方法,其特征在于,所述对于每一个年度的企业信息,将企业信息与所述二维产业标签矩阵中的每一个产业标签的特征词匹配,并将匹配结果存储在与该产业标签所对应的该年度的企业信息对应的产业标签匹配记录中包括:
将所企业信息进行分组,形成M组分组信息,并为每组分组信息设置相应的分组权重;所述M为自然数;
将每一组分组信息分别与所述二维产业标签矩阵中的每一个产业标签中的特征词进行匹配,并将匹配结果存储在该产业标签所对应的该年度的企业信息对应的产业标签匹配记录中。


6.根据权利要求5所示的确定企业产业类别的方法,其特征在于,所述将每一组分组信息分别与所述二维产业标签矩阵中的每一个产业标签中的特征词进行匹配,并将匹...

【专利技术属性】
技术研发人员:李永良石娜项明涛
申请(专利权)人:中伯伦北京信息技术有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1