一种自动化行业分类装置及其工作方法制造方法及图纸

技术编号:25523203 阅读:35 留言:0更新日期:2020-09-04 17:13
本发明专利技术属于计算机技术和智能风控信用评分应用技术领域,具体公开了一种自动化行业分类装置及其工作方法。本发明专利技术的一种自动化行业分类装置及其工作方法的有益效果在于:1、综合使用了未在其他专利中出现过且能够反映企业行业的多维数据,能够从成果、项目、人事、业务等多个方面反映企业行业范围,相比仅仅使用销售业务层面数据,能够更加准确对跨行业的企业进行准确行业分类;2、挖掘了更深层次的信息,不仅使用商品名称,更利用销售额占比来进行行业分类训练,对于企业行业分类评定更加全面和准确。

【技术实现步骤摘要】
一种自动化行业分类装置及其工作方法
本专利技术属于计算机技术和智能风控信用评分应用
,具体涉及一种自动化行业分类装置及其工作方法。
技术介绍
行业分类,是指从事国民经济中同性质的生产或其他经济社会的经营单位或者个体的组织结构体系的详细划分,可以解释行业本身所处的发展阶段及其在国民经济中的地位。在智能风控领域,行业分类对于准入、信用评分领域及授信额度评定等环节均有重要参考依据。精准快速的行业分类能够在准入环节排除政策不支持的某些行业,对于信用评分和授信额度环节,准确的行业分类能够对所属不同行业的企业进行更加准确的评分和更合理的额度审批。自动化行业分类还能够用于对一个企业进行企业画像,企业画像很重要的一个维度是企业所属行业,准确快速的行业分类能够帮助快速生成某个企业的画像,对于后续对企业的评估等都能够有所帮助。现有传统行业分类:标准行业分类法(InternationalStandardIndustrialClassificationofAllEconomicActivities,SIC):为了便于汇总各国的统计资料,进行对比,联合国经本文档来自技高网...

【技术保护点】
1.一种自动化行业分类装置,其特征在于:由相互配合使用的模块(1)、模块(2)/n和所属行业分类模块(3)组成;/n所述模块(1),包括数据清洗模块、特征分词模块、Embedding Layer 模块,/n其中,模块(1)的数据清洗模块用于输入原始数据和输出数据,并进行对成果类数据和人事类数据进行清洗,去除重复信息、噪声数据,/n输入原始数据格式为公司名称、专利分类 1、专利分类 2、软著分类 1、软著分类 2、中标项目类别 1、中标项目类别 2、招聘职位类别1、招聘职位类别 2、员工职业分类 1、员工职业分类 2,/n输出数据格式为公司名称、专利分类 1、专利分类 2、软著分类 1、软著分类...

【技术特征摘要】
1.一种自动化行业分类装置,其特征在于:由相互配合使用的模块(1)、模块(2)
和所属行业分类模块(3)组成;
所述模块(1),包括数据清洗模块、特征分词模块、EmbeddingLayer模块,
其中,模块(1)的数据清洗模块用于输入原始数据和输出数据,并进行对成果类数据和人事类数据进行清洗,去除重复信息、噪声数据,
输入原始数据格式为公司名称、专利分类1、专利分类2、软著分类1、软著分类2、中标项目类别1、中标项目类别2、招聘职位类别1、招聘职位类别2、员工职业分类1、员工职业分类2,
输出数据格式为公司名称、专利分类1、专利分类2、软著分类1、软著分类2、中标项目类别1、中标项目类别2、招聘职位类别1、招聘职位类别2、员工职业分类1、员工职业分类2;
模块(1)的特征分词模块用于输入数据和输出数据,并对清洗后的数据进行分词,
输入数据格式为公司名称,专利分类1、专利分类2、软著分类1、软著分类2、
中标项目类别1、中标项目类别2、招聘职位类别1、招聘职位类别2、员工职业分类1、员工职业分类2,
输出数据格式为公司名称、专利分类1、专利分类2、软著分类1、软著分类2、中标项目类别1、中标项目类别2、招聘职位类别1、招聘职位类别2、员工职业分类1、员工职业分类2;
模块(1)的EmbeddingLayer模块用于输入数据和输出数据,并将数据的原始表示表示成模型可处理的或者是更密集的低维表示,
输入数据格式为公司名称、专利分类1、专利分类2、软著分类1、软著分类2、中标项目类别1、中标项目类别2、招聘职位类别1、招聘职位类别2、员工职业分类1、员工职业分类2,
输出数据格式为公司名称、[1*5嵌入后的vector]、[1*5嵌入后的vector]、[1*5嵌入后的vector]、[1*5嵌入后的vector]、[1*5嵌入后的vector]、[1*5嵌入后的vector]、[1*5嵌入后的vector]、[1*5嵌入后的vector]、[1*5嵌入后的vector]、[1*5嵌入后的vector]);
所述模块(2),包括数据清洗模块、特征分词模块、特征映射模块、特征重构模块,
其中,模块(2)的数据清洗模块用于输入原始数据和输出数据,并进行对成果类
数据和人事类数据进行清洗,去除重复信息、噪声数据,
输入为原始数据格式为:(公司名称、[(产品1,销售额1)、(产品2,销售额
2),…],所属行业分类标签),
输出数据格式为:(公司名称,[(产品1,销售额1),(产品2,销售额2),…],所属行业分类标签);
模块(2)的特征分词模块用于输入数据和输出数据,并对清洗后的数据进行分词,
输入数据格式为:(公司名称,[(产品1,销售额1),(产品2,销售额2),…],所属行业分类标签),
输出数据格式为:(公司名称,[(产品1,销售额1),(产品2,销售额2),…],所属行业分类标签);
模块(2)的特征映射模块用于输入数据和输出数据,并对分词后的产品数据进行聚类分析,聚类结果根据国家统计局发布的统计用产品分类目录标记为对应标准化产品,
输入数据格式为(公司名称,[(产品1,销售额1),(产品2,销售额2),…],所属行业分类标签),
输出数据格式为:(公司名称,[(标准化产品1,销售额1),(标准化产品2,销售额2),…],所属行业分类标签),其中标准化产品是指国家统计局发布的统计用产品分类目录下产品名称;
模块(2)的特征重构模块用于输入数据和输出数据,并将最后行业分类的特征重构为国家统计局发布的统计用产品分类目录下的所有产品在公司中的销售额占比,作为下一模块的输入,分类器部分使用SVM模型进行训练,使用特征重构模块得到的训练数据作为输入,最终得到分类结果2,
输入数据格式为:(公司名称,[(产品1,销售额1),(产品2,销售额2),…],所属行业分类标签),
输出数据格式为:(公司名称,目录产品1销售额占比,目录产品2销售额占比…,所属行业分类标签),其中目录产品是指国家统计局发布的统计用产品分类目录下所有产品;
所属行业分类模块(3)用于输入数据和输出数据,其中,输入数据格式为:(公司名称,目录产品1销售额占比,目录产品2销售额占比…,所属行业分类标签),输出数据格式为:(公司名称,预测的行业分类)。


2.根据权利要求1所述的一种自动化行业分类装置的工作方法,其特征在于:包括
以下步骤,
步骤1、通过模块1对文本数据进行...

【专利技术属性】
技术研发人员:张嘉豪傅玉峰孙惠平陈钟虞丽朱俊
申请(专利权)人:南京辰阔网络科技有限公司北京大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1