【技术实现步骤摘要】
一种基于大数据深度学习的企业分类方法、系统及电子设备
本专利技术属于分类方法
,尤其涉及一种基于大数据深度学习的企业分类方法、系统及电子设备。
技术介绍
国家统计局于2019年5月22日公布的《2017国民经济行业分类注释》中,一级行业分类为20个,二级行业分类97个,且二级行业分类下属还有众多已知和待挖掘的三、四级行业分类。行业分类在统计、计划、财政、税收、工商等国家宏观管理中,对经济活动分类、信息处理、信息交换尤为重要。作为世界第二大经济体,随着产业转型、升级及新生产业兴起的作用下,将持续高速孵化更多企业,且企业综合性发展、跨行业经营将成为常态,行业间附属信息混杂,容易造成标准信息不对称的情况。根据现有的行业分类注释中所描述的“确定单位行业归属的原则”,当企业从事一种或多种经济活动时,均以其主要活动确定其所属行业分类,显然,以单行业分类标识企业已不能满足实际需求。而传统人工分类方法,不仅需要大量背景知识,而且,标注的速度慢并异常繁琐,不能很好地应对实际应用场景。对于企业的行业分类问题,常见的做法是转换为基于 ...
【技术保护点】
1.一种基于大数据深度学习的企业分类方法,其特征在于,包括以下步骤:/nS1:获取企业综合信息,形成大数据集;/nS2:基于CRF分词模型和概率图模型,提取企业成分关键词集,执行预处理动作,训练对应的词向量模型,针对构建的词向量模型,利用密度聚类算法,预测出若干个特征关键词集,并剔除噪音词或更新噪音词库;/nS3:利用FastText文本分类模型,对词集进行TF-IDF筛选,并使用LDA模型对大数据集进行主题分析,提取关于企业的主题词,利用密度聚类算法,预测出若干个主题词集;/nS4:结合所述特征关键词集和主题词集,得到若干个训练样本,输入双向循环神经网络中进行训练,构建多 ...
【技术特征摘要】
1.一种基于大数据深度学习的企业分类方法,其特征在于,包括以下步骤:
S1:获取企业综合信息,形成大数据集;
S2:基于CRF分词模型和概率图模型,提取企业成分关键词集,执行预处理动作,训练对应的词向量模型,针对构建的词向量模型,利用密度聚类算法,预测出若干个特征关键词集,并剔除噪音词或更新噪音词库;
S3:利用FastText文本分类模型,对词集进行TF-IDF筛选,并使用LDA模型对大数据集进行主题分析,提取关于企业的主题词,利用密度聚类算法,预测出若干个主题词集;
S4:结合所述特征关键词集和主题词集,得到若干个训练样本,输入双向循环神经网络中进行训练,构建多门类分类模型;
S5:利用多门类分类模型结合其对应的阈值,对企业进行分类预测,自动标注多个层级的行业标签。
2.如权利要求1所述的一种基于大数据深度学习的企业分类方法,其特征在于,在S1中,所述企业综合信息包括但不限于企业简介、商事登记信息、经营范围、知识产权、招聘信息、企业新闻、产品信息和图像主体识别,通过复合方法抽取特征文本和构建结构化企业描述,并形成大数据集。
3.如权利要求2所述的一种基于大数据深度学习的企业分类方法,其特征在于,在S2中,基于CRF分词模型和概率图模型提取企业成分关键词集包括以下步骤:
将具有多通道描述信息的企业综合信息输入CRF分词模型中进行分词,得到候选词集;
根据基于类Seq2Seq的概率图模型,对句子集进行主/客体预测,先预测s对象,再根据s对象预测与所述s对象相对应的o对象及p对象,并将o对象放入候选词集,得到企业成分关键词集,其中概率图模型公式如下:
P(s,p,o)=P(s)P(o|s)P(p|s,o)
4.如权利要求3所述的一种基于大数据深度学习的企业分类方法,其特征在于,所述预处理动作包括对所述企业成分关键词集进行过滤处理,并在利用密度聚类算法对所述词向量模型进行处理中,邻域距离阈值和样本数(∈,MinPts)取各门类/层级的专家建议值,聚类运算后得到若干个特征关键词集,所述特征关键词集包括主成分关键词和噪音词,并进行人工抽样复核,将划分的主成分关键词和噪音词分别输入相应的词集或库中,其中,对于错分为噪音词的主成分关键词添加至对应的主成分关键词集中,对噪音词归集构建或输出到噪音词库。
5.如权利要求4所述的一种基于大数据深度学习...
【专利技术属性】
技术研发人员:罗根基,
申请(专利权)人:广州友圈科技有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。