一种企业行业分类识别及其特征污染物识别的方法及装置制造方法及图纸

技术编号:26304132 阅读:33 留言:0更新日期:2020-11-10 19:59
本发明专利技术实施例提供了一种企业行业分类识别及其特征污染物识别的方法及装置,其中,企业的行业分类识别方法包括:获取目标企业的信息点数据;根据预设的有语义词汇库、预设的行业摘要信息及信息点数据确定信息点数据的特征词以及特征词的特征值;根据预设行业分类预测模型和特征值确定目标企业所属的行业分类。通过实施本发明专利技术,得到的特征值可以有效避免无意义词汇的干扰,从而识别得到的目标企业所属的行业分类更加准确。

【技术实现步骤摘要】
一种企业行业分类识别及其特征污染物识别的方法及装置
本专利技术涉及土壤和地下水污染风险管控
,具体涉及一种企业行业分类识别及其特征污染物识别的方法及装置。
技术介绍
由于不同行业的企业会产生不同的特征污染物,因此对不同行业的企业有不同的管理措施,为了更好地对企业进行管控,需要先对企业所属行业进行判断,传统对企业所属行业的判断方式通常是人为了解企业简介中记载的所属行业或企业的经营范围,从而人为判断企业所属行业,传统方法虽然可以保证企业所属行业识别的准确性,但是这类方法需要耗费大量人力和时间。随着大数据技术的应用,可以利用互联网上获取的企业信息点(PointOfInterest,POI)数据中文本确定该企业所属的行业分类。但是,由于无法从信息点数据中准确提取能够有效识别企业所属行业分类的词汇,导致通过企业信息点确定的企业所属行业分类存在误差,致使准确性不高。另一方面,现有文本分类算法或模型存在有语义词汇库库容不足、易发生过拟合、运算速度和效率低下等缺陷,进而对土壤生态环境管理的决策支撑作用不强。
技术实现思路
因此,本专利本文档来自技高网...

【技术保护点】
1.一种企业的行业分类识别方法,其特征在于,包括:/n获取目标企业的信息点数据;/n根据预设的有语义词汇库、预设的行业摘要信息及所述信息点数据确定所述信息点数据的特征词以及所述特征词的特征值;/n根据预设行业分类预测模型和所述特征值确定所述目标企业所属的行业分类。/n

【技术特征摘要】
1.一种企业的行业分类识别方法,其特征在于,包括:
获取目标企业的信息点数据;
根据预设的有语义词汇库、预设的行业摘要信息及所述信息点数据确定所述信息点数据的特征词以及所述特征词的特征值;
根据预设行业分类预测模型和所述特征值确定所述目标企业所属的行业分类。


2.根据权利要求1所述的企业的行业分类识别方法,其特征在于,通过以下步骤确定所述预设的行业分类预测模型:
获取企业训练数据;
根据所述企业训练数据、预设的有语义词汇库、预设的行业摘要信息确定所述企业训练数据的特征词以及所述特征词的特征值;
根据所述特征值对高斯朴素贝叶斯模型的alpha平滑参数进行调参,获取最优参数;
根据所述高斯朴素贝叶斯模型的最优参数构建所述预设行业分类预测模型。


3.根据权利要求2所述的企业的行业分类识别,其特征在于,确定所述预设的行业分类预测模型的步骤,还包括:
获取企业检验数据;
根据所述预设行业分类预测模型获取所述企业检验数据所属行业分类的预测结果;
根据所述预测结果计算所述预设行业分类预测模型的准确率、召回率和F1值;
根据所述准确率、召回率和F1值判断所述预设行业分类预测模型是否满足预设条件;
若所述预设行业分类预测模型不满足预设条件,返回获取污染企业训练数据的步骤,重新训练预设行业分类预测模型。


4.根据权利要求1所述的企业的行业分类识别方法,其特征在于,根据预设的有语义词汇库、预设的行业摘要信息及所述信息点数据确定所述信息点数据的特征词以及所述特征词的特征值的步骤,包括:
对所述信息点数据进行预处理,提取所述信息点数据中的多个词汇;
将所述多个词汇中存在于所述预设的有语义词汇库中的词汇确定为所述信息点数据的特征词;
根据所述特征词和所述预设的有语义词汇库计算所述特征词的词频;
若所述特征词与所述预设的行业摘要信息相匹配,则根据所述词频和预设权重计算所述特征词的特征值;
若所述特征词与所述预设的行业摘要信息不匹配,则根据所述词频确定所述特征词的特征值。


5.根据权利要求4所述的企业的行业分类识别方法,其特征在于,所述预设的有语义词汇库中包含多个企业名称以及与所述企业名称相对应的特征词,
根据所述特征词和所述预设的有语义词汇库计算所述特征词的词频的步骤,包括:
根据所述特征词在所述信息点数据中的数量和所述信息点数据中所有特征词的总数计算所述特征词的正向词频;
根据所述预设的有语义词汇库内企业名称总数和所述预设有语义词汇库内包含所述特征词的企业名称的数量计算所述特征词的逆文本频率;
根据所述特征词的正向词频和逆文本频率计算所述特征词的词频。


6.根据权利要求3所述的企业的行业分类识别方法,其特征在于,所述预设的有语义词汇库包括企业有语义词汇库,通过如下步骤获取所述企业有语义词汇库,
获取企业数据,所述企业数据包含各企业的企业名称以及各企业对应的行业类别和经营范围信息;
对所述企业数据进行预处理,提取所述企业数据中的词汇;
根据各词汇中出现次数小于第一预设阈值的词汇,以及出现次数大于所述第一预设阈值且对行业分类预测有意义的词汇组建初始企业有语义词汇库;
分别计算企业数据中位于所述初始企业有语义词汇库中的词汇在所述初始企业有语义词汇库中的词频;
根据词频小于第二预设阈值的词汇,以及词频大于所述第二预设阈值且对行业分类预测有意义的词汇组...

【专利技术属性】
技术研发人员:王夏晖黄国鑫朱守信季国华田梓卢然陈茜
申请(专利权)人:生态环境部环境规划院
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1