一种大数据企业识别方法、系统、电子设备及存储介质技术方案

技术编号:43007867 阅读:31 留言:0更新日期:2024-10-18 17:14
本申请公开了一种大数据企业识别方法、系统、电子设备及存储介质,方法包括:获取企业的企业数据,并进行预处理;将预处理后的企业数据输入Doc2vec模型进行训练,利用训练好的Doc2vec模型计算待预测企业各目标单词文本与已知大数据企业各目标单词文本之间的相关性,并计算待预测企业的所有目标单词文本与已知大数据企业的目标单词文本之间的相关性的均值;将待预测企业的所有目标单词文本与已知大数据企业的目标单词文本之间的相关性的均值输入至训练好逻辑回归模型,预测大数据企业类型的概率,得识别结果。本申请通过综合利用企业多维度数据,结合Doc2vec模型和逻辑回归模型的优势,能够精准地识别大数据企业,并提高了识别效率。

【技术实现步骤摘要】

本申请涉及企业识别,尤其涉及一种大数据企业识别方法、系统、电子设备及存储介质


技术介绍

1、随着互联网和大数据技术的飞速发展,大数据和人工智能企业已成为推动社会生产力进步的关键力量。随着数字经济和信息化发展战略的深入实施,对大数据和人工智能企业的精准识别、监测和管理显得尤为重要。精准的企业识别不仅有助于政府及相关机构制定有效的政策措施,促进产业的健康发展,还能为企业提供更加精准的服务和支持,推动整个行业的繁荣。然而,现有的大数据和人工智能企业识别方法已无法满足行业快速、精准监测的需求。传统的识别方法,如基于国民经济行业分类的方法和人工审查认定法,存在主观性强、效率低下、识别准确度不高等问题。基于特征关键字的企业识别方法虽然在一定程度上提高了识别的自动化程度,但受限于关键字的设定和权重计算的主观性,其识别结果仍然存在一定的偏差。因此,如何精准地识别大数据企业是亟待解决的问题。


技术实现思路

1、本申请的主要目的在于克服现有技术的缺点与不足,提供一种大数据企业识别方法、系统、电子设备及存储介质,通过综合利用企业本文档来自技高网...

【技术保护点】

1.一种大数据企业识别方法,其特征在于,包括下述步骤:

2.根据权利要求1所述一种大数据企业识别方法,其特征在于,所述预处理包括:数据清洗、数据文本分词。

3.根据权利要求1所述一种大数据企业识别方法,其特征在于,还包括:

4.根据权利要求2所述一种大数据企业识别方法,其特征在于,所述数据文本分词是采用结巴分词分别对各个文本进行分词处理,步骤包括:

5.根据权利要求4所述一种大数据企业识别方法,其特征在于,所述分词处理后,还包括:删除文本中的标点符号、特殊符号以及删除停用词;所述停用词包括:功能词、符号、数字以及频率高但与文本主题信息相关度...

【技术特征摘要】

1.一种大数据企业识别方法,其特征在于,包括下述步骤:

2.根据权利要求1所述一种大数据企业识别方法,其特征在于,所述预处理包括:数据清洗、数据文本分词。

3.根据权利要求1所述一种大数据企业识别方法,其特征在于,还包括:

4.根据权利要求2所述一种大数据企业识别方法,其特征在于,所述数据文本分词是采用结巴分词分别对各个文本进行分词处理,步骤包括:

5.根据权利要求4所述一种大数据企业识别方法,其特征在于,所述分词处理后,还包括:删除文本中的标点符号、特殊符号以及删除停用词;所述停用词包括:功能词、符号、数字以及频率高但与文本主题信息相关度低的词。

6.根据权利要求1所述一种大...

【专利技术属性】
技术研发人员:郝新华周敏谭璐铭方声泰王安琪陈锡金吴寿盛欧阳馨秋韦长传陶静远黄晓芬
申请(专利权)人:广州市城市规划勘测设计研究院有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1