一种基于互联网公开信息的企业情报获取的方法技术

技术编号:17097490 阅读:66 留言:0更新日期:2018-01-21 09:20
本发明专利技术是一种基于互联网公开信息的企业情报分析获取的方法,涉及互联网信息处理的技术领域,基于原有的方法及系统,对其在自动分类分析过程中应用的技术进行了改良,创新地对机器学习自动分类的核心过程进行改进,使其适用于互联网情报的模式分类中。具体创新思路为采用集成分析方法代替单个分析算法,以及针对模型训练采用的“过采样”技术,能够很好地减小分析过程的误判率和漏判率,使得互联网情报自动分类效果得到很大提升,有效解决了互联网公开信息的自动分类筛选问题,减少了大量的人工投入,提升系统的可用性。

An enterprise information acquisition method based on public information on the Internet

The present invention is to obtain a method of enterprise information based on the analysis of Internet public information, relates to the technical field of Internet information processing system, and the original method based on the analysis of the application of the technology in the process of automatic classification is improved, the innovation of the core process of automatic classification of machine learning to improve the classification model the information available on the internet. The innovation of ideas for using integrated analysis method to replace the single analysis algorithm, and the oversampling techniques adopted for model training \, to reduce the analysis process of the rate of miscarriage of justice and the Internet information classification results have been greatly improved, effectively solves the problem of automatic classification and screening of information on the Internet, reduced a lot of manual input, improve the usability of the system.

【技术实现步骤摘要】
一种基于互联网公开信息的企业情报获取的方法
本专利技术涉及互联网信息处理的
,一种适用于企业的、基于互联网公开信息的企业竞争情报获取的方法和系统。
技术介绍
随着互联网的不断发展,互联网舆论(博客、论坛、微博、微信公众号等)已经取代平面媒体,成为舆论的重要来源。针对互联网的舆论分析对企业有重要作用,例如,在新产品的营销方面,通过收集互联网上的竞争情报并进行分析,企业可以进行更全面的客户体验管理和公司反馈管理,了解群众的需求,为公司更好地完善自己的产品,指定更符合用户的生产策略提供帮助,为用户提供更好的服务。一套完整的情报获取方法主要包括互联网信息采集、相关性判断、自动分类分析、可视化展示四个主要步骤,其中如何针对竞争情报进行自动分类,从海量文本中识别出少量符合特定模式的文本,是该领域的关键难点。针对该需求,现有技术方案主要包括“关键词匹配法”和“机器学习分类法”两种,但存在“需要维护词典,且由于词典更新无法满足时效而导致误判和漏判”以及“正面语料占比小,传统机器学习算法直接应用容易产生过拟合”等缺陷,不能很好解决少量信息的自动模式分类问题。
技术实现思路
为了克服现有技术中存在的缺本文档来自技高网...
一种基于互联网公开信息的企业情报获取的方法

【技术保护点】
一种基于互联网公开信息的企业情报获取的方法,其特征在于,该方法包括以下步骤:步骤一:互联网情报采集模块,通过网络爬虫技术,对指定的互联网站点进行数据采集;步骤二:互联网情报分析模块。基于机器学习分析技术,对采集到的互联网情报文本进行分析,并通过集成分析和过采样技术改良机器学习自动分类的核心过程;步骤三:基础设施配置,用于支持海量数据的临时存储与分布式计算;步骤四:数据存储模块,对分析的结果进行持久化存储;步骤五:可视化展示,展示情报信息、统计结果。

【技术特征摘要】
1.一种基于互联网公开信息的企业情报获取的方法,其特征在于,该方法包括以下步骤:步骤一:互联网情报采集模块,通过网络爬虫技术,对指定的互联网站点进行数据采集;步骤二:互联网情报分析模块。基于机器学习分析技术,对采集到的互联网情报文本进行分析,并通过集成分析和过采样技术改良机器学习自动分类的核心过程;步骤三:基础设施配置,用于支持海量数据的临时存储与分布式计算;步骤四:数据存储模块,对分析的结果进行持久化存储;步骤五:可视化展示,展示...

【专利技术属性】
技术研发人员:李钊崔丙锋丛海洋李峰王烈胡囡王信王秋林刘扬闫丽飞林耿郭鑫
申请(专利权)人:国网辽宁省电力有限公司国网辽宁省电力有限公司电力科学研究院福建亿榕信息技术有限公司国家电网公司
类型:发明
国别省市:辽宁,21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1