一种基于增量聚类的企业热点事件挖掘方法技术

技术编号：20025837 阅读：27 留言：0更新日期：2019-01-06 04:41

本发明专利技术涉及一种基于增量聚类的企业热点事件挖掘方法，包括以下步骤：通过网络爬虫获取企业网络新闻；对爬取的企业网络新闻进行降噪并存入数据库；从数据库读取企业新闻进行预处理；对预处理后的企业新闻进行聚类分析；对聚类分析得到的热点事件簇进行质心新闻提取并存入数据库；从数据库获取所需企业热点事件并以时间为序进行展示。本发明专利技术能够为企业或个人提供企业过去发生的热点事件。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于增量聚类的企业热点事件挖掘方法
本专利技术涉及数据挖掘
，特别是涉及一种基于增量聚类的企业热点事件挖掘方法。
技术介绍
近年来，利用网络新闻进行数据挖掘分析已有很多课题和任务，例如新闻推荐、文本关键词抽取和舆情监测等。对于网络新闻热点话题也已经有很多的研究，普遍采用话题检测与跟踪方法。同样对于企业热点事件的研究，也可以采用类似话题检测与跟踪的方法，这种基于增量聚类的方法能够更加快速准确的将企业热点新闻提取出来，相对于人工查找、排除、选择热点新闻更为高效。但目前针对于企业的网络新闻研究相对较少，因此本专利技术将利用企业的网络新闻实现企业热点事件的挖掘。
技术实现思路
本专利技术所要解决的技术问题是提供一种基于增量聚类的企业热点事件挖掘方法，能够为企业或个人提供企业过去发生的热点事件。本专利技术解决其技术问题所采用的技术方案是：提供一种基于增量聚类的企业热点事件挖掘方法，包括以下步骤：(1)通过网络爬虫获取企业网络新闻；(2)对爬取的企业网络新闻进行降噪并存入数据库；(3)从数据库读取企业新闻进行预处理；(4)对预处理后的企业新闻进行聚类分析；(5)对聚类分析得到的热点事件簇进行质心新闻提取并存入数据库；(6)从数据库获取所需企业热点事件进行展示。所述步骤(1)具体包括以下子步骤：(11)通过关键字搜索获得新闻URL，放入待抓取新闻URL队列；(12)从待抓取新闻队列读取URL，解析DNS，进入到URL对应的网页，下载该网页；(13)解析下载的网页，使用正则匹配获取新闻网页中新闻的标题、时间、来源和内容。所述步骤(2)具体为：基于后期聚类分析对象是新...

【技术保护点】
1.一种基于增量聚类的企业热点事件挖掘方法，其特征在于，包括以下步骤：(1)通过网络爬虫获取企业网络新闻；(2)对爬取的企业网络新闻进行降噪并存入数据库；(3)从数据库读取企业新闻进行预处理；(4)对预处理后的企业新闻进行聚类分析；(5)对聚类分析得到的热点事件簇进行质心新闻提取并存入数据库；(6)从数据库获取所需企业热点事件进行展示。

【技术特征摘要】
1.一种基于增量聚类的企业热点事件挖掘方法，其特征在于，包括以下步骤：(1)通过网络爬虫获取企业网络新闻；(2)对爬取的企业网络新闻进行降噪并存入数据库；(3)从数据库读取企业新闻进行预处理；(4)对预处理后的企业新闻进行聚类分析；(5)对聚类分析得到的热点事件簇进行质心新闻提取并存入数据库；(6)从数据库获取所需企业热点事件进行展示。2.根据权利要求1所述的基于增量聚类的企业热点事件挖掘方法，其特征在于，所述步骤(1)具体包括以下子步骤：(11)通过关键字搜索获得新闻URL，放入待抓取新闻URL队列；(12)从待抓取新闻队列读取URL，解析DNS，进入到URL对应的网页，下载该网页；(13)解析下载的网页，使用正则匹配获取新闻网页中新闻的标题、时间、来源和内容。3.根据权利要求1所述的基于增量聚类的企业热点事件挖掘方法，其特征在于，所述步骤(2)具体为：基于后期聚类分析对象是新闻内容和标题，使用编码降噪部分去掉新闻内容缺失，新闻标题缺失的噪声新闻，提高聚类正确率，降噪后存入数据库。4.根据权利要求1所述的基于增量聚类的企业热点事件挖掘方法，其特征在于，所述步骤(3)包括以下子步骤：(31)从数据库读取新闻...

【专利技术属性】
技术研发人员：王鹏伟，蒋昌俊，孙鑫，章昭辉，
申请(专利权)人：东华大学，
类型：发明
国别省市：上海,31

全部详细技术资料下载我是这个专利的主人