一种海量互联网新闻清洗系统技术方案

技术编号:26171321 阅读:37 留言:0更新日期:2020-10-31 13:43
一种海量互联网新闻清洗系统,本发明专利技术包括新闻数据采集模块、新闻URL去重模块、新闻标题去重模块和新闻内容去重模块,所述新闻数据采集模块将在新闻网站中抓取的新闻数据传输至新闻URL去重模块,所述新闻URL去重模块将其处理后的数据作为新闻标题去重模块的输入传输至新闻内容去重模块,所述新闻内容去重模块将其处理后的数据作为新闻内容去重模块的输入传输至新闻内容去重模块,本发明专利技术针对爬取新闻进行结构化分析处理和去重,并针对URL、标题、内容进行分段分策略处理,经证明本发明专利技术与目前简单的文本内容相似度计算去重方法,本发明专利技术有更好的识别能力。

A mass Internet news cleaning system

【技术实现步骤摘要】
一种海量互联网新闻清洗系统
本专利技术涉及基于公司内部爬虫获取得到的新闻数据的数据清洗领域
,具体涉及一种海量互联网新闻清洗系统。
技术介绍
随着互联网信息的不断发展,网络新闻逐渐成为了新闻传播的主力。新闻中包含的部分信息对许多互联网企业来说都有着重要的价值。例如许多公司融资、上市或新品发布等新闻,对公司来讲代表的都是各种商机,而合作客户的裁员、降薪、破产等负面新闻则代表着公司的业务合作必须及时终止,款项必须要及时收回,能对公司各个业务线的商机客户合作和业务风控起到很大的推进作用。因此对海量新闻数据采集后的清洗工作成为了任何一家大数据公司都无法绕开的问题,而现有的新闻数据清洗方案主要是对新闻内容进行相似度比较,以及一些异常数据的简单处理。针对网络爬虫采集到的新闻数据没有一套详细的处理规则。例如一些问题:新闻数据中正文相同但由于新闻杂质数据(杂质主要包括乱码、HTML标签、广告、网页版权信息)、两个新闻正文相似度低,但却是同一新闻导致出现漏判;抓取新闻时并没有抓取到正文只抓取到杂质,导致出现漏判,为解决上述技术问题,本专利技术提供一本文档来自技高网...

【技术保护点】
1.一种海量互联网新闻清洗系统,其特征在于,包括新闻数据采集模块、新闻URL去重模块、新闻标题去重模块和新闻内容去重模块,所述新闻数据采集模块将在新闻网站中抓取的新闻数据传输至新闻URL去重模块,所述新闻URL去重模块将其处理后的数据作为新闻标题去重模块的输入传输至新闻内容去重模块,所述新闻内容去重模块将其处理后的数据作为新闻内容去重模块的输入传输至新闻内容去重模块。/n

【技术特征摘要】
1.一种海量互联网新闻清洗系统,其特征在于,包括新闻数据采集模块、新闻URL去重模块、新闻标题去重模块和新闻内容去重模块,所述新闻数据采集模块将在新闻网站中抓取的新闻数据传输至新闻URL去重模块,所述新闻URL去重模块将其处理后的数据作为新闻标题去重模块的输入传输至新闻内容去重模块,所述新闻内容去重模块将其处理后的数据作为新闻内容去重模块的输入传输至新闻内容去重模块。


2.根据权利要求1所述的一种海量互联网新闻清洗系统,其特征在于,所述新闻数据采集模块将在新闻网站中抓取的新闻数据存放入关系型数据库中,所述新闻数据包括新闻在数据库中的ID、新闻的标题title、新闻的网址URL和抓取到的新闻正文source。


3.根据权利要求1所述的一种海量互联网新闻清洗系统,其特征在于,所述新闻URL去重模块首先将新闻URL转化为MD5编码,然后将MD5编码以SET类型存放入Redis内存数据库中。


4.根据权利要求1所述的一种海量互联网新闻清洗系统,其特征在于,所述新闻标题去重模块首先将新闻标题中的标点去除,然后筛选出去除标点后标题长度大于设定阈值的新闻标题,对筛选后的新闻标题进行MD5编码,将进行MD5编码后的新闻标题输入标题对比库中进行比对。


5.根据权利要求1所述的一种海量互联网新闻清洗系统,其特征在于,所述新闻内容去重模块包括新闻杂质内容的获取阶段和过滤杂质内容后的新闻内容去重阶段。


6.根据权利要求5所述的一种海量互联网新闻清洗系统,其特征在于,所述新闻杂质内容的获取阶段包括以下步骤:
步骤1.按要求获取新闻集合,该步骤中的要求主要是针对网站来源source以及新闻数目;
步骤2.乱码及...

【专利技术属性】
技术研发人员:刘超刘霖雯
申请(专利权)人:北京北斗天巡科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1