基于大数据的新闻智能选稿方法及系统技术方案

技术编号:14483335 阅读:102 留言:0更新日期:2017-01-26 02:50
本发明专利技术公开了一种基于大数据的新闻智能选稿方法及系统,解决了现有技术数据处理能力差、响应速度慢、热点信息挖掘效率低等问题。新闻智能选稿方法包括:(1)采集并收录目标网站的内容信息;(2)数据清洗;(3)文本及图片格式处理;(4)进行标题与内容的分词处理;(5)地域识别;(6)人名识别;(7)数据入库;(8)热点计算;(10)浏览、查询、调用数据信息,将符合条件的内容推送给内容管理系统,由内容管理系统发布。本发明专利技术结合了大数据处理与数据挖掘技术,为新闻编辑人员提供了海量新闻素材、实时新闻热点挖掘及快速发布功能,其响应速度快、功能丰富、对新闻内容的聚类、去噪能力强,极大地提高了新闻编辑人员的工作效率。

【技术实现步骤摘要】

本专利技术属于信息处理
,具体的说,是涉及一种基于大数据的新闻智能选稿方法及系统
技术介绍
现有技术中,有其他公司研发了一套“新闻转载系统”,其技术原理主要是通过采集和汇总目标网站的相关信息,进而提交给后续负责编辑、审核的工作平台,以实现新闻的转载。上述统主要依赖传统的关系型数据库进行数据处理与存储,并运用一些数据采集工具进行信息采集。该系统具备几方面的缺陷,一是在数据处理上依赖mysql等传统关系型数据库,当需要处理海量数据信息时,整套平台的数据处理能力、响应能力可能会出现瓶颈;二是实现的功能较为单一,仅能实现目标网站的信息采集与后台提交,缺少对热点新闻的挖掘方法;三是操作不友好,比如信息更新量大的目标网站,一天的内容生产量可能有上万条,如此大的信息量没有聚类或其他数据过滤机制,对于系统的操作人员而言意味着非常沉重的工作负担;四是不具备文本格式自动处理的能力,编辑人员需要手工进行文字、图片等内容的调整,工作效率难以得到保障。
技术实现思路
为了改善上述问题,本专利技术的目的在于提供一种实现方便,并以大数据技术为基础,结合一些数据挖掘方法和爬虫技术的新闻智能选稿方法。为了实现上述目的,本专利技术采用的技术方案如下:一种新闻智能选稿方法,包括以下步骤:(1)采集并收录目标网站的内容信息的步骤;(2)数据清洗的步骤;(3)文本及图片格式处理的步骤;(4)进行标题与内容的分词处理的步骤;(5)地域识别:对每条新闻内容的地域属性进行识别,并标注其地域归属;(6)人名识别:对每条新闻内容进行人名识别;(7)数据入库:将数据信息写入相应的数据库表中;(8)热点计算:新闻热点计算与热点人物计算;(9)根据步骤(8)的计算结果判断是否为历史数据,并根据判断结果,将数据信息写入对应的数据库中;(10)浏览、查询、调用数据信息,将符合条件的内容推送给内容管理系统,由内容管理系统发布。进一步的,在所述步骤(1)中利用多线程自动采集、收录目标网站的内容信息。进一步的,所述步骤(2)中数据清洗包括:垃圾数据过滤和信息去重处理。进一步的,所述步骤(3)中对文本及图片格式进行处理,主要包括:(1)去噪:页面多余元素的去除;不需要的图片的去噪;(2)保障数据的完整性:图片url信息的补全;多个页面的网页数据信息的获取及格式化处理;(3)页面编码验证:通过返回的页面头部消息和页面的自带的编码格式,验证页面的数据是否为乱码,如果为乱码,则删除相应数据,并重新采集对应的数据。进一步的,所述步骤(4)采用stanfordsegmenter分词算法,进行标题与内容的分词处理。进一步的,所述步骤(6)的具体方法如下:调用StanfordCoreNLP人名算法,并判断新闻内容是否进行过人名识别,如果已经进行过识别,则跳过人名识别环节,如果是一篇新的文章,则进行人名识别计算,并存储、更新分析结果。进一步的,所述步骤(8)的具体方法如下:(81)设定热点计算的时间范围;(82)将满足条件的新闻内容加载到热点计算队列中;(83)根据传播载体渠道权重、信息发布及时性、新闻相似度热点进行新闻计算;根据人名出现的频次进行热点人物计算。进一步的,所述步骤(9)中,非当日数据同步到hadoop平台,当日数据则写入mysql数据库中。进一步的,在所述步骤(10)中,需对推送给内容管理系统的新闻内容进行去噪处理,包括:(101)根据不同的网站或格式给新闻内容中段落加上<p>标签,去除缩进;(102)替换所有原有标签清除样式;(103)获取一遍图片,根据图片大小,设定图片样式。本专利技术还提供了实现所述的新闻智能选稿方法的系统,包括:信息采集模块,采集并收录目标网站的内容信息;数据清洗模块,对采集的内容信息进行数据清洗;文本及图片格式处理模块,完成文本及图片格式的处理;分词处理模块,进行标题与内容的分词处理;地域识别模块,对每条新闻内容的地域属性进行识别,并标注其地域归属;人名识别模块:对每条新闻内容进行人名识别;数据入库模块:将数据信息写入相应的数据库表中;热点计算模块:新闻热点计算与热点人物计算;数据判断模块,根据热点计算模块的计算结果判断是否为历史数据,并根据判断结果,将数据信息写入对应的数据库中;推送模块,浏览、查询、调用数据信息,将符合条件的内容推送给内容管理系统,由内容管理系统发布。本专利技术与现有技术相比,具有以下优点及有益效果:本专利技术是大数据技术在媒体领域的全新应用,它结合了大数据处理与数据挖掘技术,为新闻编辑人员提供了海量新闻素材、实时新闻热点挖掘及快速发布功能,其响应速度快、功能丰富、对新闻内容的聚类、去噪能力强,极大地提高了新闻编辑人员的工作效率。附图说明图1为本专利技术的流程示意图。具体实施方式下面结合附图和实施例对本专利技术作进一步说明,本专利技术的实施方式包括但不限于下列实施例。实施例1如图1所示,本实施例提供了一种基于大数据的新闻智能选稿方法,该方法结合了大数据处理与数据挖掘技术,实现对海量新闻内容的数据处理和热点挖掘,与现有技术相比,不仅数据处理能力强、响应迅速,而且为新闻编辑人员提供了海量新闻素材、实时新闻热点挖掘及快速发布功能,极大的提高了新闻编辑人员的工作效率。为了使得本领域技术人员对本专利技术申请有更清晰的了解和认识,下面对本方法进行详细的说明:一、数据的采集和收录通过数据采集工具(主要包含javaee和webmagic技术),利用多线程自动采集、收录目标网站的内容信息。二、数据清洗通过数据清洗程序(该程序为现有程序),完成垃圾数据过滤,信息去重处理等工作。三、文本及图片格式处理对文本及图片格式进行处理,主要包括:(1)去噪<1>页面多余元素的去除(例如script等标签);<2>不需要的图片(像广告、网站logo、微信公众号二维码等)的去噪;(2)保障数据的完整性<1>图片url信息(主要是将图片的相对url替换成绝对url)的补全;<2>多个页面的网页数据信息的获取及格式化处理;(3)页面编码验证:通过返回的页面头部消息和页面的自带的编码格式,验证页面的数据是否为乱码,如果为乱码,则删除相应数据,并重新采集对应的数据。四、分词处理调用stanfordsegmenter(斯坦福分割)分词算法,进行标题与内容的分词处理;五、地域识别调用地域识别组件(该组件为Java编写的方法),对每条新闻内容的地域属性进行识别,并标注其地域归属;六、人名识别调用StanfordCoreNLP人名算法,并判断此内容是否进行过人名分析,如果已经进行过识别,则跳过人名识别环节,如果是一篇新的文章,则进行人名识别计算,并存储、更新分析结果;七、数据入库通过C3P0数据库连接池与数据库建立连接,将数据信息写入相应的数据库表中,完成数据入库;八、热点计算进行热点计算(包括热点新闻计算与热点人物计算)。在本实施例中,热点新闻计算组件当前的工作机制为每隔2分钟计算一次,程序运行一次大约需要1分钟。首先用户可设定热点计算的时间范围,将满足条件的新闻内容加载到热点计算队列中,并调用热点新闻与热点人物计算方法,热点新闻计算的数据模型包含传播载体渠道权重、信息发布及时性、新闻相似度等多个维度,而热点人物计算主要是根据人名出现本文档来自技高网...
基于大数据的新闻智能选稿方法及系统

【技术保护点】
一种基于大数据的新闻智能选稿方法,其特征在于,包括以下步骤:(1)采集并收录目标网站的内容信息的步骤;(2)数据清洗的步骤;(3)文本及图片格式处理的步骤;(4)进行标题与内容的分词处理的步骤;(5)地域识别:对每条新闻内容的地域属性进行识别,并标注其地域归属;(6)人名识别:对每条新闻内容进行人名识别;(7)数据入库:将数据信息写入相应的数据库表中;(8)热点计算:新闻热点计算与热点人物计算;(9)根据步骤(8)的计算结果判断是否为历史数据,并根据判断结果,将数据信息写入对应的数据库中;(10)浏览、查询、调用数据信息,将符合条件的内容推送给内容管理系统,由内容管理系统发布。

【技术特征摘要】
1.一种基于大数据的新闻智能选稿方法,其特征在于,包括以下步骤:(1)采集并收录目标网站的内容信息的步骤;(2)数据清洗的步骤;(3)文本及图片格式处理的步骤;(4)进行标题与内容的分词处理的步骤;(5)地域识别:对每条新闻内容的地域属性进行识别,并标注其地域归属;(6)人名识别:对每条新闻内容进行人名识别;(7)数据入库:将数据信息写入相应的数据库表中;(8)热点计算:新闻热点计算与热点人物计算;(9)根据步骤(8)的计算结果判断是否为历史数据,并根据判断结果,将数据信息写入对应的数据库中;(10)浏览、查询、调用数据信息,将符合条件的内容推送给内容管理系统,由内容管理系统发布。2.根据权利要求1所述的基于大数据的新闻智能选稿方法,其特征在于,在所述步骤(1)中利用多线程自动采集、收录目标网站的内容信息。3.根据权利要求1所述的基于大数据的新闻智能选稿方法,其特征在于,所述步骤(2)中数据清洗包括:垃圾数据过滤和信息去重处理。4.根据权利要求1所述的基于大数据的新闻智能选稿方法,其特征在于,所述步骤(4)采用stanfordsegmenter分词算法,进行标题与内容的分词处理。5.根据权利要求1所述的基于大数据的新闻智能选稿方法,其特征在于,所述步骤(6)的具体方法如下:调用StanfordCoreNLP人名算法,并判断新闻内容是否进行过人名识别,如果已经进行过识别,则跳过人名识别环节,如果是一篇新的文章,则进行人名识别计算,并存储、更新分析结果。6.根据权利要求1所述的基于大数据的新闻智能选稿方法,其特征在于,所述步骤(8)的具体方法如下:(81)设定热点计算的时间范围;(82)将满足条件的新闻内容加载到热点计算队列中;(83)根据传播载体渠道权重、信息发布及时性、新闻相似度热点进行新闻计算;根据人名出现的频次进...

【专利技术属性】
技术研发人员:孙于扬余忠段朝晖张涛吴雷
申请(专利权)人:成都广电视讯文化传播有限公司
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1