一种新闻传播预测的方法技术

技术编号:24995895 阅读:34 留言:0更新日期:2020-07-24 17:58
本发明专利技术公开了一种新闻传播预测的方法,包括新闻传播预测流程和原理。通过大数据挖掘分析预测网络媒体新闻转载的方法。通过本发明专利技术的方法可以对网络媒体舆情数据进行实时的大数据计算得到媒体发布新闻的转载概率,在不知道媒体之前转载协议的情况下动态计算媒体间转载概率。综合媒体转载概率、媒体的影响力、时间等因素预测新闻事件传播发酵的趋势和影响程度,并将预测结果用路径图形象化呈现,可以供事件的相关人对做出提前响应或者辅助决策。

【技术实现步骤摘要】
一种新闻传播预测的方法
本专利技术专利涉及一种预测新闻转载的方法,尤其是通过大数据分析预测网络媒体新闻转载的方法。媒体是发布新闻舆情的机构,新闻发布和媒体转载进行传播并扩大影响力。媒体发稿原创文章都有版权,其它媒体转载新闻要取得原创媒体的授权,媒体与媒体之间会签署转载协议,但是这种协议不属于公开信息。媒体之间的新闻转载每天都在发生,却没有规律明显可循。针对上述问题,通过本专利技术的方法可以对媒体舆情数据进行实时的大数据计算得到媒体发布新闻的转载概率,在不知道媒体之前转载协议的情况下计算两个媒体转载概率,以达到预测新闻传播的目的。所采取的技术方案是:通过不断抓取网络媒体发布和转载的新闻,对数据进行清洗和格式化,将新闻数据存入数据库,然后在具备了大量媒体原创和转载新闻数据的基础上,实时进行大数据的统计分析,通过算法计算出媒体之间的转载概率,达到新闻传播预测的目的,最后将数据呈现在前端页面。整体方案系统模块图(图1),网络爬虫爬取媒体的新闻数据,识别新闻的标题、正文、报道时间、媒体名、是否是原创或转载自哪个媒体、原文链接等信息存入数据库中,数据分本文档来自技高网...

【技术保护点】
1.一种预测新闻传播的方法,包含以下模块和步骤/n步骤S1,网络爬虫模块抓取媒体的新闻数据,抓取媒体原创和转载新闻,识别新闻的标题、正文内容、报道时间、作者、媒体名、是否是原创或转载自哪个媒体、原文链接等信息形成结构化的数据/n步骤S2,数据清洗模块对数据进行清洗、去重、合并和修正/n步骤S3,数据分析模块通过媒体转载概率算法对数据库中近n天的数据进行统计分析,得到媒体之间的转载概率/n步骤S4,存储实时运算获得媒体间的转载概率,通过接口提供数据给展示层显示。/n

【技术特征摘要】
1.一种预测新闻传播的方法,包含以下模块和步骤
步骤S1,网络爬虫模块抓取媒体的新闻数据,抓取媒体原创和转载新闻,识别新闻的标题、正文内容、报道时间、作者、媒体名、是否是原创或转载自哪个媒体、原文链接等信息形成结构化的数据
步骤S2,数据清洗模块对数据进行清洗、去重、合并和修正
步骤S3,数据分析模块通过媒体转载概率算法对数据库中近n天的数据进行统计分析,得到媒体之间的转载概率
步骤S4,存储实时运算获得媒体间的转载概率,通过接口提供数据给展示层显示。


2.根据权利要求1所述的新闻传播预测方法的步骤,其特征在于步骤S1包括:
步骤S11,网络爬虫模块针对网络媒体新闻频道定时进行数据获取
步骤S12,识别新闻的标题、正文内容、报道时间、作者、媒体名、是否是原创、被转载媒体名、原文链接等信息
步骤S13,将识别的数据进行结构化存储。


3.根据权利要求1所述的新闻传播预测方法的步骤,其特征在于步骤S2包括
步骤S21,对步骤S1中抓取数据中存在乱码、重复数据和不符合要求的数据进行清洗
步骤S22,通过自然语言处理技术对新闻标题和正文进行相似度分析,在转载新闻中添加原标题字段,以识别转载媒体转载时修改了原创新闻的标题的情况,这种情况作为对原创新闻的转载
步骤S23,转载新闻经常出现原创媒体名错误或多家转载媒体提供的原创媒体名不一致的情况,基于机器学习对原创媒体名进行识别、去重和修正,以解决多家媒体转载同一篇新闻时提供的原创媒体名称不一...

【专利技术属性】
技术研发人员:孙波
申请(专利权)人:融汇鑫成北京信息科技有限公司
类型:发明
国别省市:北京;11

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1