基于媒体信息采集的原创文章影响力分析系统技术方案

技术编号:17032817 阅读:33 留言:0更新日期:2018-01-13 19:20
本发明专利技术公开了一种基于媒体信息采集的原创文章影响力分析系统,包括:媒体文章数据采集模块,其用于从网络上采集媒体平台发布的文章信息,从该文章信息中提取内容文本,并存储内容文本;文章阅读评论点赞数更新模块,其用于获取文章信息的传播反馈数据,并存储;原创文章聚类分析模块,其用于对存储于文本数据库内的所有内容文本进行聚类计算,进而获取原创文章;原创文章影响力计算模块,其用于计算原创文章在媒体平台上的影响力,用于计算原创文章在所有媒体平台上的影响力。本发明专利技术还公开了一种基于媒体信息采集的原创文章影响力分析方法。本发明专利技术实现对原创文章影响力的量化分析,分析效率高,分析准确度高。

【技术实现步骤摘要】
基于媒体信息采集的原创文章影响力分析系统
本专利技术涉及计算机信息
,尤其涉及一种基于媒体信息采集的原创文章影响力分析系统。
技术介绍
随着互联网计算机技术的迅猛发展以及智能移动客户端的普及,新型媒体已经逐渐取代传统媒体成为用户获取新闻以及其他相关信息的主要手段之一。由于新型媒体依托互联网和移动客户端,不仅信息量大,而且阅读成本低,方便快捷,用户体验好,所以有着庞大的用户群体。同时,这也使得新型媒体在新闻信息服务传播领域和社会事件信息传播扩散方面成为影响力最大、最具发展潜力的信息传播渠道。目前,解放日报、新民晚报、文汇报、东方早报(澎湃新闻)等传统媒体都注册相应腾讯公众号并发布了官方移动客户端,定期发布一些原创文章,这些媒体账号发布信息权威性强,公信力高,通过大量的转发,对信息和事件的传播有着很大的推动作用。但也不乏一些自媒体通过微信公众号或者微博发布一些原创文章,迅速传播,持续发酵,最后有着很大的影响力。目前政府宣传部门和媒体单位对发布稿件的传播以及影响力的评估主要依靠人工完成。在互联网信息指数增长的大数据时代,用人工方式来获取发布稿件或事件的影响力和传播情况具有明显的局限性。这种工作模式存在如下的问题:效率低:完全依靠人工操作,人工的操作查找和阅读判断需要的时间较长,对结果的计算耗费巨大的人力物力。准确率低:人工查找速度慢,涵盖的范围小,信息不全面。无法量化:无法判断一篇原创文章具体的影响力,只能定性地模糊地得出其影响力的大小。无法横向比较:无法衡量某个具体原创文章的影响力与其他事件的影响力大小关系,无法给人准确的直观比较结果。
技术实现思路
针对上述技术问题,本专利技术设计开发了一种基于媒体数据采集的原创文章影响力分析系统,其目的在于代替人工操作,帮助政府宣传部门和相关媒体单位快速地、准确地获取某一原创文章的量化的影响力。本专利技术提供的技术方案为:一种基于媒体信息采集的原创文章影响力分析系统,包括:媒体文章数据采集模块,其用于从网络上采集媒体平台发布的文章信息,从该文章信息中提取内容文本,并存储内容文本,所述媒体平台包括微信公众号平台、新浪微博平台日、新闻移动客户端平台以及新闻网站平台;文章阅读评论点赞数更新模块,其用于获取所述文章信息的传播反馈数据,并存储该传播反馈数据,该传播反馈数据包括阅读数、评论数和/或点赞数;原创文章聚类分析模块,其用于对存储于所述文本数据库内的所有内容文本进行聚类计算,进而获取原创文章;原创文章影响力计算模块,其用于根据以下方法计算原创文章X在微信公共号平台上的影响力:其中,Rmean和Zmean分别代表原创文章X在微信公共号平台上分布N天内的日平均阅读数和日平均点赞数,σR和μR为Rmean的方差和期望值,σZ和μZ为Zmean的方差和期望值,Φ(x)为标准正态分布函数;以及所述原创文章影响力计算模块用于根据以下方法计算原创文章X在新浪微博平台上的影响力:其中,Tm、Cm和Zm分别代表原创文章X在新浪微博平台上分布N天内的日平均转发数、日平均评论数和日平均点赞数,σT和μT为Tm的方差和期望值,σc和μc为Cm的方差和期望值,σz和μz为Zm的方差和期望值,Φ(x)为标准正态分布函数;以及所述原创文章影响力计算模块用于根据以下方法计算原创文章X在新闻网站平台或新闻移动客户端平台上的影响力:其中,Cm分别代表原创文章X在新闻网站平台或新闻移动客户端平台上分布N天内的日平均评论数,σc和μc为Cm的方差和期望值,Φ(x)为标准正态分布函数;所述原创文章影响力计算模块还用于根据以下方法对原创文章在所有平台上的影响力进行计算:E=a+b+1/2kc+1/2ld,其中,为微信公众号平台n篇原创文章中第i篇原创文章的影响力,为新浪微博平台m篇原创文章中第i篇原创文章的影响力,为新闻移动客户端平台k篇原创文章中第i篇原创文章的影响力,为新闻网站平台l篇原创文章中第i篇原创文章的影响力;假设微信公众号平台的日活跃人数为a,新浪微博平台日活跃人数为b,新闻移动客户端平台的日活跃人数为c,新闻网站平台的日活跃人数为d。优选的是,所述的基于媒体信息采集的原创文章影响力分析系统中,所述媒体文章数据采集模块还包括:媒体文章采集装置,其用于从网络上获取媒体发布的文章信息;文本数据提取装置,其用于解析所述文章信息,并获取所述文章信息提取文章ID和内容文本,其中,所述文章ID包括所述文章信息的发布平台、发布媒体、发布时间以及题目;文本内存数据库,其用于存储已采集的文章信息的文章ID;内容文本判重装置,其用于将新采集的文章信息的文章ID在所述文本内存数据库中进行比较,如在所述文本内存数据库中不存在,则用于将该新采集的文章信息存储于所述文本内存数据库;文本数据库,其用于存储该新采集的文章信息的内容文本。优选的是,所述的基于媒体信息采集的原创文章影响力分析系统中,所述原创文章聚类分析模块包括:内容文本相似度判定装置,其用于利用文本聚类方法对存储于所述文本数据库内的所有内容文本进行聚类计算,从而形成多个类簇,每个类簇中具有多个相似的内容文本;原创文章分析装置,其用于解析出每个类簇中来源最早的内容文本,并将该内容文本作为原创文章;原创文章数据库,其用于存储原创文章;文章传播分析装置,其用于分析计算原创文章的转发情况,从而得到原创文章的传播信息;文章传播信息数据库,其用于存储原创文章的传播信息。优选的是,所述的基于媒体信息采集的原创文章影响力分析系统中,所述原创文章影响力计算模块包括:原创文章提取装置,其用于从所述原创文章数据库中获取原创文章;平台影响力计算装置,其用于计算原创文章在任一媒体平台上的影响力;文章影响力计算装置,其用于计算原创文章在所有媒体平台上的影响力:文章影响力数据库,其用于存储所述原创文章在所有媒体平台上的影响力计算结果。优选的是,所述的基于媒体信息采集的原创文章影响力分析系统中,所述原创文章分析装置用于根据以下方法解析出每个类簇中来源最早的内容文本:获取该类簇中其中一个内容文本的文章来源,建立一个来源指针,该来源指针指向被转的内容文本,再重复获取该被转的内容文本的文章来源,建立一个来源指针,对该类簇中的内容文本进行遍历,直至获取到来源最早的内容文本。优选的是,所述的基于媒体信息采集的原创文章影响力分析系统中,通过获取类簇中任一内容文本中的标明有文章来源的字段来获取文章来源;当存在两个内容文本中不含有标明有文章来源的字段时,在两个内容文本的特征向量的最小欧氏距离小于阈值的情况下,以发布时间在先的内容文本作为发布时间在后的内容文本的文章来源。一种基于媒体信息采集的原创文章影响力分析方法,包括以下步骤:步骤一、从网络上采集媒体平台发布的文章信息,从该文章信息中提取内容文本,并存储内容文本,所述媒体平台包括微信公众号平台、新浪微博平台日、新闻移动客户端平台以及新闻网站平台;步骤二、获取所述文章信息的传播反馈数据,并存储该传播反馈数据,该传播反馈数据包括阅读数、评论数和/或点赞数;步骤三、对存储于所述文本数据库内的所有内容文本进行聚类计算,进而获取原创文章;步骤四、计算原创文章X在任一媒体平台上的影响力:根据以下方法计算原创文章X在微信公共号平台上的影响力:其中,Rmean和Zmean分别代本文档来自技高网...
基于媒体信息采集的原创文章影响力分析系统

【技术保护点】
一种基于媒体信息采集的原创文章影响力分析系统,其特证在于,包括:媒体文章数据采集模块,其用于从网络上采集媒体平台发布的文章信息,从该文章信息中提取内容文本,并存储内容文本,所述媒体平台包括微信公众号平台、新浪微博平台日、新闻移动客户端平台以及新闻网站平台;文章阅读评论点赞数更新模块,其用于获取所述文章信息的传播反馈数据,并存储该传播反馈数据,该传播反馈数据包括阅读数、评论数和/或点赞数;原创文章聚类分析模块,其用于对存储于所述文本数据库内的所有内容文本进行聚类计算,进而获取原创文章;原创文章影响力计算模块,其用于根据以下方法计算原创文章X在微信公共号平台上的影响力:

【技术特征摘要】
1.一种基于媒体信息采集的原创文章影响力分析系统,其特证在于,包括:媒体文章数据采集模块,其用于从网络上采集媒体平台发布的文章信息,从该文章信息中提取内容文本,并存储内容文本,所述媒体平台包括微信公众号平台、新浪微博平台日、新闻移动客户端平台以及新闻网站平台;文章阅读评论点赞数更新模块,其用于获取所述文章信息的传播反馈数据,并存储该传播反馈数据,该传播反馈数据包括阅读数、评论数和/或点赞数;原创文章聚类分析模块,其用于对存储于所述文本数据库内的所有内容文本进行聚类计算,进而获取原创文章;原创文章影响力计算模块,其用于根据以下方法计算原创文章X在微信公共号平台上的影响力:其中,Rmean和Zmean分别代表原创文章X在微信公共号平台上分布N天内的日平均阅读数和日平均点赞数,σR和μR为Rmean的方差和期望值,σZ和μZ为Zmean的方差和期望值,Φ(x)为标准正态分布函数;以及所述原创文章影响力计算模块用于根据以下方法计算原创文章X在新浪微博平台上的影响力:其中,Tm,Cm和Zm分别代表原创文章X在新浪微博平台上分布N天内的日平均转发数、日平均评论数和日平均点赞数,σT和μT为Tm的方差和期望值,σc和μc为Cm的方差和期望值,σz和μz为Zm的方差和期望值,Φ(x)为标准正态分布函数;以及所述原创文章影响力计算模块用于根据以下方法计算原创文章X在新闻网站平台或新闻移动客户端平台上的影响力:其中,Cm分别代表原创文章X在新闻网站平台或新闻移动客户端平台上分布N天内的日平均评论数,σc和μc为Cm的方差和期望值,Φ(x)为标准正态分布函数;所述原创文章影响力计算模块还用于根据以下方法对原创文章在所有平台上的影响力进行计算:E=a+b+1/2kc+1/2ld,其中,为微信公众号平台n篇原创文章中第i篇原创文章的影响力,为新浪微博平台m篇原创文章中第i篇原创文章的影响力,为新闻移动客户端平台k篇原创文章中第i篇原创文章的影响力,为新闻网站平台l篇原创文章中第i篇原创文章的影响力;假设微信公众号平台的日活跃人数为a,新浪微博平台日活跃人数为b,新闻移动客户端平台的日活跃人数为c,新闻网站平台的日活跃人数为d。2.如权利要求1所述的基于媒体信息采集的原创文章影响力分析系统,其特证在于,所述媒体文章数据采集模块还包括:媒体文章采集装置,其用于从网络上获取媒体发布的文章信息;文本数据提取装置,其用于解析所述文章信息,并获取所述文章信息提取文章ID和内容文本,其中,所述文章ID包括所述文章信息的发布平台、发布媒体、发布时间以及题目;文本内存数据库,其用于存储已采集的文章信息的文章ID;内容文本判重装置,其用于将新采集的文章信息的文章ID在所述文本内存数据库中进行比较,如在所述文本内存数据库中不存在,则用于将该新采集的文章信息存储于所述文本内存数据库;文本数据库,其用于存储该新采集的文章信息的内容文本。3.如权利要求1所述的基于媒体信息采集的原创文章影响力分析系统,其特证在于,所述原创文章聚类分析模块包括:内容文本相似度判定装置,其用于利用文本聚类方法对存储于所述文本数据库内的所有内容文本进行聚类计算,从而形成多个类簇,每个类簇中具有多个相似的内容文本;原创文章分析装置,其用于解析出每个类簇中来源最早的内容文本,并将该内容文本作为原创文章;原创文章数据库,其用于存储原创文章;文章传播分析装置,其用于分析计算原创文章的转发情况,从而得到原创文章的传播信息;文章传播信息数据库,其用于存储原创文章的传播信息。4.如权利要求1所述的基于媒体信息采集的原创文章影响力分析系统,其特证在于,所述原创文章影响力计算模块包括:原创文章提取装置,其用于从所述原创文章数据库中获取原创文章;平台影响力计算装置,其用于计算原创文章在任一媒体平台上的影响力;文章影响力计算装置,其用于计算原创文章在所有媒体平台上的影响力:文章影响力数据库,其用于存储所述原创文章在所有媒体平台上的影响力计算结果。5.如权利要求3所述的基于媒体信息采集的原创文章影响力分析系统,其特证在于,所述原创文章分析装置用于根据以下方法解析出每个类簇中来源最早的内容文本:获取该类簇中其中一个内容文本的文章来源,建立一个来源指针,该来源指针指向被转的内容文本,再重复获取该被转的内容文本的文章来源...

【专利技术属性】
技术研发人员:杨海军施敏梁汝锋张成壮王松刘巨安王菲
申请(专利权)人:上海市互联网信息办公室北京蓝光汇智网络科技有限公司
类型:发明
国别省市:上海,31

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1