一种基于大数据的网络文章转发识别方法技术

技术编号:15437397 阅读:51 留言:0更新日期:2017-05-26 03:29
本发明专利技术公开了一种基于大数据的网络文章转发识别方法,通过搜索引擎定时且不间断的在互联网上采集各种类型文章,依据所集文章建立文章数据仓库;确认需要识别的文章及其显隐性,显式转发文章通过传播链接的比对进行转发识别,隐式转发文章通过模糊Hash值的比对查找到与待识别文章有关联的文章Pm,再进一步的识别出与之存在转发关系的文章Pe,根据文章Pe传播时间的先后重新排列找到源文章。通过本发明专利技术的实施能够找到文章的转发路径,解决了现有的人为排查耗时长、且效率低的问题,同时,依据查找到的具备转发关系的文章,为有关部门对有害网络文章的禁止传播提供数据依据,此外,本发明专利技术还能够用于网络文章的原创性判定以及文章的影响力评估。

Method for forwarding and identifying network articles based on large data

The invention discloses a data forwarding network article identification method based on search engine, through the timing and uninterrupted acquisition of various types of articles on the Internet, on the basis of the establishment of the data warehouse in this paper; recognized the need for recognition of the article and recessive than explicit forwarding through the communication link for forwarding identification. Through the comparison of implicit forwarding lookup and fuzzy Hash value to be identified the related article Pm, further to identify the existence of the relationship of Pe and forwarding, according to the Pe transmission time sequence of rearranging the source text to find. The embodiment of the invention can find the forwarding path of the solution to the existing human investigation is time-consuming, and the problem of low efficiency, at the same time, according with forwarding the relationship of the find, provide data basis for the relevant departments, the prohibition of the dissemination of harmful network. In addition, the invention also can be used in the original network the decision and influence evaluation.

【技术实现步骤摘要】
一种基于大数据的网络文章转发识别方法
本专利技术涉及一种网络文章转发识别技术,尤其涉及一种基于大数据的网络文章转发识别的方法。
技术介绍
随着互联网的快速发展,网络媒体也发展强劲,网络文章作为网络媒体最主要的表达形式,包括新闻、娱乐消息、体育报道等等,在微博、微信、博客等新闻媒体上大量的相互转载和传播;而另一方面,越来越多的网友习惯于在网上表达自己对各种新闻信息的看法和见解,这些看法和见解的论点明确、论述清楚,文字更是上升成了完整的网络评论形成了网络文章,该类网络文章也在大量的传播和转载。大量的虚假、欺诈、有害的文章在网络上肆意传播,相关部门若要禁止该类文章的传播就须要找到该类文章的传播源头,现有技术中只能通过人工排查的方式找到该类文章的传播途径和来源,而一篇文章在网上发表后,由于网络的复杂性,具有转发多层次、多路径、转发量大等特点,最终形成了结构复杂的多级的网状转发路径;人工排查主要通过网民举报、网关监督等手段查找其转发路径,其耗时长且效率低。特别的,若该类文章为隐式转发文章,即通过计算机手段如复制、粘贴的方式完全拷贝或者部分拷贝别人的文章用以自我发表,该类文章的转发未有转发链接也没有标明文章的出处,且很容易形成多级的跨网站式的传播时,通过人为排查找到源文章难度极大,即便找到源文章,想要有效的禁止此类文章的传播,也缺乏有效手段。
技术实现思路
本专利技术的目的就在于为了解决上述问题而提供一种基于大数据的网络文章转发识别方法。本专利技术通过以下技术方案来实现上述目的:一种基于大数据的网络文章转发识别方法,包括:通过搜索引擎定时且不间断的在互联网上采集各种类型文章,依据所集文章建立文章数据仓库,而后,确认需要识别的文章及其转发类型,若转发文章标出文章来源,则为显式转发文章,若转发文章未标出文章的来源,则为隐式转发文章。对于显式转发文章,采用如下方法实现转发识别:步骤A1:设置初始集合S为空集,将待识别的文章A的链接放入集合S;步骤A2:设置一个临时集合C为空集;步骤A3:取出集合S中的元素,与数据仓库中的其他文章的传播链接进行逐一匹配,若匹配成功,则将该匹配成功的文章P的链接加入集合C,反之,若匹配失败,则继续与数据仓库中的下一条传播链接进行匹配;步骤A4:清空集合S中的元素,将C中所有元素加入S,清空集合C;步骤A5:重复步骤A2至A4,直到集合S为空集;步骤A6:根据步骤A3所获传播链接的传播时间的先后重新排列链接;对于隐式转发文章,采用如下方法实现转发识别:步骤B1:设置初始集合S1,提取数据仓库中所有文章的关键信息,并根据各自的关键信息计算得到各自的模糊Hash值;步骤B2:将待识别文章A的模糊Hash值与数据仓库中所有文章的模糊Hash值的逐一比对,找到与文章A有关联的文章Pm的模糊Hash值,并进一步查找出该类文章的具体内容,放入集合S1:S1{P1、P2、P3……Pm}步骤B3:依次提取集合S1中的文章Pm,将文章A与取出的文章Pm分别对应分解为两个字序列X,Y,其长度分别对应为N、T,其中N≥T;定义序列X到序列Y中的点到点的距离函数为:其中表示序列X中序号为i的字,表示序列Y中序号为j的字,若则表示两个字相同,距离为0,若则表示两个字不同,距离为1;步骤B4:定义X序列的字与Y序列的字之间的对应关系,根据对应关系计算得到两篇文章序列之间的的累计距离,其中:的可能值为1到N,的可能值为1到T,即解出T个从序列X到序列Y的对应关系,即解出T个累计距离,若,则表明X序列的第一个点与Y序列的第一个点就是一个对应关系;步骤B5:设定初始空集S2,设定转发判定阈值H,将计算得到的T个距离累计值放入集合S2,并从中筛选出最小的累计距离值,若最小距离值≦H,则文章A与文章Pm之间为转发关系,若最小距离值﹥H,则两文章之间不存在转发的关系;步骤B6:设定初始空集S3,重复步骤B3至B5,直至集合S1为空集,并将找到的与A存在转发关系的文章Pe(0≦e≦m)放入集合S3;步骤B7:根据文章Pe传播时间的先后重新排列,该排列的首篇文章即为源文章。作为优选,所述步骤B2进一步包括:B21:建立倒排索引表,针对待识别的文章A,将其的模糊Hash值分为4块,每块16位,根据每个块值分别查询4张倒排索引表,得到与A的模糊Hash值的汉明距离在3以内的文章Pm的模糊Hash值;B22:根据步骤B21所得模糊Hash值,查询出该类文章的ID,通过按域搜索,查找出所有这些文章的的具体内容,放入集合S1。作为优选,所述步骤B1中的文章关键信息包括,文章作者、文章链接、文章标题、文章发表时间、文章内容、传播链接、文章关键词、文章摘要。作为优选所述判定阈值H优选为0.15T。作为优选,所述步骤B6中的e的值为0的时候,P0仅为结果值,文章P0不存在,即文章A未存在有转发关系的文章。本专利技术的有益效果在于:通过该方法,能够找到文章的转发源,解决了现有的人为排查耗时长、且效率低的问题,同时,依据查找到的具备转发关系的文章,为有关部门对有害网络文章的禁止传播提供数据依据,此外,本专利技术还能够用于网络文章的原创性判定以及文章的影响力评估。附图说明图1是本专利技术中显式转发文章的识别流程图;图2是本专利技术中隐式转发文章的识别流程图;图3是本专利技术中文章模糊Hash值的计算流程图。具体实施方式下面结合附图对本专利技术作进一步说明:通过搜索引擎定时且不间断的在互联网上采集各种类型文章,依据所集文章建立文章数据仓库,而后,确认需要识别的文章,并判定该文章的转发类型,若转发文章明显标出文章来源,则为显式转发文章,若转发文章未能标明其来源,则为隐式转发文章。由于各个网站、平台的设计结构各异、数据结构也各不相同,所以在文章数据的采集中,须全面采集到一篇文章的基本信息,基本信息包括文章作者、文章链接、文章标题、文章发表时间、文章内容、传播链接、文章关键词、文章摘要等。考虑到网络数据量的庞大以及提高数据采集的效率,搜索引擎采用分布式搜索引擎数据平台的方式,包括分布式数据采集系统、存储系统、监控管理系统与分析系统,分布式数据采集系统即由多台服务器之间通过通信协作共同完成任务,由一台主节点控制任务调度,即分发需要采集的网页链接到各个数据采集节点,再由各个数据采集节点采集相应的数据并存储及反馈给主节点。图1为显式转发文章的识别流程图,如图所示,对于显式转发文章,其转发识别方法包括如下步骤:步骤A1:设置初始集合S为空集,将待识别的文章A的链接放入集合S;步骤A2:设置一个临时集合C为空集;步骤A3:取出集合S中的元素,与数据仓库中的其他文章的传播链接进行逐一匹配,若匹配成功,则将该匹配成功的文章P的链接加入集合C,反之,若匹配失败,则继续与数据仓库中的下一条传播链接进行匹配;步骤A4:清空集合S中的元素,将C中所有元素加入S,清空集合C;步骤A5:重复步骤A2至A4,直到集合S为空集;步骤A6:根据步骤A3所获传播链接的传播时间的先后重新排列链接;显式转发文章,该类转发文章有相同的链接,通过将待识别文章的链接与数据仓库中所有文章的链接进行一一匹配,从而找到与待识别文章链接相同的文章链接,再通过链接传播时间的先后,判定文章的转发顺序。图2为隐式转发文章的识别流程图,如图所示,对本文档来自技高网...
一种基于大数据的网络文章转发识别方法

【技术保护点】
一种基于大数据的网络文章转发识别方法,其特征在于:通过搜索引擎定时且不间断的在互联网上采集各种类型文章,依据所集文章建立文章数据仓库,而后,确认需要识别的文章及其转发类型,若转发文章标出文章来源,则为显式转发文章,若转发文章未标出文章的来源,则为隐式转发文章;对于显式转发文章,其转发识别方法包括如下步骤:步骤A1:设置初始集合S为空集,将待识别的文章A的链接放入集合S;步骤A2:设置一个临时集合C为空集;步骤A3:取出集合S中的元素,与数据仓库中的其他文章的传播链接进行逐一匹配,若匹配成功,则将该匹配成功的文章P的链接加入集合C,反之,若匹配失败,则继续与数据仓库中的下一篇文章的传播链接进行匹配;步骤A4:清空集合S中的元素,将C中所有元素加入S,清空集合C;步骤A5:重复步骤A2至A4,直到集合S为空集;步骤A6:根据步骤A3所获传播链接的传播时间的先后重新排列链接;对于隐式转发文章,其转发识别方法包括如下步骤:步骤B1:提取数据仓库中的所有文章的关键信息,并根据各自的关键信息计算得到各自的64位模糊Hash值;步骤B2:设置初始集合S1,将待识别文章A的64位模糊Hash值与数据仓库中所有文章的模糊Hash值的逐一比对,找到与文章A有关联的文章Pm的模糊Hash值,并进一步查找出该类文章的具体内容,放入集合S1:S1{P1、P2、P3……Pm}步骤B3:依次提取集合S1中的文章Pm,将文章A与取出的文章Pm分别对应分解为两个字序列X,Y,其长度分别对应为N、T,其中N≥T,定义序列X到序列Y中的点到点的距离函数...

【技术特征摘要】
1.一种基于大数据的网络文章转发识别方法,其特征在于:通过搜索引擎定时且不间断的在互联网上采集各种类型文章,依据所集文章建立文章数据仓库,而后,确认需要识别的文章及其转发类型,若转发文章标出文章来源,则为显式转发文章,若转发文章未标出文章的来源,则为隐式转发文章;对于显式转发文章,其转发识别方法包括如下步骤:步骤A1:设置初始集合S为空集,将待识别的文章A的链接放入集合S;步骤A2:设置一个临时集合C为空集;步骤A3:取出集合S中的元素,与数据仓库中的其他文章的传播链接进行逐一匹配,若匹配成功,则将该匹配成功的文章P的链接加入集合C,反之,若匹配失败,则继续与数据仓库中的下一篇文章的传播链接进行匹配;步骤A4:清空集合S中的元素,将C中所有元素加入S,清空集合C;步骤A5:重复步骤A2至A4,直到集合S为空集;步骤A6:根据步骤A3所获传播链接的传播时间的先后重新排列链接;对于隐式转发文章,其转发识别方法包括如下步骤:步骤B1:提取数据仓库中的所有文章的关键信息,并根据各自的关键信息计算得到各自的64位模糊Hash值;步骤B2:设置初始集合S1,将待识别文章A的64位模糊Hash值与数据仓库中所有文章的模糊Hash值的逐一比对,找到与文章A有关联的文章Pm的模糊Hash值,并进一步查找出该类文章的具体内容,放入集合S1:S1{P1、P2、P3……Pm}步骤B3:依次提取集合S1中的文章Pm,将文章A与取出的文章Pm分别对应分解为两个字序列X,Y,其长度分别对应为N、T,其中N≥T,定义序列X到序列Y中的点到点的距离函数为:其中表示序列X中序号为i的字,表示序列Y中序号为j的字,若则表示两个字相同,距离为0,若则表示两个字不同,距离为1;步骤B4:定义X序列的字与Y序列...

【专利技术属性】
技术研发人员:罗炜敏聂敏苗大泉
申请(专利权)人:成都寻道科技有限公司
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1