一种基于大数据的网络文章转发识别方法技术

技术编号：15437397 阅读：51 留言：0更新日期：2017-05-26 03:29

本发明专利技术公开了一种基于大数据的网络文章转发识别方法，通过搜索引擎定时且不间断的在互联网上采集各种类型文章，依据所集文章建立文章数据仓库；确认需要识别的文章及其显隐性，显式转发文章通过传播链接的比对进行转发识别，隐式转发文章通过模糊Hash值的比对查找到与待识别文章有关联的文章Pm，再进一步的识别出与之存在转发关系的文章Pe，根据文章Pe传播时间的先后重新排列找到源文章。通过本发明专利技术的实施能够找到文章的转发路径，解决了现有的人为排查耗时长、且效率低的问题，同时，依据查找到的具备转发关系的文章，为有关部门对有害网络文章的禁止传播提供数据依据，此外，本发明专利技术还能够用于网络文章的原创性判定以及文章的影响力评估。

Method for forwarding and identifying network articles based on large data

The invention discloses a data forwarding network article identification method based on search engine, through the timing and uninterrupted acquisition of various types of articles on the Internet, on the basis of the establishment of the data warehouse in this paper; recognized the need for recognition of the article and recessive than explicit forwarding through the communication link for forwarding identification. Through the comparison of implicit forwarding lookup and fuzzy Hash value to be identified the related article Pm, further to identify the existence of the relationship of Pe and forwarding, according to the Pe transmission time sequence of rearranging the source text to find. The embodiment of the invention can find the forwarding path of the solution to the existing human investigation is time-consuming, and the problem of low efficiency, at the same time, according with forwarding the relationship of the find, provide data basis for the relevant departments, the prohibition of the dissemination of harmful network. In addition, the invention also can be used in the original network the decision and influence evaluation.

全部详细技术资料下载

【技术实现步骤摘要】
一种基于大数据的网络文章转发识别方法
本专利技术涉及一种网络文章转发识别技术，尤其涉及一种基于大数据的网络文章转发识别的方法。
技术介绍
随着互联网的快速发展，网络媒体也发展强劲，网络文章作为网络媒体最主要的表达形式，包括新闻、娱乐消息、体育报道等等，在微博、微信、博客等新闻媒体上大量的相互转载和传播；而另一方面，越来越多的网友习惯于在网上表达自己对各种新闻信息的看法和见解，这些看法和见解的论点明确、论述清楚，文字更是上升成了完整的网络评论形成了网络文章，该类网络文章也在大量的传播和转载。大量的虚假、欺诈、有害的文章在网络上肆意传播，相关部门若要禁止该类文章的传播就须要找到该类文章的传播源头，现有技术中只能通过人工排查的方式找到该类文章的传播途径和来源，而一篇文章在网上发表后，由于网络的复杂性，具有转发多层次、多路径、转发量大等特点，最终形成了结构复杂的多级的网状转发路径；人工排查主要通过网民举报、网关监督等手段查找其转发路径，其耗时长且效率低。特别的，若该类文章为隐式转发文章，即通过计算机手段如复制、粘贴的方式完全拷贝或者部分拷贝别人的文章用以自我发表，该类文章的转发未有转发链接也没有标明文章的出处，且很容易形成多级的跨网站式的传播时，通过人为排查找到源文章难度极大，即便找到源文章，想要有效的禁止此类文章的传播，也缺乏有效手段。
技术实现思路
本专利技术的目的就在于为了解决上述问题而提供一种基于大数据的网络文章转发识别方法。本专利技术通过以下技术方案来实现上述目的：一种基于大数据的网络文章转发识别方法，包括：通过搜索引擎定时且不间断的在互联网上采集各种类型文...

【技术保护点】
一种基于大数据的网络文章转发识别方法，其特征在于：通过搜索引擎定时且不间断的在互联网上采集各种类型文章，依据所集文章建立文章数据仓库，而后，确认需要识别的文章及其转发类型，若转发文章标出文章来源，则为显式转发文章，若转发文章未标出文章的来源，则为隐式转发文章；对于显式转发文章，其转发识别方法包括如下步骤：步骤A1：设置初始集合S为空集，将待识别的文章A的链接放入集合S；步骤A2：设置一个临时集合C为空集；步骤A3：取出集合S中的元素，与数据仓库中的其他文章的传播链接进行逐一匹配，若匹配成功，则将该匹配成功的文章P的链接加入集合C，反之，若匹配失败，则继续与数据仓库中的下一篇文章的传播链接进行匹配；步骤A4：清空集合S中的元素，将C中所有元素加入S，清空集合C；步骤A5：重复步骤A2至A4，直到集合S为空集；步骤A6：根据步骤A3所获传播链接的传播时间的先后重新排列链接；对于隐式转发文章，其转发识别方法包括如下步骤：步骤B1：提取数据仓库中的所有文章的关键信息，并根据各自的关键信息计算得到各自的64位模糊Hash值；步骤B2：设置初始集合S1，将待识别文章A的64位模糊Hash值与数据仓...

【技术特征摘要】
1.一种基于大数据的网络文章转发识别方法，其特征在于：通过搜索引擎定时且不间断的在互联网上采集各种类型文章，依据所集文章建立文章数据仓库，而后，确认需要识别的文章及其转发类型，若转发文章标出文章来源，则为显式转发文章，若转发文章未标出文章的来源，则为隐式转发文章；对于显式转发文章，其转发识别方法包括如下步骤：步骤A1：设置初始集合S为空集，将待识别的文章A的链接放入集合S；步骤A2：设置一个临时集合C为空集；步骤A3：取出集合S中的元素，与数据仓库中的其他文章的传播链接进行逐一匹配，若匹配成功，则将该匹配成功的文章P的链接加入集合C，反之，若匹配失败，则继续与数据仓库中的下一篇文章的传播链接进行匹配；步骤A4：清空集合S中的元素，将C中所有元素加入S，清空集合C；步骤A5：重复步骤A2至A4，直到集合S为空集；步骤A6：根据步骤A3所获传播链接的传播时间的先后重新排列链接；对于隐式转发文章，其转发识别方法包括如下步骤：步骤B1：提取数据仓库中的所有文章的关键信息，并根据各自的关键信息计算得到各自的64位模糊Hash值；步骤B2：设置初始集合S1，将待识别文章A的64位模糊Hash值与数据仓库中所有文章的模糊Hash值的逐一比对，找到与文章A有关联的文章Pm的模糊Hash值，并进一步查找出该类文章的具体内容，放入集合S1：S1{P1、P2、P3……Pm}步骤B3：依次提取集合S1中的文章Pm，将文章A与取出的文章Pm分别对应分解为两个字序列X，Y，其长度分别对应为N、T，其中N≥T，定义序列X到序列Y中的点到点的距离函数为：其中表示序列X中序号为i的字，表示序列Y中序号为j的字，若则表示两个字相同，距离为0，若则表示两个字不同，距离为1；步骤B4：定义X序列的字与Y序列...

【专利技术属性】
技术研发人员：罗炜敏，聂敏，苗大泉，
申请(专利权)人：成都寻道科技有限公司，
类型：发明
国别省市：四川,51

全部详细技术资料下载我是这个专利的主人