一种用于监控互联网中转载文章信息的控制方法及装置制造方法及图纸

技术编号:26171314 阅读:21 留言:0更新日期:2020-10-31 13:43
一种用于监控互联网中转载文章信息的控制方法及装置,包括:系统抓取数据源中文章信息,得到文章的SimHash指纹和hash指纹并存储到数据库中;系统根据监控的文章信息的文字信息和文章中最长的n个句子的文字信息,计算得到SimHash指纹和hash指纹,将SimHash指纹与数据库中各文章的SimHash指纹进行比较,获取海明距离小于等于3的一或多篇文章信息,并比较hash指纹,获取hash指纹相同的一或多篇文章信息;系统进行文本相似度计算,判断如果获取的数据库中一或多篇文章信息的内容与监控的文章信息的内容相似率大于等于预设值,则判定该获取的文章信息为转载文章信息。本发明专利技术解决了当前作者发表一篇原创文章,可快速获取原创文章被侵权转载的情况的技术问题。

【技术实现步骤摘要】
一种用于监控互联网中转载文章信息的控制方法及装置
本申请涉及计算机信息
,特别涉及一种用于监控互联网中转载文章信息的控制方法及装置。
技术介绍
近年来随着信息技术的大力发展,网上的信息越来越多,信息的传播速度越来越块,信息传播的渠道越来越广。在互联网信息传播过程中,出现了越来越多的文章抄袭和转载,文章的抄袭的成本低廉。如果一个作者发表一篇文章,会被很多人转载,但无法知道有多少人,多少站点转载了自己的文章,对于原创作者来说损失很大,如何对原创文章进行保护,快速获取原创文章被侵权转载的情况,快速检索到新闻被转载的信息,同时能够检索多渠道的新闻的转载情况,是当前需要解决的问题。
技术实现思路
本申请实施例提供一种用于监控互联网中转载文章信息的控制方法及装置,以解决当前作者发表一篇原创文章,可以快速获取原创文章被侵权转载的情况的技术问题。本专利技术提供了一种用于监控互联网中转载文章信息的控制方法,包括:系统预先设置需要监控的一个或多个互联网数据源,抓取预先设置的数据源中文章信息,其中获取文章中文字信息,并获取每篇文章的最长的n个句子的文字信息,n为大于0的整数;系统根据抓取的文章中文字信息,计算该篇文章的SimHash值,作为该篇文章的SimHash指纹,计算该篇文章的最长的n个句子的hash值,作为该篇文章的hash指纹,将各篇文章的文章信息、SimHash指纹和hash指纹存储到数据库中;系统根据需要监控的文章信息的文字信息和该需要监控的文章中最长的n个句子的文字信息,计算得到需要监控的文章的SimHash指纹和hash指纹,将需要监控的文章的SimHash指纹与所述数据库中各文章的SimHash指纹进行比较,获取数据库中文章的SimHash指纹和需要监控的文章的SimHash指纹的海明距离小于等于3的一或多篇文章信息,并将需要监控的文章的hash指纹与所述数据库中各文章的hash指纹进行比较,获取数据库中文章的hash指纹和需要监控的文章的hash指纹相同的一或多篇文章信息;系统进行文本相似度计算,判断如果获取的所述数据库中一或多篇文章信息的内容与需要监控的文章信息的内容相似率大于等于预设值,则判定该获取的文章信息为转载文章信息。本专利技术还提供了一种用于监控互联网中转载文章信息的控制装置,包括,信息抓取单元,用于从预先设置需要监控的一个或多个互联网数据源,抓取预先设置的数据源中文章信息,其中获取文章中文字信息,并获取每篇文章的最长的n个句子的文字信息,n为大于0的整数;运算单元,用于根据信息抓取单元抓取的文章中文字信息,计算该篇文章的SimHash值,作为该篇文章的SimHash指纹,计算该篇文章的最长的n个句子的hash值,作为该篇文章的hash指纹,将各篇文章的文章信息、SimHash指纹和hash指纹存储到数据库中;并根据需要监控的文章信息的文字信息和该需要监控的文章中最长的n个句子的文字信息,计算得到需要监控的文章的SimHash指纹和hash指纹;及判断单元,用于将运算单元中计算得到的需要监控的文章的SimHash指纹与所述数据库中各文章的SimHash指纹进行比较,获取数据库中文章的SimHash指纹和需要监控的文章的SimHash指纹的海明距离小于等于3的一或多篇文章信息,并将需要监控的文章的hash指纹与所述数据库中各文章的hash指纹进行比较,获取数据库中文章的hash指纹和需要监控的文章的hash指纹相同的一或多篇文章信息;进行文本相似度计算,判断如果获取的所述数据库中一或多篇文章信息的内容与需要监控的文章信息的内容相似率大于等于预设值,则判定该获取的文章信息为转载文章信息。与现有技术相比,应用本专利技术,通过采集网上的信息,然后计算信息的信息指纹,通过信息指纹中SimHash指纹和最长的n个句子的hash指纹的双重指纹的多重检索进行信息的快速检索,保证信息检索的精确度、速度和及时性。附图说明此处所说明的附图用于提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:图1为本申请实施例提供的一种用于监控互联网中转载文章信息的控制方法的一种具体实施方式的流程示意图;图2为本申请实施例提供的一种本申请中用于监控互联网中转载文章信息的控制装置的结构示意图。具体实施方式为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。本专利技术提供了一种用于监控互联网中转载文章信息的控制方法的主要构思:首先采集网上的文章信息,然后计算网上的文章信息的信息指纹,通过信息指纹(其中,信息指纹通过SimHash指纹和最长的n个句子的hash指纹的双重指纹,多种检索方式相互补充,来保证检索新闻的全面性、信息检索的速度和及时性)进行信息的快速检索;最后再通过Jaccard相似度计算来最后判断网上的文章信息是否为相似或侵权文章。(在整个监控的过程中主要分全量文章预处理步骤和相似文章检索步骤,全量文章预处理步骤主要是全量文章的入库,以及基础数据的准备;相似文章检索步骤主要是在全量文章里检索出相似新闻的过程)。通过信息指纹的多重检索进行信息的快速检索,保证信息检索的精确度、速度和及时性。SimHash称为相似hash,是一类特殊的信息指纹,常用来比较文章的相似度,与传统hash相比,传统hash只负责将原始内容尽量随机的映射为一个特征值,并保证相同的内容一定具有相同的特征值。而且如果两个hash值是相等的,则说明原始数据在一定概率下也是相等的。但通过传统hash来判断文章的内容是否相似是非常困难的,原因在于传统hash只唯一标明了其特殊性,并不能作为相似度比较的依据。所以在本申请中采用SimHash指纹和最长的n个句子的hash指纹的双重指纹,多种检索方式相互补充,来保证检索内容的全面性、精确性、信息检索的速度和及时性。在本申请中主要涉及通过具有中央处理功能的设备(例如计算机或智能终端等设备)进行互联网信息的处理。为了方便描述,在本申请实施例中,主要通过计算机系统操作为例进行介绍。请参考图1,如图1所示,本申请实施例提供的一种用于监控互联网中转载文章信息的控制方法h,包括如下步骤:步骤110、系统预先设置需要监控的一个或多个互联网数据源,抓取预先设置的数据源中文章信息,其中获取文章中文字信息,并获取每篇文章的最长的n个句子的文字信息,n为大于0的整数;其中,抓取的预先设置的数据源中文章信息可以是某新闻的信息或者某文章的内容信息等,只要是具有传播特性的互联网信息内容都可以是本申请所指的文章信息,本申请对此不作任何限定。所述数据源可以包括:监控互本文档来自技高网...

【技术保护点】
1.一种用于监控互联网中转载文章信息的控制方法,其特征在于,包括:/n系统预先设置需要监控的一个或多个互联网数据源,抓取预先设置的数据源中文章信息,其中获取文章中文字信息,并获取每篇文章的最长的n个句子的文字信息,n为大于0的整数;/n系统根据抓取的文章中文字信息,计算该篇文章的SimHash值,作为该篇文章的SimHash指纹,计算该篇文章的最长的n个句子的hash值,作为该篇文章的hash指纹,将各篇文章的文章信息、SimHash指纹和hash指纹存储到数据库中;/n系统根据需要监控的文章信息的文字信息和该需要监控的文章中最长的n个句子的文字信息,计算得到需要监控的文章的SimHash指纹和hash指纹,将需要监控的文章的SimHash指纹与所述数据库中各文章的SimHash指纹进行比较,获取数据库中文章的SimHash指纹和需要监控的文章的SimHash指纹的海明距离小于等于3的一或多篇文章信息,并将需要监控的文章的hash指纹与所述数据库中各文章的hash指纹进行比较,获取数据库中文章的hash指纹和需要监控的文章的hash指纹相同的一或多篇文章信息;/n系统进行文本相似度计算,判断如果获取的所述数据库中一或多篇文章信息的内容与需要监控的文章信息的内容相似率大于等于预设值,则判定该获取的文章信息为转载文章信息。/n...

【技术特征摘要】
1.一种用于监控互联网中转载文章信息的控制方法,其特征在于,包括:
系统预先设置需要监控的一个或多个互联网数据源,抓取预先设置的数据源中文章信息,其中获取文章中文字信息,并获取每篇文章的最长的n个句子的文字信息,n为大于0的整数;
系统根据抓取的文章中文字信息,计算该篇文章的SimHash值,作为该篇文章的SimHash指纹,计算该篇文章的最长的n个句子的hash值,作为该篇文章的hash指纹,将各篇文章的文章信息、SimHash指纹和hash指纹存储到数据库中;
系统根据需要监控的文章信息的文字信息和该需要监控的文章中最长的n个句子的文字信息,计算得到需要监控的文章的SimHash指纹和hash指纹,将需要监控的文章的SimHash指纹与所述数据库中各文章的SimHash指纹进行比较,获取数据库中文章的SimHash指纹和需要监控的文章的SimHash指纹的海明距离小于等于3的一或多篇文章信息,并将需要监控的文章的hash指纹与所述数据库中各文章的hash指纹进行比较,获取数据库中文章的hash指纹和需要监控的文章的hash指纹相同的一或多篇文章信息;
系统进行文本相似度计算,判断如果获取的所述数据库中一或多篇文章信息的内容与需要监控的文章信息的内容相似率大于等于预设值,则判定该获取的文章信息为转载文章信息。


2.根据权利要求1所述的方法,其特征在于,
所述互联网数据源包括:需要监控互联网中转载文章信息的数据源的网站、论坛、微博、APP或者微信公众号。


3.根据权利要求2所述的方法,其特征在于,
还包括:所述内容相似率的预设值的取值范围为:大于70%且小于100%。


4.根据权利要求3所述的方法,其特征在于,
所述系统进行文本相似度计算,判断如果获取的所述数据库中一或多篇文章信息的内容与监控的文章信息的内容相似率大于等于预设值,则判定该获取的文章信息为转载文章信息的步骤,包括:
所述系统是通过Jaccard方式进行文本相似度计算,判断如果获取的所述数据库中一或多篇文章信息的内容与监控的文章信息的内容相似率大于等于预设值,则判定该获取的文章信息为转载文章信息。


5.一种用于监控互联网中转载文章信息的控制...

【专利技术属性】
技术研发人员:李青龙骆飞彭璿韜王雪峰卢达
申请(专利权)人:北京智慧星光信息技术有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1