当前位置: 首页 > 专利查询>沈文策专利>正文

一种识别相似文章的方法和装置制造方法及图纸

技术编号:20176829 阅读:50 留言:0更新日期:2019-01-23 00:25
本发明专利技术实施例提供了一种识别相似文章的方法和装置,所述方法包括:基于预设的原创文章,在预设的同类网站中进行检索,将检索出的文章作为可疑文章,预设的同类网站是指与发表所述预设的原创文章的网站具有竞争关系的同类网站;分别计算每个可疑文章与预设的原创文章之间的相似度;若相似度高于预设的相似度阈值,则将高于预设的相似度阈值的相似度对应的可疑文章,确定为相似文章。应用本发明专利技术实施例能够实现不依赖人工,自动识别与原创文章相同或相似的相似文章。

A Method and Device for Identifying Similar Articles

The embodiment of the present invention provides a method and device for identifying similar articles. The method includes: searching the original articles in the preset similar websites based on the preset, and taking the retrieved articles as suspicious articles. The preset similar websites refer to the same websites that are competitive with the websites that publish the preset original articles; calculating each suspicious article and the preset similar websites separately. If the similarity is higher than the preset similarity threshold, the suspicious articles corresponding to the similarity above the preset similarity threshold will be identified as similar articles. The embodiment of the present invention can realize automatic identification of similar articles which are the same or similar to the original articles without relying on manual work.

【技术实现步骤摘要】
一种识别相似文章的方法和装置
本专利技术涉及计算文本相似度的
,特别是涉及一种识别相似文章的方法和装置。
技术介绍
在发布原创文章后,为了保护自身的合法权益,避免其他网站或公众号,尤其是与发表文章的网站具有竞争关系的同类网站或同类公众号在未经许可的情况下转载、部分抄袭或整篇抄袭该原创文章,因此,需要在其他网站或公众号上识别是否发布有与原创文章相同的文章或部分相同的相似文章。比如,原创文章发表于网站A,网站A为新闻资讯类网站,那么,就需要网站A的同类网站或公众号,具体为其他新闻资讯类网站或新闻资讯类公众号上识别与该原创文章相同的文章或部分相同的相似文章。如果在其他网站或公众号上识别到与原创文章相同的文章或部分相同的相似文章,则需要通过发送提醒邮件等方式通知发布该相似文章的网站或公众号,缴纳转载费用或删除该相似文章。目前,需要由人工根据原创文章,在其他网站或公众号上查找是否发布有与原创文章相同的文章或部分相同的相似文章,浪费人力且查找效率低。
技术实现思路
本专利技术实施例的目的在于提供一种识别相似文章的方法和装置,以实现不依赖人工,自动识别与原创文章相同或相似的相似文章。具体技术方案如下:本专利技术实施例提供了一种识别相似文章的方法,所述方法包括:基于预设的原创文章,在预设的同类网站中进行检索,将检索出的文章作为可疑文章,预设的同类网站是指与发表所述预设的原创文章的网站具有竞争关系的同类网站;分别计算每个可疑文章与预设的原创文章之间的相似度;若相似度高于预设的相似度阈值,则将高于预设的相似度阈值的相似度对应的可疑文章,确定为相似文章。可选的,所述基于预设的原创文章,在预设的同类网站中进行检索的步骤,包括:从预设的原创文章中提取核心段落;将所述核心段落在预设的同类网站中进行检索。可选的,所述从预设的原创文章中提取核心段落的步骤,包括:从所述预设的原创文章中,除首段和尾段以外的其他段落中提取至少一个段落作为核心段落。可选的,所述基于预设的原创文章,在预设的同类网站中进行检索的步骤,包括:从预设的原创文章中提取关键字;将所述关键字在预设的同类网站中进行检索。可选的,所述分别计算每个可疑文章与预设的原创文章之间的相似度的步骤,包括:使用预设的余弦相似度方法,分别计算每个可疑文章与预设的原创文章之间的相似度。可选的,在所述将相似度高于预设的相似度阈值的对应的可疑文章,确定为相似文章的步骤之后,所述方法还包括:获取所述预设的原创文章的地址、所述相似文章的地址,以及发布所述相似文章的网站的管理员邮箱;按照预设的提醒邮件模板,生成所述相似文章对应的提醒邮件,其中,所述提醒邮件的正文包括所述预设的原创文章的地址和所述相似文章的地址,所述提醒邮件的收信人为发布所述相似文章的网站的管理员邮箱。可选的,在所述将相似度高于预设的相似度阈值的对应的可疑文章,确定为相似文章的步骤之后,所述方法还包括:将发布所述相似文章的网站的管理员邮箱保存在预设的记录文档中,以根据预设的记录文档,向发布所述相似文章的网站的管理员发送提醒消息。本专利技术实施例还提供了一种识别相似文章的装置,所述装置包括:检索模块,用于基于预设的原创文章,在预设的同类网站中进行检索,将检索出的文章作为可疑文章,预设的同类网站是指与发表所述预设的原创文章的网站具有竞争关系的同类网站;计算模块,用于分别计算每个可疑文章与预设的原创文章之间的相似度;确定模块,用于若所述计算模块计算出的相似度高于预设的相似度阈值,则将相似度高于预设的相似度阈值的对应的可疑文章,确定为相似文章。可选的,所述检索模块,具体用于:从预设的原创文章中提取核心段落;将所述核心段落在预设的同类网站中进行检索。可选的,所述检索模块,具体用于从所述预设的原创文章中,除首段和尾段以外的其他段落中提取至少一个段落作为核心段落。可选的,所述检索模块,具体用于从预设的原创文章中提取关键字;将所述关键字在预设的同类网站中进行检索。可选的,所述计算模块,具体用于使用预设的余弦相似度方法,分别计算每个可疑文章与预设的原创文章之间的相似度。可选的,所述装置还包括:获取模块,用于获取所述预设的原创文章的地址、所述相似文章的地址,以及发布所述相似文章的网站的管理员邮箱;生成模块,用于按照预设的提醒邮件模板,生成所述相似文章对应的提醒邮件,其中,所述提醒邮件的正文包括所述预设的原创文章的地址和所述相似文章的地址,所述提醒邮件的收信人为发布所述相似文章的网站的管理员邮箱。可选的,所述装置还包括:保存模块,用于将发布所述相似文章的网站的管理员邮箱保存在预设的记录文档中,以根据预设的记录文档,向发布所述相似文章的网站的管理员发送提醒消息。可选的,本专利技术实施例再提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;存储器,用于存放计算机程序;处理器,用于执行存储器上所存放的程序时,实现上述任一所述的识别相似文章的方法。本专利技术实施例提供的识别相似文章的方法和装置,首先,基于预设的原创文章,在预设的同类网站中进行检索,将检索出的文章作为可疑文章;然后,分别计算每个可疑文章与预设的原创文章之间的相似度;若相似度高于预设的相似度阈值,则将相似度高于预设的相似度阈值的对应的可疑文章,确定为相似文章。这样,无需依赖人工,可以实现自动在预设的同类网站中,识别与原创文章相同或部分的相似文章,不仅可以节省人力资源,而且提高识别相似文章的效率。当然,实施本专利技术的任一产品或方法并不一定需要同时达到以上所述的所有优点。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例的识别相似文章的方法的一种流程图;图2为本专利技术实施例的识别相似文章的方法的又一种流程图;图3为本专利技术实施例的识别相似文章的方法的再一种流程图;图4为本专利技术实施例的识别相似文章的装置的结构图;图5为本专利技术实施例的电子设备的示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。本专利技术实施例提供了一种识别相似文章的方法。参见图1,图1为本专利技术实施例的识别相似文章的方法的一种流程图,包括如下步骤:步骤101,基于预设的原创文章,在预设的同类网站中进行检索,将检索出的文章作为可疑文章。其中,预设的同类网站是指与发表所述预设的原创文章的网站具有竞争关系的同类网站。在本步骤中,可以基于预设的原创文章,在预设的同类网站中进行检索,将检索到的文章作为预设的原创文章对应的可疑文章,其中,预设的原创文章就是指用户自主撰写的文章,发表在某一网站或者公众号上;预设的同类网站是指与发表该预设的原装文章的网站或公众号具有类似功能的网站或公众号,比如,原创文章发表于网站A,网站A为新闻资讯类网站,那么,预设的同类网本文档来自技高网...

【技术保护点】
1.一种识别相似文章的方法,其特征在于,所述方法包括:基于预设的原创文章,在预设的同类网站中进行检索,将检索出的文章作为可疑文章,预设的同类网站是指与发表所述预设的原创文章的网站具有竞争关系的同类网站;分别计算每个可疑文章与预设的原创文章之间的相似度;若相似度高于预设的相似度阈值,则将高于预设的相似度阈值的相似度对应的可疑文章,确定为相似文章。

【技术特征摘要】
1.一种识别相似文章的方法,其特征在于,所述方法包括:基于预设的原创文章,在预设的同类网站中进行检索,将检索出的文章作为可疑文章,预设的同类网站是指与发表所述预设的原创文章的网站具有竞争关系的同类网站;分别计算每个可疑文章与预设的原创文章之间的相似度;若相似度高于预设的相似度阈值,则将高于预设的相似度阈值的相似度对应的可疑文章,确定为相似文章。2.根据权利要求1所述的方法,其特征在于,所述基于预设的原创文章,在预设的同类网站中进行检索的步骤,包括:从预设的原创文章中提取核心段落;将所述核心段落在预设的同类网站中进行检索。3.根据权利要求2所述的方法,其特征在于,所述从预设的原创文章中提取核心段落的步骤,包括:从所述预设的原创文章中,除首段和尾段以外的其他段落中提取至少一个段落作为核心段落。4.根据权利要求1所述的方法,其特征在于,所述基于预设的原创文章,在预设的同类网站中进行检索的步骤,包括:从预设的原创文章中提取关键字;将所述关键字在预设的同类网站中进行检索。5.根据权利要求1至4任一所述的方法,其特征在于,所述分别计算每个可疑文章与预设的原创文章之间的相似度的步骤,包括:使用预设的余弦相似度方法,分别计算每个可疑文章与预设的原创文章之间的相似度。6.根据权利要求1所述的方法,其特征在于,在所述将相似度高于预设的相似度阈值的对应的可疑文章,确定为相似文章的步骤之后,所述方法还包括:获取所述预设的原创文章的地址、所述相似文章的地址,以及发布所述...

【专利技术属性】
技术研发人员:沈文策
申请(专利权)人:沈文策
类型:发明
国别省市:福建,35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1