The embodiment of the present invention provides a method and device for identifying similar articles. The method includes: searching the original articles in the preset similar websites based on the preset, and taking the retrieved articles as suspicious articles. The preset similar websites refer to the same websites that are competitive with the websites that publish the preset original articles; calculating each suspicious article and the preset similar websites separately. If the similarity is higher than the preset similarity threshold, the suspicious articles corresponding to the similarity above the preset similarity threshold will be identified as similar articles. The embodiment of the present invention can realize automatic identification of similar articles which are the same or similar to the original articles without relying on manual work.
【技术实现步骤摘要】
一种识别相似文章的方法和装置
本专利技术涉及计算文本相似度的
,特别是涉及一种识别相似文章的方法和装置。
技术介绍
在发布原创文章后,为了保护自身的合法权益,避免其他网站或公众号,尤其是与发表文章的网站具有竞争关系的同类网站或同类公众号在未经许可的情况下转载、部分抄袭或整篇抄袭该原创文章,因此,需要在其他网站或公众号上识别是否发布有与原创文章相同的文章或部分相同的相似文章。比如,原创文章发表于网站A,网站A为新闻资讯类网站,那么,就需要网站A的同类网站或公众号,具体为其他新闻资讯类网站或新闻资讯类公众号上识别与该原创文章相同的文章或部分相同的相似文章。如果在其他网站或公众号上识别到与原创文章相同的文章或部分相同的相似文章,则需要通过发送提醒邮件等方式通知发布该相似文章的网站或公众号,缴纳转载费用或删除该相似文章。目前,需要由人工根据原创文章,在其他网站或公众号上查找是否发布有与原创文章相同的文章或部分相同的相似文章,浪费人力且查找效率低。
技术实现思路
本专利技术实施例的目的在于提供一种识别相似文章的方法和装置,以实现不依赖人工,自动识别与原创文章相同或相似的相似文章。具体技术方案如下:本专利技术实施例提供了一种识别相似文章的方法,所述方法包括:基于预设的原创文章,在预设的同类网站中进行检索,将检索出的文章作为可疑文章,预设的同类网站是指与发表所述预设的原创文章的网站具有竞争关系的同类网站;分别计算每个可疑文章与预设的原创文章之间的相似度;若相似度高于预设的相似度阈值,则将高于预设的相似度阈值的相似度对应的可疑文章,确定为相似文章。可选的,所述基于预设的 ...
【技术保护点】
1.一种识别相似文章的方法,其特征在于,所述方法包括:基于预设的原创文章,在预设的同类网站中进行检索,将检索出的文章作为可疑文章,预设的同类网站是指与发表所述预设的原创文章的网站具有竞争关系的同类网站;分别计算每个可疑文章与预设的原创文章之间的相似度;若相似度高于预设的相似度阈值,则将高于预设的相似度阈值的相似度对应的可疑文章,确定为相似文章。
【技术特征摘要】
1.一种识别相似文章的方法,其特征在于,所述方法包括:基于预设的原创文章,在预设的同类网站中进行检索,将检索出的文章作为可疑文章,预设的同类网站是指与发表所述预设的原创文章的网站具有竞争关系的同类网站;分别计算每个可疑文章与预设的原创文章之间的相似度;若相似度高于预设的相似度阈值,则将高于预设的相似度阈值的相似度对应的可疑文章,确定为相似文章。2.根据权利要求1所述的方法,其特征在于,所述基于预设的原创文章,在预设的同类网站中进行检索的步骤,包括:从预设的原创文章中提取核心段落;将所述核心段落在预设的同类网站中进行检索。3.根据权利要求2所述的方法,其特征在于,所述从预设的原创文章中提取核心段落的步骤,包括:从所述预设的原创文章中,除首段和尾段以外的其他段落中提取至少一个段落作为核心段落。4.根据权利要求1所述的方法,其特征在于,所述基于预设的原创文章,在预设的同类网站中进行检索的步骤,包括:从预设的原创文章中提取关键字;将所述关键字在预设的同类网站中进行检索。5.根据权利要求1至4任一所述的方法,其特征在于,所述分别计算每个可疑文章与预设的原创文章之间的相似度的步骤,包括:使用预设的余弦相似度方法,分别计算每个可疑文章与预设的原创文章之间的相似度。6.根据权利要求1所述的方法,其特征在于,在所述将相似度高于预设的相似度阈值的对应的可疑文章,确定为相似文章的步骤之后,所述方法还包括:获取所述预设的原创文章的地址、所述相似文章的地址,以及发布所述...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。