The invention discloses a method for searching similar articles, the method comprises the following steps: receiving the similar articles of the target article search request by title search by using the similar title search target the objective of the target, the first collection of similar articles, search through the content using similar content to find the target the goal of the article, get the second similar articles set, with the first and second sets of similar articles similar articles set, the similar results obtained the target. By applying the technical proposal provided by the embodiment of the invention, we can find the similar articles of target articles by searching the title and content of target articles separately, which can improve the accuracy of finding similar articles for target articles and improve the speed of lookup. The invention also discloses a kind of similar article lookup device, equipment and storage medium, and has the corresponding technical effect.
【技术实现步骤摘要】
一种相似文章查找方法、装置、设备及存储介质
本专利技术涉及计算机应用
,特别是涉及一种相似文章查找方法、装置、设备及存储介质。
技术介绍
随着计算机应用技术的发展,人们将撰写的文章放到互联网后的扩散速度也不断加快。例如,每天有大量的新闻文章产生,人们会通过互联网对读取到的新闻文章进行转发,转发越多,新闻文章的影响越大。但是,现在人们对新闻文章不仅是简单的转发,可能会更改一个标题,以便更好的吸引读者注意,或者简单添加一些自己的见解,便于读者理解。因此,出于各种原因,文章相似不只是简单的标题或内容的完全匹配,还需要增加一些相似计算方式,来提高相似计算覆盖率,以便更好的反应文章影响程度。综上所述,如何有效地解决相似文章查找问题,是目前本领域技术人员急需解决的技术问题。
技术实现思路
为解决上述技术问题,本专利技术提供如下技术方案:一种相似文章查找方法,包括:接收针对目标文章的相似文章的查找请求;通过标题查找方式利用所述目标文章的标题查找所述目标文章的相似文章,获得所述目标文章的第一相似文章集合;通过内容查找方式利用所述目标文章的内容查找所述目标文章的相似文章,获得所述 ...
【技术保护点】
一种相似文章查找方法,其特征在于,包括:接收针对目标文章的相似文章的查找请求;通过标题查找方式利用所述目标文章的标题查找所述目标文章的相似文章,获得所述目标文章的第一相似文章集合;通过内容查找方式利用所述目标文章的内容查找所述目标文章的相似文章,获得所述目标文章的第二相似文章集合;合并所述第一相似文章集合与所述第二相似文章集合,获得所述目标文章的相似文章结果。
【技术特征摘要】
1.一种相似文章查找方法,其特征在于,包括:接收针对目标文章的相似文章的查找请求;通过标题查找方式利用所述目标文章的标题查找所述目标文章的相似文章,获得所述目标文章的第一相似文章集合;通过内容查找方式利用所述目标文章的内容查找所述目标文章的相似文章,获得所述目标文章的第二相似文章集合;合并所述第一相似文章集合与所述第二相似文章集合,获得所述目标文章的相似文章结果。2.根据权利要求1所述的方法,其特征在于,在所述接收针对目标文章的相似文章的查找请求之后、所述通过标题查找方式利用所述目标文章的标题查找所述目标文章的相似文章,获得所述目标文章的第一相似文章集合之前,还包括:对所述目标文章的标题进行第一预处理操作,获得进行所述第一预处理操作后的所述目标文章的标题。3.根据权利要求1或2所述的方法,其特征在于,所述通过标题查找方式利用所述目标文章的标题查找所述目标文章的相似文章,获得所述目标文章的第一相似文章集合,包括:通过搜索引擎搜索所述目标文章的标题查找所述目标文章的相似文章,获得所述目标文章的第三相似文章集合;在所述第三相似文章集合中提取与所述目标文章的标题长度的匹配度大于预设第一阈值的文章,获得所述目标文章的第一相似文章集合。4.根据权利要求1所述的方法,其特征在于,在所述接收针对目标文章的相似文章的查找请求之后、所述通过内容查找方式利用所述目标文章的内容查找所述目标文章的相似文章,获得所述目标文章的第二相似文章集合之前,还包括:对所述目标文章的内容进行第二预处理操作,获得进行所述第二预处理操作后的所述目标文章的内容。5.根据权利要求1或4所述的方法,其特征在于,所述通过内容查找方式利用所述目标文章的内容查找所述目标文章的相似文章,获得所述目标文章的第二相似文章集合,包括:通过哈希算法计算所述目标文章的内容对应的哈希值;确定所述哈希值的可用子部分;利用搜索引擎搜索所述可用子部分查找所...
【专利技术属性】
技术研发人员:罗欢,权圣,
申请(专利权)人:马上消费金融股份有限公司,
类型:发明
国别省市:重庆,50
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。