一种海量相似新闻查重甄选方法、系统及装置制造方法及图纸

技术编号:18444972 阅读:26 留言:0更新日期:2018-07-14 10:24
本发明专利技术公开了一种海量相似新闻查重甄选方法、系统及装置,方法包括:从各个新闻源中获取新闻文章;对获取的新闻文章进行快速查重处理和关键词查重处理,得到查重结果;将查重结果发送至编辑进行处理。本发明专利技术通过快速查重和关键词查重结合进行新闻查重,从而在文章结构及文章中心思想两个层面都保证了查重的效果,在提高了查重的准确性的同时,也大大提升了工作效率,有效满足了新闻媒体行业查重的需求。本发明专利技术可广泛应用于新闻领域中。

Mass similar news duplicate selection method, system and device

The invention discloses a method, system and device for mass similar news weight checking and selection. The method includes: obtaining news articles from each news source, quick checking and keyword lookup processing for the obtained news articles, getting the result of checking weight, sending the weight lookup results to the editor for processing. Through the combination of fast check weight and keyword search weight, this invention can check the news weight, thus ensuring the effect of checking weight in two aspects of the structure of the article and the thought of the center of the article. At the same time, it improves the accuracy of the check weight, and greatly improves the work efficiency, and effectively satisfies the demand of the news media industry to check the weight. The invention can be widely used in the field of news.

【技术实现步骤摘要】
一种海量相似新闻查重甄选方法、系统及装置
本专利技术涉及文本处理
,尤其涉及一种海量相似新闻查重甄选方法、系统及装置。
技术介绍
国内比较著名的查重系统主要是用于学术上的查重,主要为毕业生的论文查重。典型的查重技术规则大致为:先根据文章结构对文章进行小段拆分,再以N个字为单元进行匹配,并设置了一定的阈值百分比,与系统中大量论文、期刊、专利等数据库进行比对,从而得出查重结果。这些系统在进行学术文章查重相当有效,多年沿用也简直证明了它是称职的系统。但网上也存在相当多的“攻略”去规避这种查重方法(最常见的方法为改头换尾,改写),而且这种查重系统的特性也满足不了新闻媒体对于查重的需求。不管是传统媒体还是新媒体,都对查重有着强烈而又特殊的需求:一篇新抓取过来的文章或新投过来的稿件,如何判定是否和已有文章重复呢?这种新闻文章的“重复”还和论文的重复不是一回事,首先新闻远比论文的篇幅要短,然后新闻的核心无非是时间+地点+人物+事情,围绕这个中心思想进行文章撰写。本质都是一件事,但是写法大相径庭,用论文匹配的方式去判定是无法确认是同一篇文章的。现在多数传统媒体已拥有自己的数据库,最通常而简单的查重和搜索方式是在数据库对标题执行like相关字段进行查询,能把带对应关键词的标题的文章搜索出来。然而这种方法存在一定弊端,如:在标题党横行的今天,仅通过标题特定关键词进行搜索,效果越来越不显著;待转型到互联网+的传统媒体以及新媒体,稿件的来源不再限于记者编辑,而是爬虫抓取回来的海量文章,在性能上也越来越捉襟见肘。
技术实现思路
为了解决上述技术问题,本专利技术的目的是提供一种高效准确的海量相似新闻查重甄选方法、系统及装置。本专利技术所采取的技术方案是:一种海量相似新闻查重甄选方法,包括以下步骤:从各个新闻源中获取新闻文章;对获取的新闻文章进行快速查重处理和关键词查重处理,得到查重结果;将查重结果发送至编辑进行处理。作为所述的一种海量相似新闻查重甄选方法的进一步改进,所述的快速查重处理,这一步骤具体包括:对新闻文章进行分词,得到特征单词;将得到的特征单词进行去掉噪音词处理后,根据预设的规则对每个词设置对应的权重;对特征单词进行哈希值计算,得到每个特征单词对应的哈希值;根据各特征单词对应的哈希值和权值,进行加权计算得到各特征单词对应的加权数字串;将各特征单词的加权数字串进行累加,得到该新闻文章对应的序列值;对该新闻文章对应的序列值进行降维处理,得到该新闻文章对应的文章签名;根据该新闻文章的文章签名和文章长度,查找与该新闻文章重复的新闻文章,得到查重结果。作为所述的一种海量相似新闻查重甄选方法的进一步改进,所述的关键词查重处理,这一步骤具体包括:对获取的新闻文章中的文章内容和文章标题进行结巴分词处理,得到分词结果;统计分词结果中各个词的词频,并对词频最高的N个词进行记录为该新闻文章的特征词并保存至数据库中,其中N为预设值;对需要查重的新闻文章的特征词与数据库中各新闻文章的特征词进行重合度检测,将重合度超过预设重合阈值的新闻文章认为重复,得出查重结果。作为所述的一种海量相似新闻查重甄选方法的进一步改进,还包括步骤:当进行编辑时,自动对编辑中的新闻文章进行锁定,并将编辑完成的新闻文章变成手动发布状态;定时从数据库中获取手动发布状态的新闻文章或历史已发布的新闻文章,并对其执行关键词查重处理。本专利技术的另一个技术方案是:一种海量相似新闻查重甄选系统,包括:获取单元,用于从各个新闻源中获取新闻文章;查重单元,用于对获取的新闻文章进行快速查重处理和关键词查重处理,得到查重结果;结果发送单元,用于将查重结果发送至编辑进行处理。作为所述的一种海量相似新闻查重甄选系统的进一步改进,所述查重单元中的快速查重处理,具体包括:快速分词单元用于,用于对新闻文章进行分词,得到特征单词;单词处理单元,用于将得到的特征单词进行去掉噪音词处理后,根据预设的规则对每个词设置对应的权重;哈希计算单元,用于对特征单词进行哈希值计算,得到每个特征单词对应的哈希值;加权计算单元,用于根据各特征单词对应的哈希值和权值,进行加权计算得到各特征单词对应的加权数字串;累加单元,用于将各特征单词的加权数字串进行累加,得到该新闻文章对应的序列值;降维单元,用于对该新闻文章对应的序列值进行降维处理,得到该新闻文章对应的文章签名;签名查找单元,用于根据该新闻文章的文章签名和文章长度,查找与该新闻文章重复的新闻文章,得到查重结果。作为所述的一种海量相似新闻查重甄选系统的进一步改进,所述查重单元中的关键词查重处理,具体包括:对获取的新闻文章中的文章内容和文章标题进行结巴分词处理,得到分词结果;统计分词结果中各个词的词频,并对词频最高的N个词进行记录为该新闻文章的特征词并保存至数据库中,其中N为预设值;对需要查重的新闻文章的特征词与数据库中各新闻文章的特征词进行重合度检测,将重合度超过预设重合阈值的新闻文章认为重复,得出查重结果。作为所述的一种海量相似新闻查重甄选系统的进一步改进,还包括:编辑单元,用于当进行编辑时,自动对编辑中的新闻文章进行锁定,并将编辑完成的新闻文章变成手动发布状态;定时单元,用于定时从数据库中获取手动发布状态的新闻文章或历史已发布的新闻文章,并对其执行关键词查重处理。本专利技术的再一个技术方案是:一种海量相似新闻查重甄选装置,包括:存储器,用于存放程序;处理器,用于执行所述程序,所述程序使得所述处理器执行所述的海量相似新闻查重甄选方法。本专利技术的有益效果是:本专利技术一种海量相似新闻查重甄选方法、系统及装置通过快速查重和关键词查重结合进行新闻查重,从而在文章结构及文章中心思想两个层面都保证了查重的效果,在提高了查重的准确性的同时,也大大提升了工作效率,有效满足了新闻媒体行业查重的需求。附图说明图1是本专利技术一种海量相似新闻查重甄选方法的步骤流程图;图2是本专利技术一种海量相似新闻查重甄选系统的模块方框图。具体实施方式下面结合附图对本专利技术的具体实施方式作进一步说明:参考图1,本专利技术一种海量相似新闻查重甄选方法,包括以下步骤:从各个新闻源中获取新闻文章;对获取的新闻文章进行快速查重处理和关键词查重处理,得到查重结果;将查重结果发送至编辑进行处理。进一步作为优选的实施方式,所述的快速查重处理,这一步骤具体包括:对新闻文章进行分词,得到特征单词;将得到的特征单词进行去掉噪音词处理后,根据预设的规则对每个词设置对应的权重;对特征单词进行哈希值计算,得到每个特征单词对应的哈希值;根据各特征单词对应的哈希值和权值,进行加权计算得到各特征单词对应的加权数字串;将各特征单词的加权数字串进行累加,得到该新闻文章对应的序列值;对该新闻文章对应的序列值进行降维处理,得到该新闻文章对应的文章签名;根据该新闻文章的文章签名和文章长度,查找与该新闻文章重复的新闻文章,得到查重结果。本实施例中,权重分为5个级别(1~5)。比如:“美国‘51区’雇员称内部有9架飞碟,曾看见灰色外星人”分词后为“美国(4)51区(5)雇员(3)称(1)内部(2)有(1)9架(3)飞碟(5)曾(1)看见(3)灰色(4)外星人(5)”,括号里是代表单词在整个句子里重要程度,数字越大越重要。“美国”通过哈希值计算为100101,“51区”通过哈希本文档来自技高网...

【技术保护点】
1.一种海量相似新闻查重甄选方法,其特征在于,包括以下步骤:从各个新闻源中获取新闻文章;对获取的新闻文章进行快速查重处理和关键词查重处理,得到查重结果;将查重结果发送至编辑进行处理。

【技术特征摘要】
1.一种海量相似新闻查重甄选方法,其特征在于,包括以下步骤:从各个新闻源中获取新闻文章;对获取的新闻文章进行快速查重处理和关键词查重处理,得到查重结果;将查重结果发送至编辑进行处理。2.根据权利要求1所述的一种海量相似新闻查重甄选方法,其特征在于:所述的快速查重处理,这一步骤具体包括:对新闻文章进行分词,得到特征单词;将得到的特征单词进行去掉噪音词处理后,根据预设的规则对每个词设置对应的权重;对特征单词进行哈希值计算,得到每个特征单词对应的哈希值;根据各特征单词对应的哈希值和权值,进行加权计算得到各特征单词对应的加权数字串;将各特征单词的加权数字串进行累加,得到该新闻文章对应的序列值;对该新闻文章对应的序列值进行降维处理,得到该新闻文章对应的文章签名;根据该新闻文章的文章签名和文章长度,查找与该新闻文章重复的新闻文章,得到查重结果。3.根据权利要求1所述的一种海量相似新闻查重甄选方法,其特征在于:所述的关键词查重处理,这一步骤具体包括:对获取的新闻文章中的文章内容和文章标题进行结巴分词处理,得到分词结果;统计分词结果中各个词的词频,并对词频最高的N个词进行记录为该新闻文章的特征词并保存至数据库中,其中N为预设值;对需要查重的新闻文章的特征词与数据库中各新闻文章的特征词进行重合度检测,将重合度超过预设重合阈值的新闻文章认为重复,得出查重结果。4.根据权利要求1所述的一种海量相似新闻查重甄选方法,其特征在于:还包括步骤:当进行编辑时,自动对编辑中的新闻文章进行锁定,并将编辑完成的新闻文章变成手动发布状态;定时从数据库中获取手动发布状态的新闻文章或历史已发布的新闻文章,并对其执行关键词查重处理。5.一种海量相似新闻查重甄选系统,其特征在于,包括:获取单元,用于从各个新闻源中获取新闻文章;查重单元,用于对获取的新闻文章进行快速查重处理和关键词查重处理,得到查重结果;结果发送单元...

【专利技术属性】
技术研发人员:张毅
申请(专利权)人:广州艾媒数聚信息咨询股份有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1