一种原创新闻信息识别方法技术

技术编号:24456487 阅读:15 留言:0更新日期:2020-06-10 15:42
本发明专利技术公开了一种原创新闻信息识别方法,包括如下步骤,S1、从爬虫爬取的新闻网页中筛选出所有符合要求的目标新闻网页;S2、对所有的目标新闻网页进行内容解析,抽取目标网页的标题、正文、来源、作者、发布时间、评论、转发和点赞信息;S3、计算每个目标新闻网页的SimHash;S4、将具有相同SimHash的新闻网页组成目标新闻网页集,以获取多个具有不同SimHash的目标新闻网页集;S5、分析每个目标新闻网页集中的目标新闻网页,最终获取每个目标新闻网页集中的原创新闻。优点是:对新闻页面进行准确的分类和抽取,增加了文本的价值性;通过SimHash算法,对分词后的新闻页面进行计算和聚合,对相似新闻进行原创新闻算法的比较和识别,提高了识别的效率,减少了干扰项。

A method of original news information recognition

【技术实现步骤摘要】
一种原创新闻信息识别方法
本专利技术涉及新闻信息识别领域,尤其涉及一种原创新闻信息识别方法。
技术介绍
近年来,网络新闻快速发展,网络新闻也日渐成为人们获取新闻资讯的一种最普遍方式。相比于传统媒体新闻,网络新闻具有快速、灵活、便捷等优点。正是这些优点,让网络原创新闻如何在假新闻、机器自动生成新闻以及转载新闻中得到保护显得尤为迫切和重要。利用一定的提取识别技术自动地对大量新闻进行爬取,在保证新闻覆盖面的同时,如何有效快速的进行原创新闻的筛选,准确的保护原创新闻的版权,从而保护创新的积极性是当前研究的主要困难。原创新闻识别涉及页面核心内容准确提取、相似新闻聚合、高质量新闻鉴别等多个技术方面的方法,在保护原创新闻、优化信息检索等领域有着广泛的需求和应用前景。现有网络新闻领域,对假新闻的识别算法比较丰富和完善,对原创新闻的识别还比较落后。无论是从页面提取不够精细,还是原创新闻潜在数据源获取以及打分鉴别等方面,都不够细致和全面,最终都会干扰到原创新闻的识别质量,影响原创的积极性。
技术实现思路
本专利技术的目的在于提供一种原创新闻信息识别方法,从而解决现有技术中存在的前述问题。为了实现上述目的,本专利技术采用的技术方案如下:一种原创新闻信息识别方法,所述方法包括如下步骤,S1、从爬虫爬取的新闻网页中筛选出所有符合要求的目标新闻网页;S2、对所有的目标新闻网页进行内容解析,抽取目标网页的标题、正文、来源、作者、发布时间、评论、转发和点赞信息;S3、计算每个目标新闻网页的SimHash;S4、将具有相同SimHash的新闻网页组成目标新闻网页集,以获取多个具有不同SimHash的目标新闻网页集;S5、分析每个目标新闻网页集中的目标新闻网页,最终获取每个目标新闻网页集中的原创新闻。优选的,步骤S1具体包括如下内容,S11、利用爬虫爬取新闻网页,并将所有新闻网页集合起来组成新闻库;S12、判断新闻库中的一个新闻网页的网页类型是否是内容页,若是,则执行步骤S12;若否,则将该新闻网页直接丢弃;S13、判断该新闻网页的文本长度是否小于设定文本长度,若是,则将该新闻网页丢弃;若否,则执行步骤S13;S14、判断该新闻网页是否具有实质性内容,若是,则判定该新闻网页为目标新闻网页;若否,则丢弃该新闻网页;S15、重复步骤S12至S14,以遍历所述新闻库中所有的新闻网页,获取所有目标新闻网页。优选的,步骤S3具体包括如下内容,S31、对其中一个目标新闻网页的标题和正文进行分词,获取该目标新闻网页的分词结果集,所述分词结果集包括多个分词结果;S32、计算分词结果集中各个分词结果的64位的hash值,并将64位的hash值对应为64维数组;S33、根据64维数组以及由各分词结果的逆文本频率组成的逆文本频率集,获取待判定数组;S34、依次判断所述待判定数组中的每个维度是否大于0,若是,则记为1;若否,则记为0;以获取64维的结果数组,所述64维的结果数组为该目标新闻网页的SimHash;S34、重复步骤S31至S33,以遍历所有目标新闻网页,获取所有目标新闻网页的SimHash。优选的,所述步骤S4具体包括如下内容,S41、从所有目标新闻网页中选取SimHash相同的目标新闻网页,并将SimHash相同的目标新闻网页集合在一起,以获取多个具有不同SimHash的目标新闻网页集;S42、判断其中一个目标新闻网页集中的目标新闻网页个数是否小于设定阈值,若是,则判定目标新闻网页集中的目标新闻网页为原创新闻;若否,则执行步骤S43;S43、判断目标新闻网页集中各个目标新闻网页的来源,若超过半数的目标新闻网页的来源指向同一处,且该来源处于所述目标新闻网页集中,则目标新闻网页集中的目标新闻网页为原创新闻;否则,执行步骤S44;S44、对目标新闻网页集中的各目标新闻网页的来源、发布时间、站点权威度、传播力以及图片视频分别进行加权,以获取加权得分最高的目标新闻网页,该目标新闻网页即为原创新闻;S45、重复步骤S42至S44,遍历所有具有不同SimHash的目标新闻网页集,以获取所有为原创新闻的,目标新闻网页。优选的,步骤S44中,对目标新闻网页集中的每个目标新闻网页的来源分别进行加权,以获取各目标新闻网页的来源权值。优选的,步骤S44中,对目标新闻网页集中的每个目标新闻网页的发布时间进行加权,以获取各目标新闻网页的时间权值;若目标新闻网页没有发布时间,则使用其抓取时间;时间权值依据发布时间由早到晚递减。优选的,步骤S44中,各目标新闻网页的站点权威度权值由历史原创新闻站点打分积累所得。优选的,步骤S44中,根据各目标新闻网页的转发、喜欢和点赞的数量,获取各目标新闻网页的传播力权值;若站点提供评论功能,则可根据各目标新闻网页的评论、转发、喜欢和点赞的数量,获取各目标新闻网页的传播力权值。优选的,步骤S44中,根据各目标新闻网页中的有效图片和视频的数量,获取各目标新闻网页的视频音频权值;所述视频音频权值依据有效图片和视频的数量由多到少递减。本专利技术的有益效果是:1、对新闻页面进行准确的分类和抽取,大大增加了文本的价值性。2、通过SimHash算法,对分词后的新闻页面进行计算和聚合,对相似新闻进行原创新闻算法的比较和识别,大大提高了识别的效率,并减少了干扰项。3、通过完善的原创新闻识别算法,基于准确的信息提取,包括但不限于发布时间、页面标题、正文、作者、来源等制定多维度的打分评判,极大的减少了原创新闻误判的情况出现,增加准确性。附图说明图1是本专利技术实施例中所述方法的流程示意图;图2是本专利技术实施例中目标新闻网页的SimHash计算流程示意图;图3是本专利技术实施例中原创新闻判定流程示意图。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施方式仅仅用以解释本专利技术,并不用于限定本专利技术。如图1所示,本实施例中提供了一种原创新闻信息识别方法,所述方法包括如下步骤,S1、从爬虫爬取的新闻网页中筛选出所有符合要求的目标新闻网页;S2、对所有的目标新闻网页进行内容解析,抽取目标网页的标题、正文、来源、作者、发布时间、评论、转发和点赞信息;S3、计算每个目标新闻网页的SimHash;S4、将具有相同SimHash的新闻网页组成目标新闻网页集,以获取多个具有不同SimHash的目标新闻网页集;S5、分析每个目标新闻网页集中的目标新闻网页,最终获取每个目标新闻网页集中的原创新闻。本实施例中,步骤S1中需要对爬虫抓取的新闻库中的新闻网页进行网页类型识别,如果页面类型不是内容页,或者文本长度较短,没有实质内容等,予以丢弃不再进行下一步计算;若符合要求,则进行步骤S2。步骤S1具体本文档来自技高网...

【技术保护点】
1.一种原创新闻信息识别方法,其特征在于:所述方法包括如下步骤,/nS1、从爬虫爬取的新闻网页中筛选出所有符合要求的目标新闻网页;/nS2、对所有的目标新闻网页进行内容解析,抽取目标网页的标题、正文、来源、作者、发布时间、评论、转发和点赞信息;/nS3、计算每个目标新闻网页的SimHash;/nS4、将具有相同SimHash的新闻网页组成目标新闻网页集,以获取多个具有不同SimHash的目标新闻网页集;分析每个目标新闻网页集中的目标新闻网页,最终获取每个目标新闻网页集中的原创新闻。/n

【技术特征摘要】
1.一种原创新闻信息识别方法,其特征在于:所述方法包括如下步骤,
S1、从爬虫爬取的新闻网页中筛选出所有符合要求的目标新闻网页;
S2、对所有的目标新闻网页进行内容解析,抽取目标网页的标题、正文、来源、作者、发布时间、评论、转发和点赞信息;
S3、计算每个目标新闻网页的SimHash;
S4、将具有相同SimHash的新闻网页组成目标新闻网页集,以获取多个具有不同SimHash的目标新闻网页集;分析每个目标新闻网页集中的目标新闻网页,最终获取每个目标新闻网页集中的原创新闻。


2.根据权利要求1所述的原创新闻信息识别方法,其特征在于:步骤S1具体包括如下内容,
S11、利用爬虫爬取新闻网页,并将所有新闻网页集合起来组成新闻库;
S12、判断新闻库中的一个新闻网页的网页类型是否是内容页,若是,则执行步骤S12;若否,则将该新闻网页直接丢弃;
S13、判断该新闻网页的文本长度是否小于设定文本长度,若是,则将该新闻网页丢弃;若否,则执行步骤S13;
S14、判断该新闻网页是否具有实质性内容,若是,则判定该新闻网页为目标新闻网页;若否,则丢弃该新闻网页;
S15、重复步骤S12至S14,以遍历所述新闻库中所有的新闻网页,获取所有目标新闻网页。


3.根据权利要求2所述的原创新闻信息识别方法,其特征在于:步骤S3具体包括如下内容,
S31、对其中一个目标新闻网页的标题和正文进行分词,获取该目标新闻网页的分词结果集,所述分词结果集包括多个分词结果;
S32、计算分词结果集中各个分词结果的64位的hash值,并将64位的hash值对应为64维数组;
S33、根据64维数组以及由各分词结果的逆文本频率组成的逆文本频率集,获取待判定数组;
S34、依次判断所述待判定数组中的每个维度是否大于0,若是,则记为1;若否,则记为0;以获取64维的结果数组,所述64维的结果数组为该目标新闻网页的SimHash;
S34、重复步骤S31至S33,以遍历所有目标新闻网页,获取所有目标新闻网页的SimHash。


4.根据权利要求3所述的原创新闻信息识别方法,其特征在于:所述步骤S4具体包括如下内容,...

【专利技术属性】
技术研发人员:高山汪高翔
申请(专利权)人:中国搜索信息科技股份有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1