一种原创新闻信息识别方法技术

技术编号：24456487 阅读：29 留言：0更新日期：2020-06-10 15:42

本发明专利技术公开了一种原创新闻信息识别方法，包括如下步骤，S1、从爬虫爬取的新闻网页中筛选出所有符合要求的目标新闻网页；S2、对所有的目标新闻网页进行内容解析，抽取目标网页的标题、正文、来源、作者、发布时间、评论、转发和点赞信息；S3、计算每个目标新闻网页的SimHash；S4、将具有相同SimHash的新闻网页组成目标新闻网页集，以获取多个具有不同SimHash的目标新闻网页集；S5、分析每个目标新闻网页集中的目标新闻网页，最终获取每个目标新闻网页集中的原创新闻。优点是：对新闻页面进行准确的分类和抽取，增加了文本的价值性；通过SimHash算法，对分词后的新闻页面进行计算和聚合，对相似新闻进行原创新闻算法的比较和识别，提高了识别的效率，减少了干扰项。

A method of original news information recognition

全部详细技术资料下载

【技术实现步骤摘要】
一种原创新闻信息识别方法
本专利技术涉及新闻信息识别领域，尤其涉及一种原创新闻信息识别方法。
技术介绍
近年来，网络新闻快速发展，网络新闻也日渐成为人们获取新闻资讯的一种最普遍方式。相比于传统媒体新闻，网络新闻具有快速、灵活、便捷等优点。正是这些优点，让网络原创新闻如何在假新闻、机器自动生成新闻以及转载新闻中得到保护显得尤为迫切和重要。利用一定的提取识别技术自动地对大量新闻进行爬取，在保证新闻覆盖面的同时，如何有效快速的进行原创新闻的筛选，准确的保护原创新闻的版权，从而保护创新的积极性是当前研究的主要困难。原创新闻识别涉及页面核心内容准确提取、相似新闻聚合、高质量新闻鉴别等多个技术方面的方法，在保护原创新闻、优化信息检索等领域有着广泛的需求和应用前景。现有网络新闻领域，对假新闻的识别算法比较丰富和完善，对原创新闻的识别还比较落后。无论是从页面提取不够精细，还是原创新闻潜在数据源获取以及打分鉴别等方面，都不够细致和全面，最终都会干扰到原创新闻的识别质量，影响原创的积极性。
技术实现思路
本专利技术的目的在于提供一种原创新闻信息识别方法，从而解决现有技术中存在的前述问题。为了实现上述目的，本专利技术采用的技术方案如下：一种原创新闻信息识别方法，所述方法包括如下步骤，S1、从爬虫爬取的新闻网页中筛选出所有符合要求的目标新闻网页；S2、对所有的目标新闻网页进行内容解析，抽取目标网页的标题、正文、来源、作者、发布时间、评论、转发和点赞信息；S3、计算每个目标新...

【技术保护点】
1.一种原创新闻信息识别方法，其特征在于：所述方法包括如下步骤，/nS1、从爬虫爬取的新闻网页中筛选出所有符合要求的目标新闻网页；/nS2、对所有的目标新闻网页进行内容解析，抽取目标网页的标题、正文、来源、作者、发布时间、评论、转发和点赞信息；/nS3、计算每个目标新闻网页的SimHash；/nS4、将具有相同SimHash的新闻网页组成目标新闻网页集，以获取多个具有不同SimHash的目标新闻网页集；分析每个目标新闻网页集中的目标新闻网页，最终获取每个目标新闻网页集中的原创新闻。/n

【技术特征摘要】
1.一种原创新闻信息识别方法，其特征在于：所述方法包括如下步骤，
S1、从爬虫爬取的新闻网页中筛选出所有符合要求的目标新闻网页；
S2、对所有的目标新闻网页进行内容解析，抽取目标网页的标题、正文、来源、作者、发布时间、评论、转发和点赞信息；
S3、计算每个目标新闻网页的SimHash；
S4、将具有相同SimHash的新闻网页组成目标新闻网页集，以获取多个具有不同SimHash的目标新闻网页集；分析每个目标新闻网页集中的目标新闻网页，最终获取每个目标新闻网页集中的原创新闻。

2.根据权利要求1所述的原创新闻信息识别方法，其特征在于：步骤S1具体包括如下内容，
S11、利用爬虫爬取新闻网页，并将所有新闻网页集合起来组成新闻库；
S12、判断新闻库中的一个新闻网页的网页类型是否是内容页，若是，则执行步骤S12；若否，则将该新闻网页直接丢弃；
S13、判断该新闻网页的文本长度是否小于设定文本长度，若是，则将该新闻网页丢弃；若否，则执行步骤S13；
S14、判断该新闻网页是否具有实质性内容，若是，则判定该新闻网页为目标新闻网页；若否，则丢弃该新闻网页；
S15、重复步骤S12至S14，以遍历所述新闻库中所有的新闻网页，获取所有目标新闻网页。

3.根据权利要求2所述的原创新闻信息识别方法，其特征在于：步骤S3具体包括如下内容，
S31、对其中一个目标新闻网页的标题和正文进行分词，获取该目标新闻网页的分词结果集，所述分词结果集包括多个分词结果；
S32、计算分词结果集中各个分词结果的64位的hash值，并将64位的hash值对应为64维数组；
S33、根据64维数组以及由各分词结果的逆文本频率组成的逆文本频率集，获取待判定数组；
S34、依次判断所述待判定数组中的每个维度是否大于0，若是，则记为1；若否，则记为0；以获取64维的结果数组，所述64维的结果数组为该目标新闻网页的SimHash；
S34、重复步骤S31至S33，以遍历所有目标新闻网页，获取所有目标新闻网页的SimHash。

4.根据权利要求3所述的原创新闻信息识别方法，其特征在于：所述步骤S4具体包括如下内容，...

【专利技术属性】
技术研发人员：高山，汪高翔，
申请(专利权)人：中国搜索信息科技股份有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人