针对新闻事件的聚合提取方法及装置制造方法及图纸

技术编号:13832088 阅读:34 留言:0更新日期:2016-10-14 11:31
本发明专利技术涉及一种针对新闻事件的聚合提取方法及装置,其中,该方法包括获取各个新闻源的新闻;对来自不同新闻源的所述新闻两两之间进行相关度计算,当相关度大于设定值时,将两新闻确定为针对同一事件的新闻并建立一事件新闻组,相关联的两新闻位于同一事件新闻组;对同一事件新闻组内各个新闻的文本内容进行汇编形成针对同一事件不同新闻源的文本内容集,并将该文本内容集加载至同一网页页面;所述文本内容包括新闻标题及正文;根据用户发出的访问请求,打开网页页面展示同一事件不同新闻源的文本内容集。本发明专利技术提高用户从网络上获取新闻信息的准确性以及用户浏览新闻的效率。

【技术实现步骤摘要】

本专利技术涉及新闻信息
,特别涉及一种针对新闻事件的聚合提取方法及装置
技术介绍
新闻,它是对新近发生的有社会意义并引起公众兴趣的事实的简短报道。因此,真实性、时效性及文字少、篇幅小成为消息的基本特征。报纸、广播、电视新闻是使用得最广泛的一种新闻体裁。然而,随着信息化技术的迅速发展,如何将新闻快速而有效的传播出去,成为当今社会一个非常重要的问题。除了传统的报纸、电视等可以用来作为新闻传播的媒介之外,网络也是新闻传播的一个重要媒介。目前,网络作为媒介传播新闻时,一般都是由各个新闻媒体将新闻发布在自己网站或频道上。大众通过关键词搜索可以看到与关键词先关的新闻,这些新闻的来源不同,例如来自新浪、腾讯、网易等等,甚至很多个人发出的相关信息。虽然这些新闻和关键词相关,但是,并不能确定这些新闻都是针对同一事件新闻,因此,在这些铺天盖地的信息,大众很难从中挑选针对某一事件的新闻,极大地影响了用户阅读新闻的效率及获取新闻信息的准确性。
技术实现思路
本专利技术旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本专利技术第一方面实施例在于提出一种针对新闻事件的聚合提取方法。本专利技术的第二方面实施例在于提出一种针对新闻事件的聚合提取装置。为了实现上述目的,本专利技术第一方面实施例的针对新闻事件的聚合提取方法,包括:获取各个新闻源的新闻;对来自不同新闻源的所述新闻两两之间进行相关度计算,当相关度大于设定值时,将两新闻确定为针对同一事件的新闻并建立一事件新闻组,相关联的两新闻位于同一事件新闻组;对同一事件新闻组内各个新闻的文本内容进行汇编形成针对同一事件不同新闻源的文本内容集,并将该文本内容集加载至同一网页页面;所述文本内容包括新闻标题及正文;根据用户发出的访问请求,打开网页页面展示同一事件不同新闻源的文本内容集。根据本专利技术提供的针对新闻事件的聚合提取方法,对来自不同新闻源的新闻两两之间进行相关度计算,当相关度大于设定值时,将两新闻确定为针对同一事件的新闻并建立一事件新闻组,相关联的两新闻位于同一事件新闻组;对同一事件新闻组内各个新闻的文本内容进行汇编形成针对同一事件不同新闻源的文本内容集,并将该文本内容集加载至同一网页页面;文本内容包括新闻标题及正文。由此,用户在同一网页页面上可以浏览针对同一事件的所有新闻报道,如此,提高用户从网络上获取新闻信息的准确性以及用户浏览新闻的效率。为了实现上述目的,本专利技术第二方面实施例的针对新闻事件的聚合提取装置,包括:第一获取单元,用于获取各个新闻源的新闻;第一相关度计算单元,用于对来自不同新闻源的所述新闻两两之间进行相关度计算,当相关度大于设定值时,将两新闻确定为针对同一事件的新闻并建立一事件新闻组,相关联的两新闻位于同一事件新闻组;第一汇编单元,用于对同一事件新闻组内各个新闻的文本内容进行汇编形成针对同一事件不同新闻源的文本内容集,并将该文本内容集加载至同一网页页面;所述文本内容包括新闻标题及正文;展现单元,用于根据用户发出的访问请求,打开网页页面展示同一事件不同新闻源的文本内容集。根据本专利技术提供的针对新闻事件的聚合提取装置,第一相关度计算单元对来自不同新闻源的新闻两两之间进行相关度计算,当相关度大于设定值时,将两新闻确定为针对同一事件的新闻并建立一事件新闻组,相关联的两新闻
位于同一事件新闻组;第一汇编单元对同一事件新闻组内各个新闻的文本内容进行汇编形成针对同一事件不同新闻源的文本内容集,并将该文本内容集加载至同一网页页面;文本内容包括新闻标题及正文。由此,用户在同一网页页面上可以浏览针对同一事件的所有新闻报道,如此,提高用户从网络上获取新闻信息的准确性以及用户浏览新闻的效率。附图说明图1是本专利技术实施例针对新闻事件的聚合提取方法的流程图;图2是本专利技术实施例针对新闻事件的聚合提取方法中步骤S101的流程图;图3是本专利技术实施例针对新闻事件的聚合提取方法中步骤S102的流程图;图4是本专利技术另一实施例针对新闻事件的聚合提取方法的流程图;图5是本专利技术另一实施例针对新闻事件的聚合提取方法中步骤S204的流程图;图6是本专利技术实施例针对新闻事件的聚合提取装置结构示意图;图7是本专利技术实施例针对新闻事件的聚合提取装置中第一获取单元结构示意图;图8是本专利技术实施例针对新闻事件的聚合提取装置中第一相关度计算单元结构示意图;图9是本专利技术另一实施例针对新闻事件的聚合提取装置结构示意图;图10是本专利技术另一实施例针对新闻事件的聚合提取装置中排序单元结构示意图。本专利技术目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。具体实施方式下面详细描述本专利技术的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本专利技术,
而不能理解为对本专利技术的限制。参照图1所示,图1示出了本专利技术实施例提供的针对新闻事件的聚合提取方法的流程图,为了便于描述,仅示出了与本专利技术实施例相关的部分。具体的,该针对新闻事件的聚合提取方法,包括:S101、获取各个新闻源的新闻。该步骤中,可以使用新闻源提供的接口获取新闻数据。由于网络上的新闻信息来源广泛,例如来自各个新闻媒体网站的新闻,还有一些个人或组织发布至网上的事件信息等,所以,上述新闻源可以是任意网站的新闻,也可以是搜索引擎搜集的各种事件信息等。在本专利技术的一个实施例中,步骤S101具体可以包括:S1011、定时抓取新闻源的新闻页面。例如采用JAVA爬虫抓取新闻页面。S1012、解析抓取的所述新闻页面,提取新闻页面中的文本内容以及新闻发布时间。由于抓取的新闻页面一般包括除了文本内容、新闻发布时间之外的其他诸多内容,例如链接地址等等,而作为读者而言,需要获取的信息一般仅限于文本内容、新闻发布时间等,因此,在抓取到新闻页面之后,提取新闻页面中的文本内容和新闻发出时间。S102、对来自不同新闻源的所述新闻两两之间进行相关度计算,当相关度大于设定值时,将两新闻确定为针对同一事件的新闻并建立一事件新闻组,相关联的两新闻位于同一事件新闻组。由于在网络上获取新闻来自各个不同新闻源,而且每条新闻针对的可能属于不同的事件,所以,对来自不同新闻源的新闻两两之间进行相关度计算,根据计算的相关度即可判断两个新闻之间是否是针对同一事件,即当相关度大于设定值时,将两新闻确定为针对同一事件的新闻。如果是针对同一事件的新闻,则将两个新闻放入同一新闻组,位于该新闻组内的所有新闻即是针对同一事件的。在本专利技术的一个实施例中,步骤S102具体可以包括:S1021、采用词汇共现算法查找来自不同新闻源的两个新闻的文本内容中的第一共现词汇和/或句子;也即是,查找不同新闻源的两个新闻的文本内容中以一定频率重复出现的词汇,共现词汇和/或句子一定程度上反应了该新闻所针对的事件,例如“楼市”。S1022、引入词典语义分析两个新闻的文本内容中所述第一共现词汇和/或句子之间的相关关系。由于共现词和/或句子一定程度上反应了该新闻所针对事件,所以,如果两个新闻中的第一共现词和/或句子的含义是相同的或相近似的,则说明两者所针对的事件极有可能是同一事件。由此,该步骤中,在步骤S1021确定两个新闻各自的共现词和/本文档来自技高网
...

【技术保护点】
一种针对新闻事件的聚合提取方法,其特征在于,包括:获取各个新闻源的新闻;对来自不同新闻源的所述新闻两两之间进行相关度计算,当相关度大于设定值时,将两新闻确定为针对同一事件的新闻并建立一事件新闻组,相关联的两新闻位于同一事件新闻组;对同一事件新闻组内各个新闻的文本内容进行汇编形成针对同一事件不同新闻源的文本内容集,并将该文本内容集加载至同一网页页面;所述文本内容包括新闻标题及正文;根据用户发出的访问请求,打开网页页面展示同一事件不同新闻源的文本内容集。

【技术特征摘要】
1.一种针对新闻事件的聚合提取方法,其特征在于,包括:获取各个新闻源的新闻;对来自不同新闻源的所述新闻两两之间进行相关度计算,当相关度大于设定值时,将两新闻确定为针对同一事件的新闻并建立一事件新闻组,相关联的两新闻位于同一事件新闻组;对同一事件新闻组内各个新闻的文本内容进行汇编形成针对同一事件不同新闻源的文本内容集,并将该文本内容集加载至同一网页页面;所述文本内容包括新闻标题及正文;根据用户发出的访问请求,打开网页页面展示同一事件不同新闻源的文本内容集。2.根据权利要求1所述的针对新闻事件的聚合提取方法,其特征在于,所述获取各个新闻源的新闻包括:定时抓取新闻源的新闻页面;解析抓取的所述新闻页面,提取新闻页面中的文本内容以及新闻发布时间。3.根据权利要求2所述的针对新闻事件的聚合提取方法,其特征在于,所述对来自不同新闻源的所述新闻两两之间进行相关度计算,当相关度大于设定值时,将两新闻确定为针对同一事件的新闻并建立一事件新闻组,包括:采用词汇共现算法查找来自不同新闻源的两个新闻的文本内容中的第一共现词汇和/或句子;引入词典语义分析两个新闻的文本内容中所述第一共现词汇和/或句子之间的相关关系;提取不同新闻源的两个新闻中的新闻发布时间;将不同新闻源的两个新闻中的新闻发布时间进行比较,确定新闻发布时间的相关关系;根据所述第一共现词汇和/或句子之间的相关关系及所述新闻发送时间的相关关系计算所述两个新闻之间的相关度;当相关度大于设定值时,将两新闻确定为针对同一事件的新闻并建立一
\t事件新闻组。4.根据权利要求3所述的针对新闻事件的聚合提取方法,其特征在于,还包括:当相关度小于设定值时,两新闻确定为针对不同事件的新闻并建立两个事件新闻组,两新闻分别位于两所述事件新闻组中。5.根据权利要求1所述的针对新闻事件的聚合提取方法,其特征在于,所述根据用户发出的访问请求,打开网页页面展示同一事件不同新闻源的文本内容集之前还包括:根据新闻内容的真实性对同一新闻组内各个新闻的文本内容依次排序,具体包括:获取政府职能机构网站上公告信息及公告时间;采用词汇共现算法查找来自所述政府职能机构网站上公告信息与所述新闻中的第二共现词汇和/或句子;引入词典语义分析所述第二共现词汇和/或句子之间的相关关系;将所述新闻中的新闻发布时间与所述公告信息的公告时间进行比较,确定新闻发布时间与公告时间的相关关系;根据所述第二共现词汇和/或句子之间的相关关系及所述新闻发送时间与公告时间的相关关系计算所述新闻与所述公告信息之间的相关度;根据所述新闻与所述公告信息之间的相关度大小,对同一事件新闻组内各个新闻的文本内容在同一网页页面上进行依次排序。6.一种针对新闻事件的聚合提取装置,其特征在于,包括:第一获取单元,用于获取各个新...

【专利技术属性】
技术研发人员:李华基
申请(专利权)人:深圳职业技术学院
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1