一种面向事件的新闻展现方法和装置制造方法及图纸

技术编号:8532990 阅读:212 留言:0更新日期:2013-04-04 16:06
本发明专利技术提供了一种面向事件的新闻展现方法和装置,其中方法包括:从新闻源获取新闻数据;对获取到的新闻数据基于内容进行聚类,得到各新闻簇对应的新闻事件;判断新得到的新闻事件与已经存在的新闻事件在内容和时间上的聚合状况,确定在内容和时间上的聚合状况均满足聚合要求的新闻事件属于同一新闻事件,对属于同一新闻事件的新闻事件进行合并展现;确定在内容上的聚合状况满足聚合要求但时间上的聚合状况不满足聚合要求的新闻事件存在关联关系,在展现存在关联关系的新闻事件的同时展现新闻事件之间的关联关系。通过本发明专利技术能够在降低人工编辑成本的同时,体现新闻事件之间的关联关系。

【技术实现步骤摘要】
一种面向事件的新闻展现方法和装置
本专利技术涉及计算机应用
,特别涉及一种面向事件的新闻展现方法和装置。
技术介绍
随着互联网技术的迅速发展和普及,越来越多的用户通过网络获取最新的咨询信息,新闻频道就是其中网站提供的一种供用户浏览和订阅新闻的比较方便的方式,通过新 闻频道用户希望全面地了解新闻所报导的事件,甚至订阅该事件的后续事件报导。现有新闻频道提供的新闻展现方式主要包括以下两种第一种方式以网易、新浪为代表的传统门户网站,其普通新闻大多以人工编辑为主,以关键字关联相关新闻引导读者阅读,并供读者进行订阅。另外,其重大新闻事件会以人工专题的形式为用户提供事件的全景展现。第二种方式以谷歌新闻、百度新闻为代表的搜索引擎提供商,其使用搜索和新闻聚类技术搜集和整理互联网新闻,以主题展现相关新闻,并提供基于关键字的订阅服务。虽然第一种方式中重大新闻事件以专题形式展现有很好的用户体验,但是人工编辑成本较高。第二种方式虽然采用新闻聚类技术自动实现了新闻的搜集和整理,并自动提炼出主题,降低了人工编辑成本,但其采用的新闻聚合方式并没有体现新闻事件之间的关联关系,例如新闻事件的上下文、前因后果等信息。
技术实现思路
有鉴于此,本专利技术提供了一种面向事件的新闻展现方法和装置,以便于降低人工编辑成本的同时,体现新闻事件之间的关联关系。具体技术方案如下一种面向事件的新闻展现方法,该方法包括S1、从新闻源获取新闻数据;S2、对获取到的新闻数据基于内容进行聚类,得到各新闻簇对应的新闻事件;S3、判断步骤S2得到的新闻事件与已经存在的新闻事件在内容和时间上的聚合状况,确定在内容和时间上的聚合状况均满足聚合要求的新闻事件属于同一新闻事件,对属于同一新闻事件的新闻事件进行合并展现;确定在内容上的聚合状况满足聚合要求但时间上的聚合状况不满足聚合要求的新闻事件存在关联关系,在展现存在关联关系的新闻事件的同时展现新闻事件之间的关联关系。根据本专利技术一优选实施例,在所述步骤S3中还包括确定在内容上和时间上均不满足聚合要求的新闻事件分别为独立的新闻事件,在展现时分别展现独立的新闻事件。根据本专利技术一优选实施例,步骤S2中所述对获取到的新闻数据基于内容进行聚类具体包括从获取的新闻数据中各篇新闻的新闻摘要中提取关键词构成各篇新闻的特征向量;将所述各篇新闻的特征向量组成一个特征向量矩阵后,采用奇异值分解算法对特征向量矩阵进行分解,得到各篇新闻的主题分类,将属于同一主题的新闻构成新闻簇。根据本专利技术一优选实施例,所述得到各篇新闻的主题分类具体包括依据奇异值分解结果中的左奇异矩阵得到各篇新闻与各主题类之间的相关度,确定各篇新闻属于与其相关度最高的主题,将属于同一主题的新闻聚合成新闻簇。根据本专利技术一优选实施例,所述新闻簇对应的新闻事件包括新闻簇中各篇新闻的特征向量合并后得到的特征向量以及新闻簇中各新闻发生时间构成的时间戳。根据本专利技术一优选实施例,在判断步骤S2得到的新闻事件与已经存在的新闻事件在内容上的聚合状况时,计算所述步骤S2得到的新闻事件对应的特征向量与已经存在的新闻事件对应的特征向量之间的相似度,确定相似度达到预设相似度阈值的新闻事件在内容上的聚合程度满足预设的聚合要求。根据本专利技术一优选实施例,在判断步骤S2得到的新闻事件与已经存在的新闻事件在时间上的聚合状况时,采用k-means算法对所述步骤S2得到的新闻事件所对应的时间戳中心点与已经存在的新闻事件所对应的时间戳中心点进行k-means计算,得到k个聚类结果,k为正整数,确定属于同一聚类的新闻事件在时间上的聚合状况满足预设聚合要求。根据本专利技术一优选实施例,在对新闻事件进行合并时,包括对特征向量的合并和对时间戳的合并。根据本专利技术一优选实施例,所述关联关系的建立为将数据库中存在关联关系的新闻事件的索引采用链表的方式建立关联关系;所述关联关系的展现包括采用文字、标识或特殊的排版方式体现新闻事件之间存在关联关系。根据本专利技术一优选实施例,该方法还包括如果用户订阅的新闻事件发生合并,则将该新闻事件对应的新得到的新闻推送给用户;如果出现与用户所订阅新闻事件存在关联关系的新的新闻事件,则将该新的新闻事件对应的新闻推送给用户。一种面向事件的新闻展现装置,该装置包括新闻获取单元,用于从新闻源获取新闻数据;新闻聚类单元,用于对获取到的新闻数据基于内容进行聚类,得到各新闻簇对应的新闻事件;关系判定单元,用于判断所述新闻聚类单元得到的新闻事件与已经存在的新闻事件在内容和时间上的聚合状况,确定在内容和时间上的聚合状况均满足聚合要求的新闻事件属于同一新闻事件,确定在内容上的聚合状况满足聚合要求但时间上的聚合状况不满足聚合要求的新闻事件存在关联关系;新闻展现单元,用于对属于同一新闻事件的新闻事件进行合并展现,在展现存在关联关系的新闻事件的同时展现新闻事件之间的关联关系。根据本专利技术一优选实施例,所述关系判定单元,还用于确定在内容上和时间上均不满足聚合要求的新闻事件分别为独立的新闻事件;所述新闻展现单元,还用于分别展现独立的新闻事件。根据本专利技术一优选实施例,所述新闻聚类单元在对获取到的新闻数据基于内容进行聚类时,具体执行从获取的新闻数据中各篇新闻的新闻摘要中提取关键词构成各篇新闻的特征向量;将所述各篇新闻的特征向量组成一个特征向量矩阵后,采用奇异值分解算法对特征向量矩阵进行分解,得到各篇新闻的主题分类,将属于同一主题的新闻构成新闻簇。 根据本专利技术一优选实施例,所述新闻聚类单元具体采用如下方式得到各篇新闻的主题分类依据奇异值分解结果中的左奇异矩阵得到各篇新闻与各主题类之间的相关度,确定各篇新闻属于与其相关度最高的主题,将属于同一主题的新闻聚合成新闻簇。根据本专利技术一优选实施例,所述新闻簇对应的新闻事件包括新闻簇中各篇新闻的特征向量合并后得到的特征向量以及新闻簇中各新闻发生时间构成的时间戳。根据本专利技术一优选实施例,所述关系判定单元计算所述新闻聚类单元得到的新闻事件对应的特征向量与已经存在的新闻事件对应的特征向量之间的相似度,确定相似度达到预设相似度阈值的新闻事件在内容上的聚合程度满足预设的聚合要求。根据本专利技术一优选实施例,所述关系判定单元采用k-means算法对所述新闻聚类单元得到的新闻事件所对应的时间戳中心点与已经存在的新闻事件所对应的时间戳中心点进行k-means计算,得到k个聚类结果,k为正整数,确定属于同一聚类的新闻事件在时间上的聚合状况满足预设聚合要求。根据本专利技术一优选实施例,该装置还包括事件合并单元,用于对属于同一新闻事件的新闻事件进行合并,包括对特征向量的合并和对时间戳的合并。根据本专利技术一优选实施例,该装置还包括关系建立单元,用于将数据库中存在关联关系的新闻事件的索引采用链表的方式建立关联关系;所述新闻展现单元采用文字、标识或特殊的排版方式体现新闻事件之间存在关联关系。根据本专利技术一优选实施例,该装置还包括订阅推送单元,用于如果用户订阅的新闻事件发生合并,则将该新闻事件对应的新得到的新闻推送给用户;如果出现与用户所订阅新闻事件存在关联关系的新的新闻事件,则将该新的新闻事件对应的新闻推送给用户。由以上技术方案可以看出,本专利技术对从新闻源获取的新闻数据进行基于内容的聚类后,得到各新闻簇对应的新闻事件,再依据新得到的新闻事件与已有的本文档来自技高网...

【技术保护点】
一种面向事件的新闻展现方法,其特征在于,该方法包括:S1、从新闻源获取新闻数据;S2、对获取到的新闻数据基于内容进行聚类,得到各新闻簇对应的新闻事件;S3、判断步骤S2得到的新闻事件与已经存在的新闻事件在内容和时间上的聚合状况,确定在内容和时间上的聚合状况均满足聚合要求的新闻事件属于同一新闻事件,对属于同一新闻事件的新闻事件进行合并展现;确定在内容上的聚合状况满足聚合要求但时间上的聚合状况不满足聚合要求的新闻事件存在关联关系,在展现存在关联关系的新闻事件的同时展现新闻事件之间的关联关系。

【技术特征摘要】
1.一种面向事件的新闻展现方法,其特征在于,该方法包括 51、从新闻源获取新闻数据; 52、对获取到的新闻数据基于内容进行聚类,得到各新闻簇对应的新闻事件; 53、判断步骤S2得到的新闻事件与已经存在的新闻事件在内容和时间上的聚合状况,确定在内容和时间上的聚合状况均满足聚合要求的新闻事件属于同一新闻事件,对属于同一新闻事件的新闻事件进行合并展现;确定在内容上的聚合状况满足聚合要求但时间上的聚合状况不满足聚合要求的新闻事件存在关联关系,在展现存在关联关系的新闻事件的同时展现新闻事件之间的关联关系。2.根据权利要求1所述的方法,其特征在于,在所述步骤S3中还包括确定在内容上和时间上均不满足聚合要求的新闻事件分别为独立的新闻事件,在展现时分别展现独立的新闻事件。3.根据权利要求1所述的方法,其特征在于,步骤S2中所述对获取到的新闻数据基于内容进行聚类具体包括 从获取的新闻数据中各篇新闻的新闻摘要中提取关键词构成各篇新闻的特征向量; 将所述各篇新闻的特征向量组成一个特征向量矩阵后,采用奇异值分解算法对特征向量矩阵进行分解,得到各篇新闻的主题分类,将属于同一主题的新闻构成新闻簇。4.根据权利要求3所述的方法,其特征在于,所述得到各篇新闻的主题分类具体包括 依据奇异值分解结果中的左奇异矩阵得到各篇新闻与各主题类之间的相关度,确定各篇新闻属于与其相关度最高的主题,将属于同一主题的新闻聚合成新闻簇。5.根据权利要求1所述的方法,其特征在于,所述新闻簇对应的新闻事件包括新闻簇中各篇新闻的特征向量合并后得到的特征向量以及新闻簇中各新闻发生时间构成的时间戳。6.根据权利要求5所述的方法,其特征在于,在判断步骤S2得到的新闻事件与已经存在的新闻事件在内容上的聚合状况时,计算所述步骤S2得到的新闻事件对应的特征向量与已经存在的新闻事件对应的特征向量之间的相似度,确定相似度达到预设相似度阈值的新闻事件在内容上的聚合程度满足预设的聚合要求。7.根据权利要求5所述的方法,其特征在于,在判断步骤S2得到的新闻事件与已经存在的新闻事件在时间上的聚合状况时,采用k-means算法对所述步骤S2得到的新闻事件所对应的时间戳中心点与已经存在的新闻事件所对应的时间戳中心点进行k-means计算,得到k个聚类结果,k为正整数,确定属于同一聚类的新闻事件在时间上的聚合状况满足预设聚合要求。8.根据权利要求5所述的方法,其特征在于,在对新闻事件进行合并时,包括对特征向量的合并和对时间戳的合并。9.根据权利要求1所述的方法,其特征在于,所述关联关系的建立为将数据库中存在关联关系的新闻事件的索引采用链表的方式建立关联关系; 所述关联关系的展现包括采用文字、标识或特殊的排版方式体现新闻事件之间存在关联关系。10.根据权利要求1所述的方法,其特征在于,该方法还包括 如果用户订阅的新闻事件发生合并,则将该新闻事件对应的新得到的新闻推送给用户; 如果出现与用户所订阅新闻事件存在关联关系的新的新闻事件,则将该新的新闻事件对应的新闻推送给用户。11.一种面向事件的新闻展现装置,其特征在于,该装置包...

【专利技术属性】
技术研发人员:严龙杨宇鸿
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1