一种关联新闻的确定方法以及装置制造方法及图纸

技术编号:14945407 阅读:71 留言:0更新日期:2017-04-01 11:50
本发明专利技术公开了一种关联新闻的确定方法以及装置,其中,所述方法包括:选取一新闻作为某一新闻类别的标杆新闻;计算其他新闻与所述标杆新闻之间的距离;当所述其他新闻与所述标杆新闻之间的距离不大于设定的阈值时,确定所述其他新闻为所述新闻类别的关联新闻。本发明专利技术的关联新闻的确定方法以及装置能够有效的降低新闻稿件聚类过程中相关度计算的计算量,能够提高关联新闻确定的速度和效率。

【技术实现步骤摘要】

本专利技术涉及互联网
,尤其涉及一种关联信息确定的方法和系统。
技术介绍
随着互联网技术的不断发展和日益普及,新闻用户所面对的信息量正在以惊人的速度增长,对能够方便地获取自己感兴趣的新闻信息的需求越来越迫切。由于新闻信息量急速增加,新闻类别越发细化,并具有很强的实时性,往往更新迅速,时效极短,因此对新闻进行有效的分类,以提供给不同的用户或者提供给不同的应用是十分重要的。现有技术中,存在一种对新闻进行分类的方法,具体为计算新闻稿件之间的相关度,从而确定具有一定相关度的新闻簇。现有技术中的这种方法虽然能够聚类有一定相关度的新闻,但是,新闻稿件之间的相关度的均需要计算后才能得到聚类结果,计算量大,计算效率不够高,难以快速确定关联新闻。
技术实现思路
鉴于上述问题,提出了本专利技术以便提供一种克服上述问题或者至少部分地解决或者减缓上述问题的一种关联新闻的确定的方法和装置。根据本专利技术的一个方面,提供了一种关联新闻的确定方法,包括:选取多个新闻作为某一新闻类别的多个标杆新闻;计算其他新闻与多个标杆新闻之间的距离;当其他新闻与多个标杆新闻之间的距离不大于设定的阈值时,确定其他新闻为新闻类别的关联新闻。可选地,在根据本专利技术的实施例的关联新闻的确定方法中,新闻包括:新闻标题,新闻摘要,或新闻全文。可选地,在根据本专利技术的实施例的关联新闻的确定方法中,距离由其他新闻的特征向量与标杆新闻的特征向量的交集确定。可选地,在根据本专利技术的实施例的关联新闻的确定方法中,距离由其他新闻的特征向量与标杆新闻的特征向量的内积或夹角的余弦确定。可选地,在根据本专利技术的实施例的关联新闻的确定方法中,距离由其他新闻的特征向量的最小哈希值与标杆新闻的特征向量的最小哈希值确定。可选地,在根据本专利技术的实施例的关联新闻的确定方法中,特征向量的构成具体为将新闻进行分词处理后形成字词序列,根据字词序列中字词出现频率由高到低的顺序重新排列字词顺序,由前至后取出预设数量的字词作为新闻的特征向量。可选地,在根据本专利技术的实施例的关联新闻的确定方法中,将新闻进行分词处理后进一步进行去无用信息处理再形成排序前的字词序列。可选地,在根据本专利技术的实施例的关联新闻的确定方法中,对已经确定为所述新闻类别的新闻根据以下因素中的至少一个进行排序:点击率、新闻转载率、以及评论数量,将排在第一的新闻作为所述标杆新闻。可选地,在根据本专利技术的实施例的关联新闻的确定方法中,当其他新闻与多个标杆新闻之间的距离不大于设定的阈值中的阈值均不相同或至少两个不相同。可选地,在根据本专利技术的实施例的关联新闻的确定方法中,当其他新闻与多个标杆新闻之间的距离不大于设定的阈值中的阈值是相同的。根据本专利技术的另一个方面,提供了一种关联新闻的确定装置,包括选取装置,用于选取多个新闻作为某一新闻类别的多个标杆新闻;距离计算装置,用于计算其他新闻与多个标杆新闻之间的距离;关联新闻确定装置,用于当其他新闻与多个标杆新闻之间的距离不大于设定的阈值时,确定其他新闻为新闻类别的关联新闻。可选地,在根据本专利技术的实施例的关联新闻的确定装置中,新闻包括:新闻标题,新闻摘要,或新闻全文。可选地,在根据本专利技术的实施例的关联新闻的确定装置中,距离由其他新闻的特征向量与标杆新闻的特征向量的交集确定。可选地,在根据本专利技术的实施例的关联新闻的确定装置中,距离由其他新闻的特征向量与标杆新闻的特征向量的内积或夹角的余弦确定。可选地,在根据本专利技术的实施例的关联新闻的确定装置中,距离由其他新闻的特征向量的最小哈希值与标杆新闻的特征向量的最小哈希值确定。可选地,在根据本专利技术的实施例的关联新闻的确定装置中,距离计算装置还包括特征向量构成装置,用于将新闻进行分词处理后形成字词序列,根据字词序列中字词出现频率由高到低的顺序重新排列字词顺序,由前至后取出预设数量的字词作为所述新闻的特征向量。可选地,在根据本专利技术的实施例的关联新闻的确定装置中,距离计算装置还包括无用信息处理装置,用于将分词处理后的字词序列进行去无用信息处理再形成排序前的字词序列。可选地,在根据本专利技术的实施例的关联新闻的确定装置中,选取装置,用于对已经确定为所述新闻类别的新闻根据以下因素中的至少一个进行排序:点击率、新闻转载率、以及评论数量,将排在第一的新闻作为所述标杆新闻。可选地,在根据本专利技术的实施例的关联新闻的确定装置中,当其他新闻与多个标杆新闻之间的距离不大于设定的阈值中的阈值均不相同或至少两个不相同。可选地,在根据本专利技术的实施例的关联新闻的确定装置中,当其他新闻与多个标杆新闻之间的距离不大于设定的阈值中的阈值是相同的。本专利技术的有益效果为:本专利技术的关联新闻的确定方法以及装置能够有效的降低新闻稿件聚类过程中相关度计算的计算量,能够提高关联新闻确定的速度和效率。上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本专利技术的上述和其它目的、特征和优点能够更明显易懂,以下特举本专利技术的具体实施方式。附图说明通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本专利技术的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:图1示意性示出了根据本专利技术一个实施例的关联新闻的确定方法的流程图;图2示意性示出了根据本专利技术一个实施例的新闻间距离计算的方法的流程图;图3示意性示出了根据本专利技术一个实施例的关联新闻的确定装置的框图;图4示意性示出了根据本专利技术一个实施例的关联新闻的确定装置中的距离计算装置的框图。具体实施例下面结合附图和具体的实施方式对本专利技术作进一步的描述。本
技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是本专利技术的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间本文档来自技高网
...

【技术保护点】
一种关联新闻的确定方法,包括步骤:选取多个新闻作为某一新闻类别的多个标杆新闻;计算其他新闻与所述多个标杆新闻之间的距离;当所述其他新闻与所述多个标杆新闻之间的距离不大于设定的阈值时,确定所述其他新闻为所述新闻类别的关联新闻。

【技术特征摘要】
1.一种关联新闻的确定方法,包括步骤:
选取多个新闻作为某一新闻类别的多个标杆新闻;
计算其他新闻与所述多个标杆新闻之间的距离;
当所述其他新闻与所述多个标杆新闻之间的距离不大于设定的阈
值时,确定所述其他新闻为所述新闻类别的关联新闻。
2.根据权利要求1所述的关联新闻的确定方法,其特征在于,所
述新闻包括:新闻标题,新闻摘要,或新闻全文。
3.根据权利要求1-2中任一所述的关联新闻的确定方法,其特征
在于,所述距离由所述其他新闻的特征向量分别与所述多个标杆新闻
的特征向量的交集确定。
4.根据权利要求1-3中任一所述的关联新闻的确定方法,其特征
在于,所述距离由所述其他新闻的特征向量分别与所述多个标杆新闻
的特征向量的内积或夹角的余弦确定。
5.根据权利要求1-4中任一所述的关联新闻的确定方法,其特征
在于,所述距离由所述其他新闻的特征向量的最小哈希值与所述多个
标杆新闻的特征向量的最小哈希值确定。
6.根据权利要求1-5中任一所述的关联新闻的确定方法,其...

【专利技术属性】
技术研发人员:张伸正魏少俊陈培军
申请(专利权)人:北京奇虎科技有限公司奇智软件北京有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1