一种关联新闻的确定方法以及装置制造方法及图纸

技术编号:13197209 阅读:51 留言:0更新日期:2016-05-12 08:31
本发明专利技术公开了一种关联新闻的确定方法以及装置,其中,所述方法包括:选取一新闻作为某一新闻类别的标杆新闻;计算其他新闻与所述标杆新闻之间的距离;当所述其他新闻与所述标杆新闻之间的距离不大于设定的阈值时,确定所述其他新闻为所述新闻类别的关联新闻。本发明专利技术的关联新闻的确定方法以及装置能够有效的降低新闻稿件聚类过程中相关度计算的计算量,能够提高关联新闻确定的速度和效率。

【技术实现步骤摘要】

本专利技术涉及互联网
,尤其涉及一种关联信息确定的方法和系统。
技术介绍
随着互联网技术的不断发展和日益普及,新闻用户所面对的信息量正在以惊人的速度增长,对能够方便地获取自己感兴趣的新闻信息的需求越来越迫切。由于新闻信息量急速增加,新闻类别越发细化,并具有很强的实时性,往往更新迅速,时效极短,因此对新闻进行有效的分类,以提供给不同的用户或者提供给不同的应用是十分重要的。现有技术中,存在一种对新闻进行分类的方法,具体为计算新闻稿件之间的相关度,从而确定具有一定相关度的新闻簇。现有技术中的这种方法虽然能够聚类有一定相关度的新闻,但是,新闻稿件之间的相关度的均需要计算后才能得到聚类结果,计算量大,计算效率不够高,难以快速确定关联新闻。
技术实现思路
鉴于上述问题,提出了本专利技术以便提供一种克服上述问题或者至少部分地解决或者减缓上述问题的一种关联新闻的确定的方法和装置。根据本专利技术的一个方面,提供了一种关联新闻的确定方法,包括:选取一新闻作为某一新闻类别的标杆新闻;计算其他新闻与标杆新闻之间的距离;当其他新闻与标杆新闻之间的距离不大于设定的阈值时,确定其他新闻为此新闻类别的关联新闻。可选地,在根据本专利技术的实施例的关联新闻的确定方法中,新闻包括:新闻标题,新闻摘要,或新闻全文。可选地,在根据本专利技术的实施例的关联新闻的确定方法中,距离由其他新闻的特征向量与标杆新闻的特征向量的交集确定。可选地,在根据本专利技术的实施例的关联新闻的确定方法中,距离由其他新闻的特征向量与标杆新闻的特征向量的内积或夹角的余弦确定。可选地,在根据本专利技术的实施例的关联新闻的确定方法中,距离由其他新闻的特征向量的最小哈希值与标杆新闻的特征向量的最小哈希值确定。可选地,在根据本专利技术的实施例的关联新闻的确定方法中,特征向量的构成具体为将新闻进行分词处理后形成字词序列,根据字词序列中字词出现频率由高到低的顺序重新排列字词顺序,由前至后取出预设数量的字词作为新闻的特征向量。可选地,在根据本专利技术的实施例的关联新闻的确定方法中,将新闻进行分词处理后进一步进行去无用信息处理再形成排序前的字词序列。可选地,在根据本专利技术的实施例的关联新闻的确定方法中,对已经确定为所述新闻类别的新闻根据以下因素中的至少一个进行排序:点击率、新闻转载率、以及评论数量,将排在第一的新闻作为所述标杆新闻。根据本专利技术的另一个方面,提供了一种关联新闻的确定装置,包括选取装置,用于选取一新闻作为某一新闻类别的标杆新闻;距离计算装置,用于计算其他新闻与标杆新闻之间的距离;关联新闻确定装置,用于当其他新闻与标杆新闻之间的距离不大于设定的阈值时,确定其他新闻为新闻类别的关联新闻。可选地,在根据本专利技术的实施例的关联新闻的确定装置中,新闻包括:新闻标题,新闻摘要,或新闻全文。可选地,在根据本专利技术的实施例的关联新闻的确定装置中,距离由其他新闻的特征向量与标杆新闻的特征向量的交集确定。可选地,在根据本专利技术的实施例的关联新闻的确定装置中,距离由其他新闻的特征向量与标杆新闻的特征向量的内积或夹角的余弦确定。可选地,在根据本专利技术的实施例的关联新闻的确定装置中,距离由其他新闻的特征向量的最小哈希值与标杆新闻的特征向量的最小哈希值确定。可选地,在根据本专利技术的实施例的关联新闻的确定装置中,距离计算装置还包括特征向量构成装置,用于将新闻进行分词处理后形成字词序列,根据字词序列中字词出现频率由高到低的顺序重新排列字词顺序,由前至后取出预设数量的字词作为所述新闻的特征向量。可选地,在根据本专利技术的实施例的关联新闻的确定装置中,距离计算装置还包括无用信息处理装置,用于将分词处理后的字词序列进行去无用信息处理再形成排序前的字词序列。可选地,在根据本专利技术的实施例的关联新闻的确定装置中,选取装置,用于对已经确定为所述新闻类别的新闻根据以下因素中的至少一个进行排序:点击率、新闻转载率、以及评论数量,将排在第一的新闻作为所述标杆新闻。本专利技术的有益效果为:本专利技术的关联新闻的确定方法以及装置能够有效的降低新闻稿件聚类过程中相关度计算的计算量,能够提高关联新闻确定的速度和效率。上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,而可依照说明书的内容予以实施,并且为了让本专利技术的上述和其它目的、特征和优点能够更明显易懂,以下特举本专利技术的【具体实施方式】。【附图说明】通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本专利技术的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:图1示意性示出了根据本专利技术一个实施例的关联新闻的确定方法的流程图;图2示意性示出了根据本专利技术一个实施例的新闻间距离计算的方法的流程图;图3示意性示出了根据本专利技术一个实施例的关联新闻的确定装置的框图;图4示意性示出了根据本专利技术一个实施例的关联新闻的确定装置中的距离计算装置的框图。具体实施例下面结合附图和具体的实施方式对本专利技术作进一步的描述。本
技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是本专利技术的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“親接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。本
技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本专利技术所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。本专利技术中聚类是指将物理或抽象对象的集合分成由类似的对象组成的多个类的过程。由聚类所生成的簇是一组数据对象的集合,这些对象与同一个簇中的对象彼此相似,与其他簇中的对象相异。请参阅图1,其示出了本专利技术【具体实施方式】提供的一种关联新闻的确定方法,包括:步骤110,选取一新闻作为某一新闻类别的标杆新闻;步骤120,计算其他新闻与所述标杆新闻之间的距离;步骤130,当所述其他新闻与所述标杆新闻之间的距离不大于设定的阈值时,确定所述其他新闻为所述新闻类别的关联新闻。其中,步骤110,选取一新闻作为某一新闻类别的标杆新闻。在本专利技术的某一实施例中,标杆新闻的选取可以对已经聚类的新闻进行排序,可以根据新闻点击率、新闻转载率、以及新闻评论数量中的某一项对已聚类的新闻进行排序,对排序后的新闻,选取排在第一的新闻作为标杆新闻。在本专利技术的另一实施例中,标杆新闻的选取可以对已经聚类的新闻进行排序,可以新闻点击率、新闻转载率、以及新闻评论数量中的多个因素对已聚类的新闻进行排序,对排序后的新闻,选取排在第一的新闻作为标杆新闻。在本专利技术的另一实施例中,对已经确定为新闻类别的新闻本文档来自技高网
...

【技术保护点】
一种关联新闻的确定方法,包括:选取一新闻作为某一新闻类别的标杆新闻;计算其他新闻与所述标杆新闻之间的距离;当所述其他新闻与所述标杆新闻之间的距离不大于设定的阈值时,确定所述其他新闻为所述新闻类别的关联新闻。

【技术特征摘要】

【专利技术属性】
技术研发人员:张伸正魏少俊陈培军
申请(专利权)人:北京奇虎科技有限公司奇智软件北京有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1