信息分类方法及装置制造方法及图纸

技术编号:15500135 阅读:133 留言:0更新日期:2017-06-03 22:07
本发明专利技术实施例提供了一种信息分类方法及装置,首先将网络信息进行划分,获得词汇集合;然后从词汇集合汇中,获得与预先存储的各类别信息相匹配的类别词汇;计算每一类别词汇的权重,依据预先存储的每一类别信息中各类别词汇的关联关系,确定词汇集合包含的所有类别词汇所属的目标类别信息;依据词汇集合包含的所有类别词汇所属的目标类别信息,以及词汇集合包含的每一类别词汇相应的权重,计算每一目标类别信息的权重;最终依据每一目标类别信息的权重,确定网络信息所属类别信息,从而实现了对网络信息的分类。在进行信息推送时,可以将与用户关注的类别信息相应的网络信息推送给用户。

Information classification method and apparatus

The embodiment of the invention provides a classification method and device information, the network information classification, vocabulary set; and then from the set of words in exchange, be matched with the pre stored category information category vocabulary; weighting each category words, according to the pre stored information in each category. The categories of vocabulary Association, determine all categories of vocabulary sets containing the target information; on the basis of all categories of vocabulary sets containing the target information, and the weight of each category contains a set of words corresponding words, weighting each target class information; based on the weight of each the target information, determine the network information category information, so as to realize the classification of network information. When the information is pushed, the network information corresponding to the category information concerned by the user can be pushed to the user.

【技术实现步骤摘要】
信息分类方法及装置
本专利技术涉及信息分类
,更具体涉及一种信息分类方法及装置。
技术介绍
随着因特网在全球范围内的飞速发展,网络信息越来越多,用户可能只关注某一方面的网络信息,例如股票类的网络信息,某一个公司的网络信息。且不同的用户关注的网络信息可能不同。因此,如何对海量的网络信息进行分类,以便将相应类别的网络信息提供给具有相应需求的用户变得尤为重要。
技术实现思路
有鉴于此,本专利技术提供了一种信息分类方法及装置,以克服现有技术中没有对海量的网络信息进行分类的问题。为实现上述目的,本专利技术提供如下技术方案:一种信息分类方法,包括:将网络信息进行划分,获得词汇集合,词汇集合至少包括一个词汇;从所述词汇集合中,获得与预先存储的各类别信息相匹配的类别词汇,每一类别信息包括用于表征相应类别信息的至少一个类别词汇;计算所述词汇集合中包含的每一类别词汇的权重,权重用于表征所述网络信息与相应类别词汇的关联程度;依据预先存储的每一类别信息中各类别词汇的关联关系,确定所述词汇集合包含的所有类别词汇所属的目标类别信息;依据所述词汇集合包含的所有类别词汇所属的目标类别信息,以及所述词汇集合包含的每一类别词汇相应的权重,计算每一目标类别信息的权重;依据每一目标类别信息的权重,确定所述网络信息所属类别信息。其中,所述计算所述词汇集合中包含的每一类别词汇的权重包括:依据所述词汇集合中包含的每一类别词汇在所述网络信息中出现的次数、出现的位置、所述词汇集合中所有类别词汇所属目标类别信息的个数,和,预先获得的每一目标类别信息的逆向文件频率中的一个或多个,计算每一类别词汇的权重,每一目标类别信息的逆向文件频率为待分类的网络信息总数与包含相应目标类别信息的网络信息个数的商的对数。优选地还包括:通过分类器获得用于描述所述至少一个类别信息的所述网络信息。其中,所述依据每一目标类别信息的权重,确定所述网络信息所属类别信息包括:判断每一目标类别信息的权重与第一预设阈值的大小关系;将大于等于所述第一预设阈值的权重相应的目标类别信息,确定为所述网络信息所属类别信息。优选地,还包括:当所述词汇集合中包含的所有类别词汇所属目标类别信息的个数小于等于第二预设阈值时,执行步骤计算所述词汇集合中包含的每一类别词汇的权重。优选地,还包括:获取用户关注的类别信息;将与用户关注的类别信息对应的网络信息发送至所述用户。其中,所述网络信息为股票类信息,每一类别信息包括股票全称、股票简称和股票代码。一种信息分类装置,包括:第一获取模块,用于将网络信息进行划分,获得词汇集合,词汇集合至少包括一个词汇;第二获取模块,用于从所述词汇集合中,获得与预先存储的各类别信息相匹配的类别词汇,每一类别信息包括用于表征相应类别信息的至少一个类别词汇;第一计算模块,用于计算所述词汇集合中包含的每一类别词汇的权重,权重用于表征所述网络信息与相应类别词汇的关联程度;第一确定模块,用于依据预先存储的每一类别信息中各类别词汇的关联关系,确定所述词汇集合包含的所有类别词汇所属的目标类别信息;第二计算模块,用于依据所述词汇集合包含的所有类别词汇所属的目标类别信息,以及所述词汇集合包含的每一类别词汇相应的权重,计算每一目标类别信息的权重;第二确定模块,用于依据每一目标类别信息的权重,确定所述网络信息所属类别信息。其中,所述第一计算模块具体用于:依据所述词汇集合中包含的每一类别词汇在所述网络信息中出现的次数、出现的位置、所述词汇集合中所有类别词汇所属目标类别信息的个数,和,预先获得的每一目标类别信息的逆向文件频率中的一个或多个,计算每一类别词汇的权重,每一目标类别信息的逆向文件频率为待分类的网络信息总数与包含相应目标类别信息的网络信息个数的商的对数。其中,所述第二确定模块包括:判断单元,用于判断每一目标类别信息的权重与第一预设阈值的大小关系;确定单元,用于将大于等于所述第一预设阈值的权重相应的目标类别信息,确定为所述网络信息所属类别信息。经由上述的技术方案可知,与现有技术相比,本专利技术实施例提供了一种信息分类方法中,首先将网络信息进行划分,获得词汇集合;然后从词汇集合汇中,获得与预先存储的各类别信息相匹配的类别词汇;计算每一类别词汇的权重,依据预先存储的每一类别信息中各类别词汇的关联关系,确定词汇集合包含的所有类别词汇所属的目标类别信息;依据词汇集合包含的所有类别词汇所属的目标类别信息,以及词汇集合包含的每一类别词汇相应的权重,计算每一目标类别信息的权重;最终依据每一目标类别信息的权重,确定网络信息所属类别信息,从而实现了对网络信息的分类。在进行信息推送时,可以将与用户关注的类别信息相应的网络信息推送给用户。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。图1为本专利技术实施例提供的一种信息分类方法的流程示意图;图2为本专利技术实施例提供的一种信息分类装置的结构示意图;图3为本专利技术实施例提供的一种电子设备的结构示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。如图1所示,为本专利技术实施例提供的一种信息分类方法的流程示意图,该方法包括:步骤S101:将网络信息进行划分,获得词汇集合,词汇集合至少包括一个词汇。本专利技术实施例提供的信息分类方法,可以是对所有的网络信息进行粗粒度划分,例如,将网络信息划分为股票类网络信息、旅游类网络信息、招聘类网络信息、美食类网络信息或汽车类网络信息等等。也可以对网络信息进行细粒度划分,例如将网络信息划分为关于平安银行股票的网络信息、关于中国银行股票的网络信息等等,或者,划分为关于故宫旅游的网络信息,关于崂山旅游的网络信息等等。可以理解的是,包括有相应股票词汇或旅游词汇的网络信息,并不一定是描述该股票或旅游景点的网络信息。例如以下网络信息。2月17日,绍兴市越城区灵芝镇小善村村民裘荷花,展示几天前在家中翻出的一张60多年前的“XX股票”。这张票证签发于1953年,面值4万元,持有人是裘荷花已经过世的公公赵连茂。尽管上述网络信息中包括“XX股票”这一词汇,但是,该网络信息并不是描述XX股票的详细内容的网络信息。这条网络新闻对于关注XX股票跌或升的用户,没有任何作用,即用户并不想看这样的股票网络信息。因此,优选的,为了避免对上述这种网络信息进行分类,可以在步骤S101之前先对网络信息进行筛选。即步骤S101中的网络信息为描述至少一个类别信息的网络信息。具体的,可以是通过分类器获得用于描述所述至少一个类别信息的所述网络信息。分类器可以是通过朴素贝叶斯的方法训练而成的,假设需要构建用于获取描述股票的网络信息的分类器,即从海量的网络信息中,通过该分类器获得用于描述至少一个股票的网络信息。本专利技术实施例提供但不限于以下训练分类器的实现方式。第一阶段,获取已知待分类本文档来自技高网...
信息分类方法及装置

【技术保护点】
一种信息分类方法,其特征在于,包括:将网络信息进行划分,获得词汇集合,词汇集合至少包括一个词汇;从所述词汇集合中,获得与预先存储的各类别信息相匹配的类别词汇,每一类别信息包括用于表征相应类别信息的至少一个类别词汇;计算所述词汇集合中包含的每一类别词汇的权重,权重用于表征所述网络信息与相应类别词汇的关联程度;依据预先存储的每一类别信息中各类别词汇的关联关系,确定所述词汇集合包含的所有类别词汇所属的目标类别信息;依据所述词汇集合包含的所有类别词汇所属的目标类别信息,以及所述词汇集合包含的每一类别词汇相应的权重,计算每一目标类别信息的权重;依据每一目标类别信息的权重,确定所述网络信息所属类别信息。

【技术特征摘要】
1.一种信息分类方法,其特征在于,包括:将网络信息进行划分,获得词汇集合,词汇集合至少包括一个词汇;从所述词汇集合中,获得与预先存储的各类别信息相匹配的类别词汇,每一类别信息包括用于表征相应类别信息的至少一个类别词汇;计算所述词汇集合中包含的每一类别词汇的权重,权重用于表征所述网络信息与相应类别词汇的关联程度;依据预先存储的每一类别信息中各类别词汇的关联关系,确定所述词汇集合包含的所有类别词汇所属的目标类别信息;依据所述词汇集合包含的所有类别词汇所属的目标类别信息,以及所述词汇集合包含的每一类别词汇相应的权重,计算每一目标类别信息的权重;依据每一目标类别信息的权重,确定所述网络信息所属类别信息。2.根据权利要求1所述信息分类方法,其特征在于,所述计算所述词汇集合中包含的每一类别词汇的权重包括:依据所述词汇集合中包含的每一类别词汇在所述网络信息中出现的次数、出现的位置、所述词汇集合中所有类别词汇所属目标类别信息的个数,和,预先获得的每一目标类别信息的逆向文件频率中的一个或多个,计算每一类别词汇的权重,每一目标类别信息的逆向文件频率为待分类的网络信息总数与包含相应目标类别信息的网络信息个数的商的对数。3.根据权利要求1所述信息分类方法,其特征在于,还包括:通过分类器获得用于描述所述至少一个类别信息的所述网络信息。4.根据权利要求1所述信息分类方法,其特征在于,所述依据每一目标类别信息的权重,确定所述网络信息所属类别信息包括:判断每一目标类别信息的权重与第一预设阈值的大小关系;将大于等于所述第一预设阈值的权重相应的目标类别信息,确定为所述网络信息所属类别信息。5.根据权利要求1至4任一所述信息分类方法,其特征在于,还包括:当所述词汇集合中包含的所有类别词汇所属目标类别信息的个数小于等于第二预设阈值时,执行步骤计算所述词汇集合中包含的每一类别词汇的权重。6....

【专利技术属性】
技术研发人员:安倩曹雪倩
申请(专利权)人:北京搜狐新媒体信息技术有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1