The embodiment of the invention provides a classification method and device information, the network information classification, vocabulary set; and then from the set of words in exchange, be matched with the pre stored category information category vocabulary; weighting each category words, according to the pre stored information in each category. The categories of vocabulary Association, determine all categories of vocabulary sets containing the target information; on the basis of all categories of vocabulary sets containing the target information, and the weight of each category contains a set of words corresponding words, weighting each target class information; based on the weight of each the target information, determine the network information category information, so as to realize the classification of network information. When the information is pushed, the network information corresponding to the category information concerned by the user can be pushed to the user.
【技术实现步骤摘要】
信息分类方法及装置
本专利技术涉及信息分类
,更具体涉及一种信息分类方法及装置。
技术介绍
随着因特网在全球范围内的飞速发展,网络信息越来越多,用户可能只关注某一方面的网络信息,例如股票类的网络信息,某一个公司的网络信息。且不同的用户关注的网络信息可能不同。因此,如何对海量的网络信息进行分类,以便将相应类别的网络信息提供给具有相应需求的用户变得尤为重要。
技术实现思路
有鉴于此,本专利技术提供了一种信息分类方法及装置,以克服现有技术中没有对海量的网络信息进行分类的问题。为实现上述目的,本专利技术提供如下技术方案:一种信息分类方法,包括:将网络信息进行划分,获得词汇集合,词汇集合至少包括一个词汇;从所述词汇集合中,获得与预先存储的各类别信息相匹配的类别词汇,每一类别信息包括用于表征相应类别信息的至少一个类别词汇;计算所述词汇集合中包含的每一类别词汇的权重,权重用于表征所述网络信息与相应类别词汇的关联程度;依据预先存储的每一类别信息中各类别词汇的关联关系,确定所述词汇集合包含的所有类别词汇所属的目标类别信息;依据所述词汇集合包含的所有类别词汇所属的目标类别信息,以及所述词汇集合包含的每一类别词汇相应的权重,计算每一目标类别信息的权重;依据每一目标类别信息的权重,确定所述网络信息所属类别信息。其中,所述计算所述词汇集合中包含的每一类别词汇的权重包括:依据所述词汇集合中包含的每一类别词汇在所述网络信息中出现的次数、出现的位置、所述词汇集合中所有类别词汇所属目标类别信息的个数,和,预先获得的每一目标类别信息的逆向文件频率中的一个或多个,计算每一类别词汇的权重,每一 ...
【技术保护点】
一种信息分类方法,其特征在于,包括:将网络信息进行划分,获得词汇集合,词汇集合至少包括一个词汇;从所述词汇集合中,获得与预先存储的各类别信息相匹配的类别词汇,每一类别信息包括用于表征相应类别信息的至少一个类别词汇;计算所述词汇集合中包含的每一类别词汇的权重,权重用于表征所述网络信息与相应类别词汇的关联程度;依据预先存储的每一类别信息中各类别词汇的关联关系,确定所述词汇集合包含的所有类别词汇所属的目标类别信息;依据所述词汇集合包含的所有类别词汇所属的目标类别信息,以及所述词汇集合包含的每一类别词汇相应的权重,计算每一目标类别信息的权重;依据每一目标类别信息的权重,确定所述网络信息所属类别信息。
【技术特征摘要】
1.一种信息分类方法,其特征在于,包括:将网络信息进行划分,获得词汇集合,词汇集合至少包括一个词汇;从所述词汇集合中,获得与预先存储的各类别信息相匹配的类别词汇,每一类别信息包括用于表征相应类别信息的至少一个类别词汇;计算所述词汇集合中包含的每一类别词汇的权重,权重用于表征所述网络信息与相应类别词汇的关联程度;依据预先存储的每一类别信息中各类别词汇的关联关系,确定所述词汇集合包含的所有类别词汇所属的目标类别信息;依据所述词汇集合包含的所有类别词汇所属的目标类别信息,以及所述词汇集合包含的每一类别词汇相应的权重,计算每一目标类别信息的权重;依据每一目标类别信息的权重,确定所述网络信息所属类别信息。2.根据权利要求1所述信息分类方法,其特征在于,所述计算所述词汇集合中包含的每一类别词汇的权重包括:依据所述词汇集合中包含的每一类别词汇在所述网络信息中出现的次数、出现的位置、所述词汇集合中所有类别词汇所属目标类别信息的个数,和,预先获得的每一目标类别信息的逆向文件频率中的一个或多个,计算每一类别词汇的权重,每一目标类别信息的逆向文件频率为待分类的网络信息总数与包含相应目标类别信息的网络信息个数的商的对数。3.根据权利要求1所述信息分类方法,其特征在于,还包括:通过分类器获得用于描述所述至少一个类别信息的所述网络信息。4.根据权利要求1所述信息分类方法,其特征在于,所述依据每一目标类别信息的权重,确定所述网络信息所属类别信息包括:判断每一目标类别信息的权重与第一预设阈值的大小关系;将大于等于所述第一预设阈值的权重相应的目标类别信息,确定为所述网络信息所属类别信息。5.根据权利要求1至4任一所述信息分类方法,其特征在于,还包括:当所述词汇集合中包含的所有类别词汇所属目标类别信息的个数小于等于第二预设阈值时,执行步骤计算所述词汇集合中包含的每一类别词汇的权重。6....
【专利技术属性】
技术研发人员:安倩,曹雪倩,
申请(专利权)人:北京搜狐新媒体信息技术有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。