一种网络社区话题分类方法及装置制造方法及图纸

技术编号:20545984 阅读:23 留言:0更新日期:2019-03-09 18:54
本发明专利技术公开了一种网络社区话题分类方法及装置,属于数据处理技术领域。所述方法包括:收集网络社区话题语料并确定对应的类别标记,对收集的话题语料进行预处理后作为样本集;根据类别标记和朴素贝叶斯算法构造样本集错分的代价敏感矩阵;基于代价敏感矩阵对样本集进行训练得到分类器;使用分类器对网络社区文本进行分类。本发明专利技术中,通过构造代价敏感矩阵,并在分类器的训练过程中,将代价敏感引入随机森林,为各类别加入错分代价,且以错分代价最小为目的进行分类器训练,从而在保证了分类器性能的前提下,有效的解决了由于数据不均衡带来的分类准确率低的问题,进而为网络社区话题的分析和监管提供了有利基础。

A Method and Device for Topic Classification in Network Community

The invention discloses a network community topic classification method and device, which belongs to the technical field of data processing. The methods include: collecting the topic corpus of the network community and identifying the corresponding category markers, pretreating the collected topic corpus as the sample set; constructing the cost-sensitive matrix of the sample set misclassification based on the category markers and Naive Bayesian algorithm; training the sample set based on the cost-sensitive matrix to get the classifier; and using the classifier to classify the text of the network community. In the present invention, by constructing cost-sensitive matrix and introducing cost-sensitive into random forest in the training process of classifier, classifier training is carried out with the aim of minimizing the cost of misclassification for various classes, thus effectively solving the problem of low classification accuracy caused by data imbalance, and then for the network. The analysis and supervision of network community topics provide a favorable basis.

【技术实现步骤摘要】
一种网络社区话题分类方法及装置
本专利技术涉及数据处理
,尤其涉及一种网络社区话题分类方法及装置。
技术介绍
上世纪六十年代初,互联网急速发展,而中国在用户规模和信息资源上都位居前列。如今,互联网开始逐渐向人们的日常生活、工作和休闲娱乐中深入,这对于信息化的发展起到极大的推动作用,人们在接连不断的从互联网上接收获取数据的同时,开始创建和分享信息。网络社区提供了一个网友间彼此沟通讨论、进行信息共享的平台,网络社区是指包括论坛、贴吧、公告栏、在线聊天、互动交友及无线增值服务等形式在内的网上交流空间。由于网络社区的开放性强,用户群体广泛,因而成为广大网民信息交流的重要平台和言论传播的有效载体,同时也成为网络舆论情况的重要来源。网络舆论情况不止是广大网民的态度、观点、情感的传播、表达与互动,还直接反映着社会中的舆论情况,群众的不良情绪极有可能是对网络舆论情况中突发事件的不恰当处理激发而来,从而引发群众作出违反规定或者过于激动的举动,甚至对社会稳定造成威胁,因而对网络社区话题进行有效分类和分析,对舆论情况监管具有重大意义。然而,网络社区中大量用户对热点话题的集中讨论极易造成数据的不均衡,目前已有的分类方法中,均不能很好的解决数据不均衡问题,从而造成一些数据的分类不准确。
技术实现思路
为解决现有技术的不足,本专利技术提供一种网络社区话题分类方法及装置。第一方面,本专利技术提供一种网络社区话题分类方法,其特征在于,包括:收集网络社区话题语料并确定对应的类别标记,对收集的话题语料进行预处理后作为样本集;根据所述类别标记和朴素贝叶斯算法构造所述样本集错分的代价敏感矩阵;基于所述代价敏感矩阵对所述样本集进行训练得到分类器;使用所述分类器对网络社区文本进行分类。可选地,所述对收集的话题语料进行预处理后作为样本集,包括:对收集的话题语料进行分词得到各词汇;去除得到的各词汇中的停用词得到各有效词汇;计算各有效词汇的特征值;根据各有效词汇的特征值,对所述收集的话题语料进行向量化处理得到文本矩阵并作为样本集。可选地,所述根据所述类别标记和朴素贝叶斯算法构造所述样本集错分的代价敏感矩阵,具体包括:根据所述样本集中各样本的类别标记统计类别总数,并计算各类别的先验概率;根据所述先验概率分别计算各样本属于各类别的后验概率;对所述后验概率进行变换作为对应样本错分的代价敏感值;根据所述代价敏感值构造代价敏感矩阵。可选地,所述基于所述代价敏感矩阵对所述样本集进行训练得到分类器,包括:根据所述代价敏感矩阵中的各代价敏感值确定各样本对应的基尼系数;根据所述基尼系数选择决策树的分支节点,并对所述样本集进行随机森林训练,得到分类器。可选地,所述根据所述代价敏感矩阵中的各代价敏感值确定各样本对应的基尼系数,包括:分别将各样本作为当前样本,根据当前样本属于各类别的条件概率和对应的敏感代价值,计算当前样本的引入敏感代价后的基尼系数;所述基尼系数的计算公式为:GiniCost(D)=∑AIJP(I|d)P(J|d),其中,1≤I≤N,1≤J≤N,N为类别总数,GiniCost(D)为样本d的基尼系数,AIJ表示样本d的类别标识为J,被误分到类别I的代价。第二方面,本专利技术提供一种网络社区话题分类装置,包括:收集模块,用于收集网络社区话题语料并确定对应的类别标记;预处理模块,用于对所述收集模块收集的话题语料进行预处理后并作为样本集;构造模块,用于根据所述收集模块确定的类别标记和朴素贝叶斯算法构建所述预处理模块得到的样本集错分的代价敏感矩阵;训练模块,用于基于所述构造模块构造的代价敏感矩阵对所述预处理模块得到的样本集进行训练得到分类器;分类模块,用于使用所述训练模块得到的分类器对网络社区文本进行分类。可选地,所述预处理模块具体包括:分词子模块、去词子模块、第一计算子模块和向量化子模块;所述分词子模块,用于对所述收集模块收集的话题语料进行分词得到各词汇;所述去词子模块,用于去除所述分词子模块得到的各词汇中的停用词得到有效词汇;所述第一计算子模块,用于计算所述去词子模块得到各有效词汇的特征值;所述向量化子模块,用于根据所述第一计算子模块计算的各有效词汇的特征值,对所述收集模块收集的话题语料进行向量化处理得到文本矩阵并作为样本集。可选地,所述构造模块包括:第二计算子模块、第三计算子模块、变换子模块和构造子模块;所述第二计算子模块,用于根据所述样本集中各样本的类别标记统计类别总数,并分别计算各类别的先验概率;所述第三计算子模块,用于根据所述第二计算子模块计算的先验概率分别计算各样本属于各类别的后验概率;变换子模块,用于对所述第三计算子模块计算的后验概率进行变换作为对应样本错分的代价敏感值;构造子模块,用于根据所述变换子模块得到的各代价敏感值构造代价敏感矩阵。可选地,所述训练模块包括:第四计算子模块和训练子模块;所述第四计算子模块,用于根据所述构造模块构造的代价敏感矩阵中的各代价敏感值确定各样本对应的基尼系数;所述训练子模块,用于根据所述第四计算单元确定的基尼系数选择决策树的分支节点,对所述预处理模块得到的样本集进行随机森林训练,得到分类器。可选地,所述第四计算子模块,具体用于:分别将各样本作为当前样本,根据当前样本属于各类别的条件概率和对应的敏感代价值,计算当前样本的引入敏感代价后的基尼系数;所述基尼系数的计算公式为:GiniCost(D)=∑AIJP(I|d)P(J|d),其中,1≤I≤N,1≤J≤N,N为类别总数,GiniCost(D)为样本d的基尼系数,AIJ表示样本d的类别标识为J,被误分到类别I的代价。第三方面,本专利技术提供一种网络社区话题分类设备,包括一个或多个处理器、存储一个或多个程序的存储装置;当所述一个或多个程序被所述一个或多个处理器执行时,所述一个或多个处理器实现如本专利技术的第一方面所述的方法。第四方面,本专利技术提供一种计算机存储介质,其上存储有计算机程序,当该计算机程序被处理器执行时,实现如本专利技术的第一方面所述的方法。本专利技术的优点在于:本专利技术中,通过确定收集的网络社区话题语料的类别标记,并根据类别标记和朴素贝叶斯算法构建样本集错分的代价敏感矩阵,在分类器的训练过程中,将代价敏感引入基尼系数,为各类别加入错分代价,并以错分代价最小为目的进行随机森林训练,从而在保证了分类器性能的前提下,有效的解决了由于数据不均衡带来的分类准确率低的问题,进而为网络社区话题的分析和监管提供了有利基础。附图说明通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本专利技术的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:附图1为本专利技术提供的一种网络社区话题分类方法流程图;附图2为本专利技术提供的一种网络社区话题分类装置的模块组成框图。具体实施方式下面将参照附图更详细地描述本公开的示例性实施方式。虽然附图中显示了本公开的示例性实施方式,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。实施例一根据本专利技术的实施方式,提供一种网络社区话题分类方法,如图1所示,本文档来自技高网...

【技术保护点】
1.一种网络社区话题分类方法,其特征在于,包括:收集网络社区话题语料并确定对应的类别标记,对收集的话题语料进行预处理后作为样本集;根据所述类别标记和朴素贝叶斯算法构造所述样本集错分的代价敏感矩阵;基于所述代价敏感矩阵对所述样本集进行训练得到分类器;使用所述分类器对网络社区文本进行分类。

【技术特征摘要】
1.一种网络社区话题分类方法,其特征在于,包括:收集网络社区话题语料并确定对应的类别标记,对收集的话题语料进行预处理后作为样本集;根据所述类别标记和朴素贝叶斯算法构造所述样本集错分的代价敏感矩阵;基于所述代价敏感矩阵对所述样本集进行训练得到分类器;使用所述分类器对网络社区文本进行分类。2.根据权利要求1所述的方法,其特征在于,所述对收集的话题语料进行预处理后作为样本集,包括:对收集的话题语料进行分词得到各词汇;去除得到的各词汇中的停用词得到各有效词汇;计算各有效词汇的特征值;根据各有效词汇的特征值,对所述收集的话题语料进行向量化处理得到文本矩阵并作为样本集。3.根据权利要求1所述的方法,其特征在于,所述根据所述类别标记和朴素贝叶斯算法构造所述样本集错分的代价敏感矩阵,具体包括:根据所述样本集中各样本的类别标记统计类别总数,并计算各类别的先验概率;根据所述先验概率分别计算各样本属于各类别的后验概率;对所述后验概率进行变换作为对应样本错分的代价敏感值;根据所述代价敏感值构造代价敏感矩阵。4.根据权利要求3所述的方法,其特征在,所述基于所述代价敏感矩阵对所述样本集进行训练得到分类器,包括:根据所述代价敏感矩阵中的各代价敏感值确定各样本对应的基尼系数;根据所述基尼系数选择决策树的分支节点,并对所述样本集进行随机森林训练,得到分类器。5.根据权利要求4所述的方法,其特征在于,所述根据所述代价敏感矩阵中的各代价敏感值确定各样本对应的基尼系数,包括:分别将各样本作为当前样本,根据当前样本属于各类别的条件概率和对应的敏感代价值,计算当前样本的引入敏感代价后的基尼系数;所述基尼系数的计算公式为:GiniCost(D)=∑AIJP(I|d)P(J|d),其中,1≤I≤N,1≤J≤N,N为类别总数,GiniCost(D)为样本d的基尼系数,AIJ表示样本d的类别标识为J,被误分到类别I的代价。6.一种网络社区话题分类装置,其特征在于,包括:收集模块,用于收集网络社区话题语料并确定对应的类别标记;预处理模块,用于对所述收集模块收集的话题语料进行预处理后并作为样本集;构造模块,用于根据所述收集模块确定的类别标记和朴素贝叶斯算法构建所述预处理模块得到的样...

【专利技术属性】
技术研发人员:吴旭党习歌颉夏青
申请(专利权)人:北京邮电大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1