一种网络社区话题分类方法及装置制造方法及图纸

技术编号：20545984 阅读：23 留言：0更新日期：2019-03-09 18:54

本发明专利技术公开了一种网络社区话题分类方法及装置，属于数据处理技术领域。所述方法包括：收集网络社区话题语料并确定对应的类别标记，对收集的话题语料进行预处理后作为样本集；根据类别标记和朴素贝叶斯算法构造样本集错分的代价敏感矩阵；基于代价敏感矩阵对样本集进行训练得到分类器；使用分类器对网络社区文本进行分类。本发明专利技术中，通过构造代价敏感矩阵，并在分类器的训练过程中，将代价敏感引入随机森林，为各类别加入错分代价，且以错分代价最小为目的进行分类器训练，从而在保证了分类器性能的前提下，有效的解决了由于数据不均衡带来的分类准确率低的问题，进而为网络社区话题的分析和监管提供了有利基础。

A Method and Device for Topic Classification in Network Community

The invention discloses a network community topic classification method and device, which belongs to the technical field of data processing. The methods include: collecting the topic corpus of the network community and identifying the corresponding category markers, pretreating the collected topic corpus as the sample set; constructing the cost-sensitive matrix of the sample set misclassification based on the category markers and Naive Bayesian algorithm; training the sample set based on the cost-sensitive matrix to get the classifier; and using the classifier to classify the text of the network community. In the present invention, by constructing cost-sensitive matrix and introducing cost-sensitive into random forest in the training process of classifier, classifier training is carried out with the aim of minimizing the cost of misclassification for various classes, thus effectively solving the problem of low classification accuracy caused by data imbalance, and then for the network. The analysis and supervision of network community topics provide a favorable basis.

全部详细技术资料下载

【技术实现步骤摘要】
一种网络社区话题分类方法及装置
本专利技术涉及数据处理
，尤其涉及一种网络社区话题分类方法及装置。
技术介绍
上世纪六十年代初，互联网急速发展，而中国在用户规模和信息资源上都位居前列。如今，互联网开始逐渐向人们的日常生活、工作和休闲娱乐中深入，这对于信息化的发展起到极大的推动作用，人们在接连不断的从互联网上接收获取数据的同时，开始创建和分享信息。网络社区提供了一个网友间彼此沟通讨论、进行信息共享的平台，网络社区是指包括论坛、贴吧、公告栏、在线聊天、互动交友及无线增值服务等形式在内的网上交流空间。由于网络社区的开放性强，用户群体广泛，因而成为广大网民信息交流的重要平台和言论传播的有效载体，同时也成为网络舆论情况的重要来源。网络舆论情况不止是广大网民的态度、观点、情感的传播、表达与互动，还直接反映着社会中的舆论情况，群众的不良情绪极有可能是对网络舆论情况中突发事件的不恰当处理激发而来，从而引发群众作出违反规定或者过于激动的举动，甚至对社会稳定造成威胁，因而对网络社区话题进行有效分类和分析，对舆论情况监管具有重大意义。然而，网络社区中大量用户对热点话题的集中讨论极易造成数据的不均衡，目前已有的分类方法中，均不能很好的解决数据不均衡问题，从而造成一些数据的分类不准确。
技术实现思路
为解决现有技术的不足，本专利技术提供一种网络社区话题分类方法及装置。第一方面，本专利技术提供一种网络社区话题分类方法，其特征在于，包括：收集网络社区话题语料并确定对应的类别标记，对收集的话题语料进行预处理后作为样本集；根据所述类别标记和朴素贝叶斯算法构造所述样本集错分的代价敏感矩阵；...

【技术保护点】
1.一种网络社区话题分类方法，其特征在于，包括：收集网络社区话题语料并确定对应的类别标记，对收集的话题语料进行预处理后作为样本集；根据所述类别标记和朴素贝叶斯算法构造所述样本集错分的代价敏感矩阵；基于所述代价敏感矩阵对所述样本集进行训练得到分类器；使用所述分类器对网络社区文本进行分类。

【技术特征摘要】
1.一种网络社区话题分类方法，其特征在于，包括：收集网络社区话题语料并确定对应的类别标记，对收集的话题语料进行预处理后作为样本集；根据所述类别标记和朴素贝叶斯算法构造所述样本集错分的代价敏感矩阵；基于所述代价敏感矩阵对所述样本集进行训练得到分类器；使用所述分类器对网络社区文本进行分类。2.根据权利要求1所述的方法，其特征在于，所述对收集的话题语料进行预处理后作为样本集，包括：对收集的话题语料进行分词得到各词汇；去除得到的各词汇中的停用词得到各有效词汇；计算各有效词汇的特征值；根据各有效词汇的特征值，对所述收集的话题语料进行向量化处理得到文本矩阵并作为样本集。3.根据权利要求1所述的方法，其特征在于，所述根据所述类别标记和朴素贝叶斯算法构造所述样本集错分的代价敏感矩阵，具体包括：根据所述样本集中各样本的类别标记统计类别总数，并计算各类别的先验概率；根据所述先验概率分别计算各样本属于各类别的后验概率；对所述后验概率进行变换作为对应样本错分的代价敏感值；根据所述代价敏感值构造代价敏感矩阵。4.根据权利要求3所述的方法，其特征在，所述基于所述代价敏感矩阵对所述样本集进行训练得到分类器，包括：根据所述代价敏感矩阵中的各代价敏感值确定各样本对应的基尼系数；根据所述基尼系数选择决策树的分支节点，并对所述样本集进行随机森林训练，得到分类器。5.根据权利要求4所述的方法，其特征在于，所述根据所述代价敏感矩阵中的各代价敏感值确定各样本对应的基尼系数，包括：分别将各样本作为当前样本，根据当前样本属于各类别的条件概率和对应的敏感代价值，计算当前样本的引入敏感代价后的基尼系数；所述基尼系数的计算公式为：GiniCost(D)＝∑AIJP(I|d)P(J|d)，其中，1≤I≤N，1≤J≤N，N为类别总数，GiniCost(D)为样本d的基尼系数，AIJ表示样本d的类别标识为J，被误分到类别I的代价。6.一种网络社区话题分类装置，其特征在于，包括：收集模块，用于收集网络社区话题语料并确定对应的类别标记；预处理模块，用于对所述收集模块收集的话题语料进行预处理后并作为样本集；构造模块，用于根据所述收集模块确定的类别标记和朴素贝叶斯算法构建所述预处理模块得到的样...

【专利技术属性】
技术研发人员：吴旭，党习歌，颉夏青，
申请(专利权)人：北京邮电大学，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人