一种基于分类器的中文文本分类方法技术

技术编号:27108501 阅读:25 留言:0更新日期:2021-01-25 19:01
本发明专利技术公开了一种基于分类器的中文文本分类方法,包括测试集文本D和训练集的文本类别集合C,将测试集文本D通过文本分类方法映射到训练集的文本类别集合C;其中D={d1,d2,

【技术实现步骤摘要】
一种基于分类器的中文文本分类方法
[0001]此专利技术是一种中文文本分类方法,申请号为201910100095.7的专利的分案申请。


[0002]本专利技术涉及文本分类领域,更具体的说,它涉及一种基于分类器的中文文本分类方法。

技术介绍

[0003]近年来,化工事故频繁发生,8
·
12天津滨海新区瑞海国际物流中心危险品仓库发生火灾爆炸事故、11
·
22山东青岛输油管道泄露爆炸事件等化工事故的发生,带来的不仅是巨大的经济损失,同时也伴随着人员伤亡、环境污染,一些重大的化工事故容易造成人员恐慌,对社会有重大的影响。若能利用某种技术快速准确定位出与化工事故相关报道,为研究化工事故成因、跟踪报道、预防化工事故发生等提供了便利。因此,需要一种可以有效率地管理这些信息的技术,将大量的文本信息自动分类,选择出人们需要的特定领域信息文本。文本分类技术可以分析处理大量文本数据,人工干预大大减少,并且能高效准确定位出特定信息文本,是处理各类文本的有效方式。
[0004]信息技术的发展日益迅猛,互联网技术逐渐成熟,随之产生的数据量呈爆炸性增长,而这些数据大多是半结构化和非结构化的,并且以文本形式呈现。若采用人工方式将一篇文本划分到某个分类中,虽然分类结果准确,但是耗费的人力物力极其巨大,无法快速适应互联网时代信息的极速增加以及社会发展的需求,实现十分困难。实际上,根据特定的需求,人们往往只关心文本信息的某一个领域,快速提取出指定的文本信息对互联网技术的发展具有举足轻重的作用。
[0005]我国最早关于文本分类的报告是80年代初,就职于南京工业大学的侯汉清教授首次对其进行了系统性地阐述。随后,多位学者对文本分类方法不断改进,随之我国在文本分类领域的研究取得较大进展。李晓黎、史忠值等人通过将概念推理网引入文本分类,文本分类的准确率和召回率得到较大提升。姜远、周志华等在2006年提出在分类时将词频作为影响因素,复旦大学的李荣陆在构建文本分类器时采用基于最大熵模型的分类方法,黄菁菁等采用独立语种对文本分类进行了广泛扩展。但整体上,仍没有极高的精准分类的方法。如何快速精确地定位是近几年来信息发展的一个重要研究范畴。

技术实现思路

[0006]本专利技术为文本分类的高效提供了可能,其建模更合理、分类准确率提高、召回率提高,整体精准快捷的一种基于分类器的中文文本分类方法。
[0007]本专利技术的技术方案如下:
[0008]一种基于分类器的中文文本分类方法,包括测试集文本D和训练集的文本类别集合C,将测试集文本D通过文本分类方法映射到训练集的文本类别集合C;其中D={d1,d2,L,d
m
},其中C={c1,c2,L,c
n
},m为文本数,n为文本类别数,具体处理步骤如下:
[0009]101)文本预处理步骤:将训练集的文本进行文本标记处理、分词、去除停用词,将处理后的文本通过统计做特征选择,进行特征降维得到训练集的文本类别集合C;
[0010]其中,统计采用特征项t与类别C
i
的相互关联性进行排序统计,具体包括四种统计:属于类别C
i
且包含特征项t的文本数集A,不属于类别C
i
但包含特征项t的文本数集B,属于类别C
i
但不包含特征项t的文本数集C,不属于类别C
i
且不包含特征项t的文本数集D;C
i
表示分词后去除相近分词的文本类别集合中的其中一个类别,i为类别标识,其小于等于分词后的分词数量;特征项t为具体的分词;
[0011]训练集中含有特征项t的文本总数集是A+B,不含有特征项t的文本总数集是C+D,类别C
i
的文本数集是A+C,其他类别的文本数集是B+D,训练集文本总数集是N,且N=A+B+C+D,特征项t的概率表示为
[0012]由此可得,特征项t与类别C
i
的关联性值为:
[0013][0014]若特征项t与类别C
i
相互独立,AD-CB=0,有X2(t,c
i
)=0;如果X2(t,c
i
)的值越大,就表明特征项t与类别C
i
相互关系程度越大;AD表示根据特征项t正确判定文档属于C
i
类的量化值,CB表示根据特征项t错误判定文档属于C
i
类的量化值;
[0015]在统计排序时以其平均值作为比较,其平均值为如下公式:
[0016][0017]统计排序以平均值从大到小进行排序,从训练集的文本类别集合C中,从大到小选取一定数量的特征项;
[0018]102)分类器步骤:将步骤101)处理后的数据由文本分类器处理,具体公式如下:
[0019][0020]其中,P(C
i
|D
j
)表示训练集的文本D
j
属于某一类别C
i
的概率,文档D
j
可以用一组该文档的分词{x1,x2,

,x
n
}表示,即D
j
={x1,x2,

,x
n
},由于固定的特征词在文本集中出现的次数是常数,所以公式(3)中分母P(x1,x2,L,x
n
)是常量,因此只需获得公式(3)中分子P(C
i
)P(x1,x2,

,x
n
|C
i
)的值,就能判定不同j值时,不同P(C
i
|D
j
)值间的大小关系;因此公式(3)则最终可表示为:
[0021][0022]其中,x
j
为文档D
j
中的一个分词特征项,n为n个特征项;当某一特征项出现在该文本中,就置权重为1,若未出现就置权重为0,测试文本作为事件,并且该事件为n重事件,即在同样的条件下重复地、相互独立地进行的一种随机事件;用B
xt
代表测试文档含有文本特征项t,则得到如下公式:
[0023][0024]在属于类C
i
的情况下x
j
发生的概率用P(x
j
|C
i
)表示,若特征项出现在测试文本中,
则只需得到P(x
j
|C
i
),否则需得到1-P(x
j
|C
i
);
[0025]条件概率1-P(x
j
|C
i
)的公式为:
[0026][0027]在训练集中,若类别C
i
中的所有文本都不含有特征项x
j
,则n
ij
是0,从而P(x
j
|C
i
)的值是0,故需要采用加入平滑因子的方法,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于分类器的中文文本分类方法,其特征在于,包括测试集文本D和训练集的文本类别集合C,将测试集文本D通过文本分类方法映射到训练集的文本类别集合C;其中D={d1,d2,L,d
m
},其中C={c1,c2,L,c
n
},m为文本数,n为文本类别数,具体处理步骤如下:101)文本预处理步骤:将训练集的文本进行文本标记处理、分词、去除停用词,将处理后的文本通过统计做特征选择,进行特征降维得到训练集的文本类别集合C;训练集的文本类别集合C从中,从统计排序由大到小选取一定数量的特征项;102)分类器步骤:将步骤101)处理后的数据由文本分类器处理,具体公式如下:公式(3)中分母P(x1,x2,L,x
n
)是常量,因此只需获得公式(3)中分子P(C
i
)P(x1,x2,

,x
n
|C
i
)的值,就能判定不同j值时,不同P(C
i
|D
j
)值间的大小关系;因此公式(3)则最终可表示为:当某一特征项出现在该文本中,就置权重为1,若未出现就置权重为0,测试文本作为事件,并且该事件为n重事件即在同样的条件下重复地、相互独立地进行的一种随机事件;用B
xt
代表测试文档含有文本特征项t,则得到如下公式:在属于类C
i
的情况下x
j
发生的概率用P(x
j
|C
i
)表示,若特征项出现在测试文本中,则只需得到P(x
j
|C
i
),否则需得到1-P(x
j
|C
i
);条件概率1-P(x
j
|C
i
)的公式为:在训练集中,若类别C
i
中的所有文本都不含有特征项x
j
,则n
ij
是0,从而P(x
j
|C
i
)的值是0,故需要采用加入...

【专利技术属性】
技术研发人员:陈卓
申请(专利权)人:青岛科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1