【技术实现步骤摘要】
一种基于分类器的中文文本分类方法
[0001]此专利技术是一种中文文本分类方法,申请号为201910100095.7的专利的分案申请。
[0002]本专利技术涉及文本分类领域,更具体的说,它涉及一种基于分类器的中文文本分类方法。
技术介绍
[0003]近年来,化工事故频繁发生,8
·
12天津滨海新区瑞海国际物流中心危险品仓库发生火灾爆炸事故、11
·
22山东青岛输油管道泄露爆炸事件等化工事故的发生,带来的不仅是巨大的经济损失,同时也伴随着人员伤亡、环境污染,一些重大的化工事故容易造成人员恐慌,对社会有重大的影响。若能利用某种技术快速准确定位出与化工事故相关报道,为研究化工事故成因、跟踪报道、预防化工事故发生等提供了便利。因此,需要一种可以有效率地管理这些信息的技术,将大量的文本信息自动分类,选择出人们需要的特定领域信息文本。文本分类技术可以分析处理大量文本数据,人工干预大大减少,并且能高效准确定位出特定信息文本,是处理各类文本的有效方式。
[0004]信息技术的发展日益迅猛,互联网技术逐渐成熟,随之产生的数据量呈爆炸性增长,而这些数据大多是半结构化和非结构化的,并且以文本形式呈现。若采用人工方式将一篇文本划分到某个分类中,虽然分类结果准确,但是耗费的人力物力极其巨大,无法快速适应互联网时代信息的极速增加以及社会发展的需求,实现十分困难。实际上,根据特定的需求,人们往往只关心文本信息的某一个领域,快速提取出指定的文本信息对互联网技术的发展具有举足轻重的作用。
...
【技术保护点】
【技术特征摘要】
1.一种基于分类器的中文文本分类方法,其特征在于,包括测试集文本D和训练集的文本类别集合C,将测试集文本D通过文本分类方法映射到训练集的文本类别集合C;其中D={d1,d2,L,d
m
},其中C={c1,c2,L,c
n
},m为文本数,n为文本类别数,具体处理步骤如下:101)文本预处理步骤:将训练集的文本进行文本标记处理、分词、去除停用词,将处理后的文本通过统计做特征选择,进行特征降维得到训练集的文本类别集合C;训练集的文本类别集合C从中,从统计排序由大到小选取一定数量的特征项;102)分类器步骤:将步骤101)处理后的数据由文本分类器处理,具体公式如下:公式(3)中分母P(x1,x2,L,x
n
)是常量,因此只需获得公式(3)中分子P(C
i
)P(x1,x2,
…
,x
n
|C
i
)的值,就能判定不同j值时,不同P(C
i
|D
j
)值间的大小关系;因此公式(3)则最终可表示为:当某一特征项出现在该文本中,就置权重为1,若未出现就置权重为0,测试文本作为事件,并且该事件为n重事件即在同样的条件下重复地、相互独立地进行的一种随机事件;用B
xt
代表测试文档含有文本特征项t,则得到如下公式:在属于类C
i
的情况下x
j
发生的概率用P(x
j
|C
i
)表示,若特征项出现在测试文本中,则只需得到P(x
j
|C
i
),否则需得到1-P(x
j
|C
i
);条件概率1-P(x
j
|C
i
)的公式为:在训练集中,若类别C
i
中的所有文本都不含有特征项x
j
,则n
ij
是0,从而P(x
j
|C
i
)的值是0,故需要采用加入...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。