【技术实现步骤摘要】
改进的特征加权文本分类方法、系统、介质、设备及终端
[0001]本专利技术属于语义网络
,尤其涉及一种改进的特征加权文本分类方法、系统、接收用户输入程序存储介质、计算机设备及信息数据处理终端。
技术介绍
[0002]目前,随着互联网的发展与普及,用户对各种数字信息的需求日益增加。同时,获取数字信息的途径也在不断增多。然而,获取的信息质量却良莠不齐,这为用户处理信息带来了许多困难。
[0003]借助自动化处理技术不但可以对数据进行方便地组织和管理,而且可以节约大量的处理时间,更重要的是可以避免人工处理过程中产生的错误。自动文本分类技术作为处理海量文本信息的有效手段,已经广泛应用到了社会生活的许多领域,并取得了令人满意的成绩。如基于无监督、半监督和监督的文本分类算法、朴素贝叶斯分类算法、Rocchio算法、k近邻分类算法、人工神经网络以及支持向量机等分类算法;其中特征加权、特征模型表示和特征项的选择是影响文本分类性能的主要因素,也是当前研究人员关注的重点。
[0004]基于上述需求,本专利技术提供了一种改进 ...
【技术保护点】
【技术特征摘要】
1.一种改进的特征加权文本分类方法,其特征在于,所述改进的特征加权文本分类方法包括:步骤一,构建文本训练样本、类别集合;对文本进行分词,去停用词操作转换到向量空间模型;步骤二,提取构建的所述文本训练样本的类别抽象特征;步骤三,测试样本,先进行分词,去停用词,根据特征加权函数把测试样本转换为向量空间模型,并提取前m个特征代表测试文本,再计算文本与各类间的相似程度,获得测试文本所属类别;步骤四,更新文本训练样本库。2.根据权利要求1所述的改进的特征加权文本分类方法,其特征在于,所述步骤一文本训练样本为D={d1,
…
,d
N
},类别集合为C={c1,
…
,c
L
}。3.根据权利要求1所述的改进的特征加权文本分类方法,其特征在于,所述步骤二具体包括:步骤1:遍历文本训练样本集中每个类别,统计每个类别的文档数N
i
;步骤2:遍历文本训练样本集中每个特征,统计每个类别中含有当前特征的文档数n
it
;步骤3:遍历文本训练样本集中每个特征,计算每个类别针对当前特征的类别密度;步骤4:遍历文本训练样本集中每个特征,针对每个特征,计算类别空间密度;步骤5:遍历文本训练样本集中每个特征,根据当前特征的类别空间密度,计算类别空间密度频数;步骤6:利用特征加权函数计算每类别下特征权重值,提取前m个代表类别抽象特征集合。4.根据权利要求3所述的改进的特征加权文本分类方法,其特征在于,所述步骤3具体计算过程:包括:上式p
ct
为类别概率,L为样本文档总类别数,l
ct
为包含当前特征t的类别数;所述步骤4具体计算过程包括:所述步骤4具体计算过程包括:为类别空间密度,n
it
为类别i中含当前特征t的文档数,N
i
为类别i中的文档数,L为样本文档总类别数。5.根据权利要求3所述的改进的特征加权文本分类方法,其特征在于,所述步骤5具体计算过程包括:上式为类别空间密度,n
t
为训练样本中含有当前特征的文本数,N为训练样本的总文档数;所述步骤6具体计算过程包括:
式中,w
ct
为特征权重值,r
tw
为文档中当前特征出现的频数,R
w
为文档中特征词的总数目,α、β、γ为三因子的权重分配值,根据试验得出α=0.4...
【专利技术属性】
技术研发人员:金平艳,石珺,李志鹏,廖勇,杨阳朝,
申请(专利权)人:深圳市网联安瑞网络科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。