本发明专利技术提供一种基于特征扩展的中文短文本分类方法,包括:步骤(1)建立背景知识库:从带有类别标注的长文本语料库中挖掘满足一定约束条件的特征词的二元组来生成背景知识库;步骤(2)扩展训练集中的短文本:根据背景知识库中的二元组,按照一定的扩展规则对训练集中的短文本添加扩展词;步骤(3)建立分类模型:用经过扩展的短文本训练集建立SVM分类模型;步骤(4)扩展待分类的短文本:根据背景知识库中的二元组和分类模型的特征空间,按照一定的扩展规则对待分类的短文本添加扩展词;步骤(5)产生分类结果:利用分类模型和扩展后的短文本来产生分类结果。本发明专利技术利用长文本语料库来丰富短文本的特征,提高了短文本分类的准确率和召回率。
【技术实现步骤摘要】
本专利技术涉及文本分类系统的
,特别涉及。
技术介绍
根据统计,在电子信息数据中,大约有80%的数据是以非结构化的文本文件形式而存在着。在互联网上,不仅文本数据是最为普遍的数据存储形式,而且视频、音频及图片等数据的搜索都有与之相关联的文本数据。文本分类为处理和组织海量文本数据的关键技术,可以比较有效地解决信息杂乱的问题,方便了用户准确地定位所需的信息和分流信息。传统的文本分类系统主要采用KNN, SVM等分类方法,能在长文本分类应用中获得很好的分类效果。 随着互联网的继续发展,短文本信息开始大量出现,例如论坛的留言、新闻标题、社交网络的状态、即时消息、微博等等,这些短文本信息是大家日常交流通讯中所必不可少的信息形式,它们的共同特点是信息长度较短、表述内容丰富、组合比较灵活、内容长短不定、数据规模很大。由于短文本的特征离散且长度较短,所以传统的文本分类方法直接应用到短文本语料集上时并不能取得可与长文本语料集上相比拟的分类效果。通过丰富短文本所携带的特征量,能够有效地提高短文本分类的准确率和召回率。
技术实现思路
本专利技术要解决的技术问题为克服现有技术的不足,提供,该系统通过从长文本语料库中提取信息来丰富短文本所携带的信息量,从面提高了分类的准确率和召回率。本专利技术解决上述技术问题的技术方案为,该系统具体步骤如下步骤(I)、建立背景知识库根据长文本语料库,利用改进的Apriori算法挖掘出具有共现在关系和相同类别趋向性的特征词的二元组,从而建立背景知识库。步骤(2)、扩展训练集中的短文本利用步骤(I)中生成的背景知识库作为扩展库,对于短文本中的每个原始词,从背景知识库寻找与该词相关联的所有词,然后将这些词作为扩展词对短文本进行存在性扩展。步骤(3)、建立分类模型从经过扩展的短文本训练中提取有用特征,获得特征空间,再将每个扩展后的短文本转换为该特征空间上的向量表示,最后用这些向量作为训练集来建立SVM分类模型。步骤(4)、扩展待分类的短文本根据背景知识库中的二元组和分类模型的特征空间,按照一定的扩展规则对待分类的短文本添加扩展词。步骤(5)、产生分类结果将步骤(4)扩展后的短文本转换成的特征空间上的向量,然后作为输入,利用步骤(3)获得的分类模型计算出分类结果并返回给用户。所述步骤(I)中建立背景知识库,具体如下步骤①对长文本语料库中的长文本进行切词,每个长文本只保留名词、时间词、处所词、方位词、动词、形容词、区别词、状态词和字符串,从而得到长文本语料库的特征词集;步骤②计算长文本语料库的特征词集中的各个词的类别趋向性和全局支持度,若特征词的类别趋向性不存在或全局支持度不够,则从该集合中删除,然后根据特征词的类别趋向性将特征词集划分为若干个与类别一一对应的子集合;假设D= {屯,d2,…,dn}表示长文本语料库的所有文本集合,T = It1, t2, . . , tk}表示k个构成文本的特征项(即特征词)的集合,C= (C1, C2,…,cm}表示类别的集合。定义I全局支持度项集T的全局支持度记为gsup(T),指语料库中包含项集T的·文档数与整个语料库的文档数的比值,其数学定义式为 I D丨gSlip(7) = ^f(I)式 I ^ I其中D表示语料库中所有文档的集合,Dt表示语料库中包含项集T的所有文档的隹A 口 O定义2置信度特征项t的对于类别c的置信度记为conf (t, c),是包含特征项t且属于类别c的文档数与含特征项t的所有文档数的比值,其数学定义式为 conf (t, c) = (2 )式其中Dt表示包含特征项t的文档的集合,Dt,。表示包含特征项t且属于类别c的文档的集合。定义3类别趋向性对于特征项t,若存在类别,使得conf (t,c)不小于用户指定的阈值P (0.5^ ^ < 1),则称特征项t具有类别趋向性,且倾向类别为C,记为Trend(t)=c。步骤③在每个子集合上应用Apriori算法挖掘具有参数a的共现关系和具有参数@的类别趋同性的特征词的二元组,并以这些二元组构成背景知识库。定义4共现关系若项集T的全局支持度超过一个用户指定的阈值a (0<a ^ 1),则称项集T内的特征项具有共现关系。定义5类别趋同性对于两个不同的特征项^和12,若存在类别C,使得Trend (t) =Trend (t2) =c,则称二者具有类别趋同性。所述步骤(2)中扩展训练集中的短文本,具体如下假设d = It1, t2,…,tj表示一个短文本,F表示背景知识库,则对该短文本扩展步骤如下步骤A、对于短文本中的每个特征词,从背景知识库F中寻找与该词相关联的所有词,然后将这些词作为短文本d对应的可用扩展词集EX=ItkLti) G F或〈ti,t> G F,其中 i = 1,k}。步骤B、遍历可用扩展词集EX中的所有特征词对文档d进行存在性扩充,即如果t不存在于文本d中,那么就将t并入d中,并重复此过程直到遍历完集合EX中的特征词。所述步骤(4)中扩展待分类的短文本,具体如下假设d = It1, t2,…,tk}表示一个待扩展的短文本,F表示背景知识库,V表示步骤(3)获得的特征空间,则对该短文本扩展步骤如下步骤A、从背景知识库F中去除包含不属于特征空间V中的特征词的二元组。步骤B、对于短文本中的每个特征词,从背景知识库寻找与该词相关联的所有词,将这些词作为短文本d对应的可用扩展词集EX=It I t, G F或〈\,t> G F)且\ G V,其中 i = 1,. . k}。步骤C、遍历可用扩展词集EX中的所有特征词对文档d进行存在性扩充,即如果t不存在于文本d中,那么就将t并入d中,并重复此过程直到遍历完集合EX中的特征词。本专利技术与现有技术相比的优点在于 相比于传统文本分类系统,本专利技术可以有效地提高短文本分类的准确率和召回率。相比于同类系统,本专利技术中的特征扩展性能不受短文本语料库的影响且易与传统文本分类系统相结合。附图说明图I为本专利技术的概要流程图示意具体实施例方式现结合附图说明本专利技术的实施例。如图I所示,本专利技术包括五个主要步骤建立背景知识库、扩展训练集中的短文本、建立分类模型、扩展待分类的短文本和产生分类结果。步骤(I)建立背景知识库根据长文本语料库,利用改进的Apriori算法挖掘出具有共现在关系和相同类别趋向性的特征词的二元组,从而建立背景知识库,具体步骤为步骤①对长文本语料库中的长文本进行切词,每个长文本只保留名词、时间词、处所词、方位词、动词、形容词、区别词、状态词和字符串,从而得到长文本语料库的特征词集;步骤②计算长文本语料库的特征词集中的各个词的类别趋向性和全局支持度,若特征词的类别趋向性不存在或全局支持度不够,则从该集合中删除,然后根据特征词的类别趋向性将特征词集划分为若干个与类别一一对应的子集合;假设D= ((I1, d2,…,dn}表示长文本语料库的所有文本集合,T = It1, t2, . . , tk}表示k个构成文本的特征项(即特征词)的集合,C= (C1, C2,…,cm}表示类别的集合。定义I全局支持度项集T的全局支持度记为gsup (T),指语料库中包含项集T的文档数与整个语料库的文档数的比值,其数学定义式为 In Igsu本文档来自技高网...
【技术保护点】
一种基于特征扩展的中文短文本分类方法,其特征在于:该方法具体步骤如下:步骤(1)、建立背景知识库:根据长文本语料库,利用改进的Apriori算法挖掘出具有共现在关系和相同类别趋向性的特征词的二元组,从而建立背景知识库;步骤(2)、扩展训练集中的短文本:利用步骤(1)中生成的背景知识库作为扩展库,对于短文本中的每个原始词,从背景知识库寻找与该词相关联的所有词,然后将这些词作为扩展词对短文本进行存在性扩展;步骤(3)、建立分类模型:从经过扩展的短文本训练中提取有用特征,获得特征空间,再将每个扩展后的短文本转换为该特征空间上的向量表示,最后用这些向量作为训练集来建立SVM分类模型;步骤(4)、扩展待分类的短文本:根据背景知识库中的二元组和分类模型的特征空间,按照一定的扩展规则对待分类的短文本添加扩展词;步骤(5)、产生分类结果:将步骤(4)扩展后的短文本转换成的特征空间上的向量,然后作为输入,利用步骤(3)获得的分类模型计算出分类结果并返回给用户。
【技术特征摘要】
【专利技术属性】
技术研发人员:欧阳元新,罗建辉,刘文琦,熊璋,
申请(专利权)人:北京航空航天大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。