文本特征提取策略制定方法及装置、文本分类方法及装置制造方法及图纸

技术编号:6066821 阅读:359 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种自适应文本分类方法。该方法包括步骤:将策略数据库中的文本特征提取策略之一映射到基于文本特征的文本分类器,并对于待分类语料进行文本分类;当所述策略数据库中的任意一个文本特征提取策略均不适用于所述待分类语料时,对于所述待分类语料进行全局样式分析,得到全局样式分析结果;对于经过所述全局样式分析的所述待分类语料进行局部样式分析,得到局部样式分析结果;将所述全局样式分析结果及所述局部样式分析结果整合成文本特征提取策略,并存储到策略数据库中;将所述文本特征提取策略映射到基于文本特征的文本分类器,并进行所述待分类语料的文本分类。

Method and device for formulating text feature extraction strategy, text classification method and apparatus

The invention discloses an adaptive text classification method. The method comprises the following steps: the text feature extraction strategy of strategy database mapping to text classifier based on text features, and for the classification of corpus for text classification; when the arbitrary policy database in a text feature extraction strategy are not applicable to the classification of corpus, for the classification of corpus global style analysis, global style analysis results; for after the global style analysis the classification of corpus of local style analysis, local style analysis results; the global style analysis results and the analysis results are integrated into the local style strategy of text feature extraction, and stored in the policy database; the text feature extraction strategy is mapped to a text classifier based on text features, text classification and the classification of corpus.

【技术实现步骤摘要】

该专利技术涉及文本分类方法及装置,特别涉及基于文本内容特征提取的文本分类方法及装置,还涉及用于该文本分类方法及装置的文本特征提取策略制定方法及装置。
技术介绍
文本分类指的是将一篇文档归入预先定义的几个类别中的一个或几个,而分类的依据主要是文本的内容特征与预先定义的类别的相似度。因此,文本内容特征的提取(以下,简称为“文本特征提取”)是文本分类的核心问题。文本特征提取技术主要涉及特征抽取、特征筛选、特征权值计算这三个方面的技术。特征抽取是指从各个不同的角度和方面抽取文本的各种特征。现有的技术主要有词袋(Bag of Words),例如单元词、多元词(二元或三元连续词)、文本模式(不连续的语义关系)等等,通过词频和词罕见度等指标进行特征抽取。这里,单元词可以理解为单词,多元词可以理解为短语,文本模式可以理解为句子主干。特征筛选是指使用某种算法将最符合某个类别的特征筛选出来,现有的算法包括方差(CHI Square)计算和信息增益 (Information Gain)等方法。特征权值计算是指对每个抽取的特征进行权值计算和调整。作为文本特征提取的技术,有基于文本样式分析的,这种基于文本样式分析的文本特征提取,一般用于比较特殊的文本分类,例如文本体裁分类、作者分类、作者性别分类、 作者情绪分类等。即,现有的文本样式分析技术虽然比较成熟,但是一般都用于文本样式特征的提取,而可利用该提取结果进一步进行文本分类。这对于特殊文本分类应用(如作者分类)有一定效果,而对于一般的文本内容特征的提取以及基于文本内容特征的文本分类应用则效果并不好。且,现有的文本特征提取技术,一般只针对某一种或者某一体裁的语料,因此即使可以做针对性很强的优化,但往往换了语料之后效果就不好了,也就是适应性不够强。且,现有的文本特征提取技术,其参数和算法往往需要微调。这种微调一般是手工完成的,需要多次反复试验才能得到最优值,无法自动完成。且,现有的文本特征提取技术,主要考虑分类效果,而对性能要求考虑并不多。这给文本分类系统的商业应用带来一定问题,特别是性能要求高的手机环境、实时信息分析等应用中问题尤其突出。
技术实现思路
鉴于上述文本特征抽取技术中存在的问题,本专利技术的目的在于提供一种能够对于待分类语料自动地制定文本特征提取策略的方法,该策略能够用于基于文本特征的文本分类。为了实现上述目的,根据本专利技术的一种用于文本分类的文本特征提取策略制定方法,包括步骤对于待分类语料进行全局样式分析,得到全局样式分析结果;对经过全局样式分析的待分类语料进行局部样式分析,得到局部样式分析结果;将所述全局样式分析结果及所述局部样式分析结果整合成文本特征提取策略,并存储到策略数据库中。并且,上述的文本特征提取策略制定方法,其特征在于所述文本特征提取策略包括语料预处理参数、特征抽取类型、特征筛选算法、特征抽取数量参数、特征权值计算参数、 以及特例文档概率中的一项或多项。并且,上述的文本特征提取策略制定方法,其特征在于所述全局样式分析包括步骤调整所述待分类语料所包含的各类文档之间的文档数量平衡度;预估分类消耗时间或资源,如果预估结果大于预定值,则对于所述待分类语料进行文本摘要处理;计算特征抽取总体数量以及所述各类的特征抽取数量,作为所述全局样式分析结果。并且,上述的文本特征提取策略制定方法,其特征在于所述局部样式分析包括从经过所述全局样式分析的所述待分类语料中抽样出文档集合,并从所述文档集合中抽样出句子集合;计算所述文档集合的句子平均长度及长度分布、所述句子集合的句法树平均深度及深度分布;根据所述句子平均长度及分布、句法树平均深度及分布,得到所述特征抽取类型。并且,上述的文本特征提取策略制定方法,其特征在于从经过所述全局样式分析的所述待分类语料中抽样出文档集合,计算所述文档集合的所述特例文档概率。并且,上述的文本特征提取策略制定方法,其特征在于所述策略数据库所存储的策略包括用户直接存储的策略。根据本专利技术的一种自适应文本分类方法,包括步骤对于待分类语料进行全局样式分析,得到全局样式分析结果;对于经过所述全局样式分析的所述待分类语料进行局部样式分析,得到局部样式分析结果;将所述全局样式分析结果及所述局部样式分析结果整合成文本特征提取策略,并存储到策略数据库中;将所述文本特征提取策略映射到基于文本特征的文本分类器,并进行所述待分类语料的文本分类。根据本专利技术的一种用于文本分类的文本特征提取策略制定装置,包括全局样式分析单元,对于待分类语料进行全局样式分析,得到全局样式分析结果;局部样式分析单元,对于所述待分类语料进行局部样式分析,得到局部样式分析结果;控制单元,将所述全局样式分析结果及所述局部样式分析结果整合成文本特征提取策略;策略数据库,用于存储多个所述文本特征提取策略。根据本专利技术的一种自适应文本分类装置,包括判断单元,用于判断是否重新通过文本样式分析制定文本特征提取策略;策略数据库,用于存储多个文本特征提取策略;全局样式分析单元,对于待分类语料进行全局样式分析,得到全局样式分析结果;局部样式分析单元,对经过所述全局样式分析的所述待分类语料进行局部样式分析,得到局部样式分析结果;控制单元,将所述全局样式分析结果及所述局部样式分析结果整合成文本特征提取策略,存储到所述策略数据库;文本分类单元,使用所述文本特征提取策略对于所述待分类语料进行基于文本特征的文本分类。根据本专利技术的文本特征提取策略制定方法及装置、自适应文本分类方法及装置, 对于各种体裁的待分类语料无需手动,而是能够通过文本样式分析得到定文本特征提取策略,并将该策略映射到文本分类器而进行基于文本特征的文本分类。附图说明通过下面结合附图进行的描述,本专利技术的上述和其他目的和特点将会变得更加清楚,其中图1是表示根据本专利技术的实施方式的自适应文本分类装置的方框图;图2是表示根据本专利技术的实施方式的自适应文本分类方法的流程图;图3是表示根据本专利技术的实施方式的文本特征提取策略制定方法的具体步骤的流程图。主要符号说明101为判断单元;102为全局样式分析单元;103为局部样式分析单元;104为控制单元;105为策略数据库;106为文本分类单元;S1010-S1070以及 S2010-S2130 为步骤。具体实施例方式以下,参照附图来详细说明本专利技术的实施方式。(实施方式)图1是表示本专利技术的实施方式的自适应文本分类装置的方框图。图1中,自适应文本分类装置100包括判断单元101、全局样式分析单元102、局部样式分析单元103、控制单元104、策略数据库105以及文本分类单元106。判断单元101具有与用户交互的接口,并根据用户的选择,决定直接从策略数据库105获取文本特征提取策略或通过文本样式分析制定文本特征提取策略。具体地说,如果用户判断策略数据库105中存在适用于待分类语料的策略,则判断单元101将用户的判断结果,即指令输出到控制单元104。如果用户判断策略数据库105中不存在适用于待分类语料的策略,则判断单元101将待分类语料输出到全局样式分析单元102。全局样式分析单元102对于待分类语料进行全局样式分析,并将得到的全局样式分析结果输出到局部样式分析单元103及控制单元104。而且,全局样式分析单元102将经过全局样式分析的待分类语本文档来自技高网
...

【技术保护点】
1.一种用于文本分类的文本特征提取策略制定方法,包括步骤:对于待分类语料进行全局样式分析,得到全局样式分析结果;对经过全局样式分析的待分类语料进行局部样式分析,得到局部样式分析结果;将所述全局样式分析结果及所述局部样式分析结果整合成文本特征提取策略,并存储到策略数据库中。

【技术特征摘要】

【专利技术属性】
技术研发人员:姜赢王进彭鸽刘思培胡晨
申请(专利权)人:三星电子中国研发中心三星电子株式会社
类型:发明
国别省市:84[]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1