文本特征提取策略制定方法及装置、文本分类方法及装置制造方法及图纸

技术编号：6066821 阅读：359 留言：0更新日期：2012-04-11 18:40

本发明专利技术公开了一种自适应文本分类方法。该方法包括步骤：将策略数据库中的文本特征提取策略之一映射到基于文本特征的文本分类器，并对于待分类语料进行文本分类；当所述策略数据库中的任意一个文本特征提取策略均不适用于所述待分类语料时，对于所述待分类语料进行全局样式分析，得到全局样式分析结果；对于经过所述全局样式分析的所述待分类语料进行局部样式分析，得到局部样式分析结果；将所述全局样式分析结果及所述局部样式分析结果整合成文本特征提取策略，并存储到策略数据库中；将所述文本特征提取策略映射到基于文本特征的文本分类器，并进行所述待分类语料的文本分类。

Method and device for formulating text feature extraction strategy, text classification method and apparatus

The invention discloses an adaptive text classification method. The method comprises the following steps: the text feature extraction strategy of strategy database mapping to text classifier based on text features, and for the classification of corpus for text classification; when the arbitrary policy database in a text feature extraction strategy are not applicable to the classification of corpus, for the classification of corpus global style analysis, global style analysis results; for after the global style analysis the classification of corpus of local style analysis, local style analysis results; the global style analysis results and the analysis results are integrated into the local style strategy of text feature extraction, and stored in the policy database; the text feature extraction strategy is mapped to a text classifier based on text features, text classification and the classification of corpus.

全部详细技术资料下载

【技术实现步骤摘要】

该专利技术涉及文本分类方法及装置，特别涉及基于文本内容特征提取的文本分类方法及装置，还涉及用于该文本分类方法及装置的文本特征提取策略制定方法及装置。
技术介绍
文本分类指的是将一篇文档归入预先定义的几个类别中的一个或几个，而分类的依据主要是文本的内容特征与预先定义的类别的相似度。因此，文本内容特征的提取(以下，简称为“文本特征提取”)是文本分类的核心问题。文本特征提取技术主要涉及特征抽取、特征筛选、特征权值计算这三个方面的技术。特征抽取是指从各个不同的角度和方面抽取文本的各种特征。现有的技术主要有词袋(Bag of Words)，例如单元词、多元词(二元或三元连续词)、文本模式(不连续的语义关系)等等，通过词频和词罕见度等指标进行特征抽取。这里，单元词可以理解为单词，多元词可以理解为短语，文本模式可以理解为句子主干。特征筛选是指使用某种算法将最符合某个类别的特征筛选出来，现有的算法包括方差(CHI Square)计算和信息增益 (Information Gain)等方法。特征权值计算是指对每个抽取的特征进行权值计算和调整。作为文本特征提取的技术，有基于文本样式分析的，这种基于文本样式分析的文本特征提取，一般用于比较特殊的文本分类，例如文本体裁分类、作者分类、作者性别分类、作者情绪分类等。即，现有的文本样式分析技术虽然比较成熟，但是一般都用于文本样式特征的提取，而可利用该提取结果进一步进行文本分类。这对于特殊文本分类应用(如作者分类)有一定效果，而对于一般的文本内容特征的提取以及基于文本内容特征的文本分类应用则效果并不好。且，现有的文本特征提取技术，一般...

【技术保护点】
１．一种用于文本分类的文本特征提取策略制定方法，包括步骤：对于待分类语料进行全局样式分析，得到全局样式分析结果；对经过全局样式分析的待分类语料进行局部样式分析，得到局部样式分析结果；将所述全局样式分析结果及所述局部样式分析结果整合成文本特征提取策略，并存储到策略数据库中。

【技术特征摘要】

【专利技术属性】
技术研发人员：姜赢，王进，彭鸽，刘思培，胡晨，
申请(专利权)人：三星电子中国研发中心，三星电子株式会社，
类型：发明
国别省市：84[]

全部详细技术资料下载我是这个专利的主人