面向迁移学习的文本处理方法及其文本特征提取方法技术

技术编号：7917705 阅读：254 留言：0更新日期：2012-10-25 02:38

本发明专利技术公开了一种面向迁移学习的文本处理方法及其文本特征提取方法，其中的文本特征提权算法步骤为：针对所有训练文本进行文本特征的提取，得到候选文本特征，根据权值排序提取前面α*K个文本特征（α>1），在文本特征提取的第二阶段，把从第一阶段提取的α*K个文本特征，逐一计算文本特征的分布，计算文本特征的权值。将这α*K个文本特征按权重排序，选取权重最小的K个文本特征文本征。这K个文本特征即按本发明专利技术方法提取的文本特征。与现有技术相比，本发明专利技术的文本特征提取方法能够提高大大文本分类的准确率，并且使用该文本特征提取方法的面向迁移学习的文本处理方法能够使提取到的特征既不过于倾向旧文本，也不单纯从少量的新文本中获得，从而提高文本分类的准确性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算机文本处理技术；特别是涉及面向迁移学习的文本处理方法和文本特征提取方法。
技术介绍
传统的特征提取算法，没有考虑新、旧文本不同分布的情况，没有考虑训练文本偏斜的问题。由于新、旧文本有不同分布，当差异较大时，若用从旧文本提取的特征表示新文本时，新文本会出现很多特征权重为0的现象。由于训练文本中新文本很少，若单独从中提取特征，提取到的特征不能很好地代表所有新文本。如果在这些特征的基础上，对训练文本和目标任务的文本进行表示，并进行文本分类，必然不会取得很好的效果。本专利技术涉及的
技术介绍
包括·I)文本挖掘随着计算机技术、网络技术的发展，汹涌而来的信息有时使人无所适从，从浩如烟海的信息海洋中迅速而准确地获取自己最需要的信息，变得非常困难。海量信息中，许多是文本信息。于是产生了一种新的信息处理技术——文本挖掘。文本挖掘是从大量文本信息中，抽取出隐含的、有用的知识，这一过程也称为文本库中的知识发现。它涉及到文本库、机器学习、自然语言处理、统计文本分析等多个学科领域。研究内容包括文本聚类、文本分类、文本摘要的生成、信息抽取等问题。2)文本分类文本分类是文本挖掘研究中一个重要的问题，它是指在给定的分类体系下，将大量文本划分为两个或多个类别。利用计算机进行文本分类，不仅速度快，而且准确率相对较高。在现实生活中已经有了很多应用，例如，对Web网页进行分类，将包含相同内容的页面归为一类。文本分类的步骤主要包括获取训练文本、进行文本预处理、文本特征选择、文本表示、利用训练分类器进行训练分类，选择分类器和性能评价六个步骤，为了保证文本分类的准确性，还可包括测试获...

【技术保护点】
一种面向迁移学习的文本特征提取方法，其特征在于，该方法包括以下步骤：第一个阶段：针对所有训练文本进行文本特征的提取，得到候选文本特征：训练文本中既包括少量新文本也包括大量旧文本，其中新文本来源于目标领域，旧文本来源于目标领域或者其它领域，经过第一阶段的文本特征提取过程，将其中包含领域信息较少，对文本区分度不高的文本特征过滤掉；对训练文本中包含的所有候选文本特征，计算其权值并排序，提取前面若干个作为第一阶段提取的文本特征，第一阶段提取的文本特征数量α*K个文本特征应该大于最终期望得到的数量，α>1；第二个阶段：对从第一阶段提取的α*K个文本特征t在新、旧文本中的分布进行度量，以判断某个文本特征在新、旧文本中的重要程度；采用公式（1）和（2）分别逐一计算α*K个文本特征t在新、旧文本中的分布；wsame(t，Csame)=f(t，Csame)*n(t，Csame)/N(Csame)（1）wdif(t，Cdif)=f(t，Cdif)*n(t，Cdif)/N(Cdif)（2）其中，Csame和Cdif分别表示训练文本中的新、旧文本，f(t，Csame)和f(t，Cdif)分别表示文本特征t在新...

【技术特征摘要】

【专利技术属性】
技术研发人员：刘江，张源方，李炜，
申请(专利权)人：天津大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人