当前位置: 首页 > 专利查询>天津大学专利>正文

面向迁移学习的文本处理方法及其文本特征提取方法技术

技术编号:7917705 阅读:254 留言:0更新日期:2012-10-25 02:38
本发明专利技术公开了一种面向迁移学习的文本处理方法及其文本特征提取方法,其中的文本特征提权算法步骤为:针对所有训练文本进行文本特征的提取,得到候选文本特征,根据权值排序提取前面α*K个文本特征(α>1),在文本特征提取的第二阶段,把从第一阶段提取的α*K个文本特征,逐一计算文本特征的分布,计算文本特征的权值。将这α*K个文本特征按权重排序,选取权重最小的K个文本特征文本征。这K个文本特征即按本发明专利技术方法提取的文本特征。与现有技术相比,本发明专利技术的文本特征提取方法能够提高大大文本分类的准确率,并且使用该文本特征提取方法的面向迁移学习的文本处理方法能够使提取到的特征既不过于倾向旧文本,也不单纯从少量的新文本中获得,从而提高文本分类的准确性。

【技术实现步骤摘要】

本专利技术涉及计算机文本处理技术;特别是涉及面向迁移学习的文本处理方法和文本特征提取方法。
技术介绍
传统的特征提取算法,没有考虑新、旧文本不同分布的情况,没有考虑训练文本偏斜的问题。由于新、旧文本有不同分布,当差异较大时,若用从旧文本提取的特征表示新文本时,新文本会出现很多特征权重为0的现象。由于训练文本中新文本很少,若单独从中提取特征,提取到的特征不能很好地代表所有新文本。如果在这些特征的基础上,对训练文本和目标任务的文本进行表示,并进行文本分类,必然不会取得很好的效果。本专利技术涉及的
技术介绍
包括·I)文本挖掘随着计算机技术、网络技术的发展,汹涌而来的信息有时使人无所适从,从浩如烟海的信息海洋中迅速而准确地获取自己最需要的信息,变得非常困难。海量信息中,许多是文本信息。于是产生了一种新的信息处理技术——文本挖掘。文本挖掘是从大量文本信息中,抽取出隐含的、有用的知识,这一过程也称为文本库中的知识发现。它涉及到文本库、机器学习、自然语言处理、统计文本分析等多个学科领域。研究内容包括文本聚类、文本分类、文本摘要的生成、信息抽取等问题。2)文本分类文本分类是文本挖掘研究中一个重要的问题,它是指在给定的分类体系下,将大量文本划分为两个或多个类别。利用计算机进行文本分类,不仅速度快,而且准确率相对较高。在现实生活中已经有了很多应用,例如,对Web网页进行分类,将包含相同内容的页面归为一类。文本分类的步骤主要包括获取训练文本、进行文本预处理、文本特征选择、文本表示、利用训练分类器进行训练分类,选择分类器和性能评价六个步骤,为了保证文本分类的准确性,还可包括测试获取测试文本,进行文本与处理,文本表示、选择分类器和性能评价,由分类器去获得文本分类结果,如图I所示为文本分类流程示意图。3)迁移学习在许多实际应用中,文本信息不仅数量巨大,所包含的内容也在快速的更新变化之中,例如,Web网页的内容经常变化主题。在传统的分类学习中,一个基本的假设就是认为用于训练分类模型的文本与目标任务的文本服从统一的分布。但是,由于目标任务的文本会经常变化,这样就导致了当把训练好的模型应用于目标任务时,模型可能已经过时。若频繁地对目标任务的文本重新进行标记,代价昂贵,也做不到及时。我们可称目标任务的文本为新文本,称以往积累的、大量的、已分类的文本为旧文本。如何最大限度地利用旧文本的分类知识,对新文本进行分类,成为一个急需解决的问题。迁移学习近年来成为文本挖掘领域的热门话题,它与传统机器学习方法的主要区别是不需要文本立同分布的假设。在现有的迁移学习方法中,需要取出少量新文本,进行人工标注,作为训练文本的一部分。但是,仅以这些训练文本用于训练模型,数量严重不足。所以以大量已分类的旧文本作为训练文本的补充。旧文本与新文本可能来自不同领域,有不同分布。如图2所示。
技术实现思路
基于上述现有技术存在的问题,本专利技术提出了一种,在利用迁移学习方法解决文本二分类问题的过程中,在其中的文本特征提取环节,对已有的方法进行了改进,针对训练文本中有少量新文本和大量旧文本的情况,提出一种二次提取的方法,能有效提高分类的准确率与召回率。本专利技术提供一种面向迁移学习的文本特征提取方法,该方法包括以下步骤 第一个阶段针对所有训练文本进行文本特征的提取,得到候选文本特征训练文本中既包括少量新文本也包括大量旧文本,其中新文本来源于目标领域,旧文本来源于目标领域或者其它领域,经过第一阶段的文本特征提取过程,将其中包含领域信息较少,对文本区分度不高的文本特征过滤掉;对训练文本中包含的所有候选文本特征,计算其权值并排序,提取前面若干个作为第一阶段提取的文本特征,第一阶段提取的文本特征数量a *K个文本特征应该大于最终期望得到的数量,a>l ;第二个阶段对从第一阶段提取的a *K个文本特征t在新、旧文本中的分布进行度量,以判断某个文本特征在新、旧文本中的重要程度;采用公式(I)和(2)分别逐一计算a *K个文本特征t在新、旧文本中的分布; wSMe (t,Csame) =f (t,Csame) *n (t,Csame) /N (Csame) (I)wdif (t, Cdif) =f (t, Cdif) *n (t, Cdif) /N (Cdif) (2 )其中,Csame和Cdif分别表示训练文本中的新、旧文本,f(t, Csame)和f (t,Cdif)分别表示文本特征t在新、旧文本中出现的次数,n(t,CsaJ和n(t,Cdif)分别表示新、旧文本中出现文本特征t的文本数,N(Csanie)和n(Cdif)分别为新、旧文本中的文本总数,Wsanre(t,CsaJ和wdif (t,Cdif)分别表示文本特征t在新、旧文本中的分布。再根据上述公式(I)和公式(2)的计算结果,逐一代入公式(3),计算文本特征t的权值max {wsame(t,Csame),Wdif (t,Cdif)} /min {wsame (t,Csame),Wdif (t,Cdif)} (3)将这a *K个文本特征按权重排序,选取权重最小的K个文本特征;所得到的这K个文本特征即按本专利技术方法提取的文本特征。所述a取值为2。另外,本专利技术还提出了一种面向迁移学习的文本处理方法,该方法包括以下步骤建立训练文本集;信息的预处理,包括去除噪声文本,去除停用词,对英文文本进行词根还原。对中文文本进行分词处理为词与词之间加上分隔符,对词语进行词性的标注;文本特征提取。提取训练文本中的某些词语作为文本的文本特征,具体操作为第一个阶段针对所有训练文本进行文本特征的提取,得到候选文本特征训练文本中既包括少量新文本也包括大量旧文本,其中新文本来源于目标领域,旧文本来源于目标领域或者其它领域,经过第一阶段的文本特征提取过程,将其中包含领域信息较少,对文本区分度不高的文本特征过滤掉; 对训练文本中包含的所有候选文本特征,计算其权值并排序,提取前面若干个作为第一阶段提取的文本特征,第一阶段提取的文本特征数量a *K个文本特征应该大于最终期望得到的数量,a>l ;第二个阶段对从第一阶段提取的a *K个文本特征t在新、旧文本中的分布进行度量,以判断某个文本特征在新、旧文本中的重要程度;采用公式(I)和(2)分别逐一计算a *K个文本特征t在新、旧文本中的分布;wSMe (t,Csame) =f (t,Csame) *n (t,Csame) /N (Csame) (I)wdif (t, Cdif) =f (t, Cdif) *n (t, Cdif) /N (Cdif) (2 )其中,Csame和Cdif分别表示训练文本中的新、旧文本,f(t, Csame)和f (t,Cdif)分别表示文本特征t在新、旧文本中出现的次数,n(t,CsaJ和n(t,Cdif)分别表示新、旧文本中出现文本特征t的文本数,N(Csanie)和N(Cdif)分别为新、旧文本中的文本总数,Wsanre (t,CsaJ和wdif (t,Cdif)分别表示文本特征t在新、旧文本中的分布。再根据上述公式(I)和公式(2)的计算结果,逐一代入公式(3),计算文本特征t的权值 max {wsame(t,Csame),Wdif (t,Cdif)} /min {wsame本文档来自技高网
...

【技术保护点】
一种面向迁移学习的文本特征提取方法,其特征在于,该方法包括以下步骤:第一个阶段:针对所有训练文本进行文本特征的提取,得到候选文本特征:训练文本中既包括少量新文本也包括大量旧文本,其中新文本来源于目标领域,旧文本来源于目标领域或者其它领域,经过第一阶段的文本特征提取过程,将其中包含领域信息较少,对文本区分度不高的文本特征过滤掉;对训练文本中包含的所有候选文本特征,计算其权值并排序,提取前面若干个作为第一阶段提取的文本特征,第一阶段提取的文本特征数量α*K个文本特征应该大于最终期望得到的数量,α>1;第二个阶段:对从第一阶段提取的α*K个文本特征t在新、旧文本中的分布进行度量,以判断某个文本特征在新、旧文本中的重要程度;采用公式(1)和(2)分别逐一计算α*K个文本特征t在新、旧文本中的分布;wsame(t,Csame)=f(t,Csame)*n(t,Csame)/N(Csame)(1)wdif(t,Cdif)=f(t,Cdif)*n(t,Cdif)/N(Cdif)(2)其中,Csame和Cdif分别表示训练文本中的新、旧文本,f(t,Csame)和f(t,Cdif)分别表示文本特征t在新、旧文本中出现的次数,n(t,Csame)和n(t,Cdif)分别表示新、旧文本中出现文本特征t的文本数,N(Csame)和N(Cdif)分别为新、旧文本中的文本总数,wsame(t,Csame)和wdif(t,Cdif)分别表示文本特征t在新、旧文本中的分布。再根据上述公式(2)和公式(3)的计算结果,逐一代入公式(3),计算文本特征t的权值max{wsame(t,Csame),wdif(t,Cdif)}/min{wsame(t,Csame),wdif(t,Cdif)}(3)将这α*K个文本特征按权重排序,选取权重最小的K个文本特征;所得到的这K个文本特征即按本专利技术方法提取的文本特征。...

【技术特征摘要】

【专利技术属性】
技术研发人员:刘江张源方李炜
申请(专利权)人:天津大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1