基于双重自动编码器的半监督跨领域文本分类方法技术

技术编号:21850918 阅读:52 留言:0更新日期:2019-08-14 00:24
本发明专利技术公开了一种基于双重自动编码器的半监督跨领域文本分类方法,其步骤包括:采用双重自动编码器同时获取源领域文本数据集合和目标领域文本数据集合之间的全局和局部特征表示用于跨领域文本分类任务;第一重自动编码器为基于自适应分布的边缘降噪自动编码器,它主要用来学习源领域和目标领域文本数据集合的全局特征表示;第二重自动编码器为基于多类别的边缘降噪自动编码器,它以更细粒度方式学习源领域和目标领域文本数据集合的局部特征表示。本发明专利技术能更好地挖掘源领域文本数据集合和目标领域文本数据集合中特征之间的潜在关系,从而进一步提高文本分类的正确性。

Semi-Supervised Cross-Domain Text Classification Method Based on Dual Automatic Encoder

【技术实现步骤摘要】
基于双重自动编码器的半监督跨领域文本分类方法
本专利技术涉及机器学习领域,具体的说是一种基于双重自动编码器的半监督跨领域分类方法,并对文本数据信息进行分类,更具体地说是利用某个领域的文本数据信息对另一个具有不同数据分布的文本数据信息进行分类。
技术介绍
近年来,随着信息化、网络化快速发展,人们的生活与工作也越来越依赖网络信息;现如今,网络信息几乎涉及了人类生活的全部领域;然而,网络技术的发展,网络数据也在逐年增长;一些具有重要价值的信息一般都隐藏在这些数据中,如何对这些海量数据进行高效、准确的分类,使之更好地服务于人们的日常生活与工作日益重要;例如:在京东、淘宝等购物平台,商家可以通过分析消费者评论信息,有针对地进行产品改进或升级,从而提高产品质量;对消费者而言,商品的评论信息在一定程度上左右了消费者的购买意愿,消费者偏向购买口碑较好的商品;一些个性化新闻推荐网站,后台技术人员通过对用户的阅览记录进行分析,对用户的喜好进行分类,然后根据用户的兴趣,给不同用户推荐不同领域的文章;鉴于此,文本分类等相关领域的研究具有极其重要的价值和意义;现如今,不仅人类社会生活中数据的类型越来越多样化,而且对海量数据进行标记需要大量的人力和财力,传统的机器学习方法因而面临着艰难的挑战;传统机器学习方法通常基于两个基本假设:不仅训练数据和测试数据独立并且服从同一数据分布,而且需要大量的标记样本用于训练分类模型;然而,由于网络中数据受用户,时间等多因素的影响,其数据分布在不断发生变化,因此,较难收集到满足同一分布的充足的有效训练数据,从而传统的文本分类方法面临巨大的挑战;为了解决这个问题,国内外学者提出了大量跨领域文本学习算法;深度学习在自然处理领域研究成果显著,多种神经网络模型被用于文本分类,如卷积神经网络(CNN)、循环神经网络(RNN)、对抗神经网络(GAN)以及自动编码器(AE);其中,降噪自动编码器通过堆叠多层能获取高层、鲁棒的特征表示,在跨领域文本分类任务上取得令人满意的分类正确率,然而其计算成本很高且缺乏对高维特征的可扩展性;目前,已有的降噪自动编码器多为无监督模型,在训练分类器时容易产生过拟合问题;此外,基于自动编码器的跨领域文本分类方法一般是基于自动编码器学习同时适用于源领域和目标领域深层特征表示,而忽略领域内的一些固有信息对跨领域文本分类的影响;已有的自动编码器模型不具有普适性,从而限制了在应用中的使用;综上,现有技术中基于降噪自动编码器的跨领域文本分类面临着以下的挑战:一是降噪编码器一般多为无监督模型,利用源领域中文本数据训练分类器时,没有利用源领域中文本数据的标签信息,容易产生过拟合问题;二是已有的降噪自动编码器一般仅仅使用一种自动编码器模型学习可迁移的特征表示用于跨领域文本分类,通常一种自动编码器仅可以学习源领域和目标领域中文本数据的一种数据特征表示,不能从多个角度(全局、局部)学习丰富的数据表示用于跨领域文本分类;
技术实现思路
本专利技术是为避免上述现有技术所存在的不足,提供一种基于双重自动编码器的半监督跨领域文本分类方法,以期能获取源领域中文本数据和目标领域中文本数据的更丰富的特征表示,从而能进一步提高跨领域文本分类的准确率。本专利技术为实现专利技术目的采用如下技术方案:本专利技术一种基于双重自动编码器的半监督跨领域文本分类方法的特点是按如下步骤进行:步骤1:初始化步骤1.1:获取源领域的文本数据集合及其样本标签集合其中,si为所述源领域的文本数据集合DS中第i个文本数据,i=1,2,…,ns,ns为源领域文本数据集合DS中的文本数据个数;yi为所述第i个文本数据si的标签,且cd表示第d个类别;d=1,2,…,nc,nc表示类别个数;步骤1.2:获取目标领域的文本数据集合tj为所述目标领域的文本数据集合DT中第j个文本数据,j=1,2,…,nt,nt为目标领域的文本数据集合DT中的文本数据个数;步骤1.3:基于所述源领域的文本数据集合DS利用支持向量机进行训练,得到源领域的分类器;利用所述源领域的分类器对所述目标领域的文本数据集合DT进行分类,得到目标领域的文本数据的伪标签集合yj为目标领域的文本数据集合DT中第j个文本数据tj的伪标签,且步骤1.4:将所述源领域的文本数据集合DS和目标领域的文本数据集合DT中所有文本数据进行合并,得到合并集合X,X=[x1,x2,…,xa,…,xA],xa为合并集合X中第a个文本数据,a=1,2,…,A,且A=ns+nt;步骤1.5:根据源领域的文本数据的样本标签集合YS和目标领域的文本数据的伪标签集合YT,将所述源领域的文本数据集合DS和目标领域的文本数据集合DT中的属于同一类别的文本数据划分为一类,从而得到包含nc个类的数据集,其中第d个类别cd的数据集,记为Ed=[DSd,DTd];DSd为所述源领域的文本数据集合DS中,样本标签属于第d个类别cd的所有文本数据;DTd为目标领域的文本数据集合DT中,伪标签属于第d个类别cd的所有文本数据;步骤2:利用基于自适应分布的边缘降噪自动编码方法对所述合并集合X进行Lmax层堆叠学习,获得源领域的文本数据集合DS和目标领域的文本数据集合DT的全局特征表示:步骤2.1:定义当前堆叠学习的层数为L;并初始化L=1;定义最大堆叠学习的层数为Lmax;步骤2.2:将所述合并集合X的第L层的输入记为hL-1,当L=1,令hL-1=X;步骤2.3:以噪音干扰系数p对所述第l层的输入hL-1进行随机损坏,得到损坏数据即步骤2.4:利用式(1)表征第L层的重构误差Θ(WL):式(1)中,λ,β为常数,||·||2表示矩阵的Frobenius范数的平方,是第L层的源领域的文本数据集合DS和目标领域的文本数据集合DT的边缘分布,并利用式(2)得到,是第L层的源领域的文本数据集合DS和目标领域的文本数据集合DT的条件分布,并利用式(4)得到;式(2)中,tr(·)为矩阵的迹,(·)T为矩阵(·)的转置,为第L层的源领域的文本数据集合DS和目标领域的文本数据集合DT的图拉普拉斯算子,并有:式(3)中,(·)αδ表示矩阵的第α行第δ列元素;xα和xδ分别表示所述合并集合X中第α个文本数据和第δ个文本数据;式(4)中,为第L层的样本标签属于第d个类别cd的源领域的文本数据集合DSd和目标领域的文本数据集合DTd的图拉普拉斯算子,并有:式(5)中,(·)ηκ表示矩阵的第η行第κ列元素,xη和xκ分别表示所述合并集合X中第η个文本数据和第κ个文本数据;为DSd中文本数据的个数,为DTd中文本数据的个数;步骤2.5:利用最小二乘法对所述重构误差Θ(WL)进行求解,得到其中,(·)-1为矩阵(·)的逆,Ig为单位矩阵,为所述合并集合X的第L层的输入hL-1的共现矩阵,且QL为以噪音干扰系数p进行损坏后的矩阵,并由式(6)得到,为所述合并集合X的第L层的输入hL-1的边缘和条件联合分布的共现矩阵以噪音干扰系数p进行损坏后的矩阵,并由式(7)得到;式(6)中,(·)mu表示矩阵的第m行第u列元素;式(7)中,(·)μν表示矩阵的第μ行第ν列元素;为所述合并集合X的第L层的输入hL-1的边缘分布和条件分布联合的共现矩阵,且步骤2.6:获得第L层的输出特征空间h本文档来自技高网
...

【技术保护点】
1.一种基于双重自动编码器的半监督跨领域文本分类方法,其特征是按如下步骤进行:步骤1:初始化步骤1.1:获取源领域的文本数据集合

【技术特征摘要】
1.一种基于双重自动编码器的半监督跨领域文本分类方法,其特征是按如下步骤进行:步骤1:初始化步骤1.1:获取源领域的文本数据集合及其样本标签集合其中,si为所述源领域的文本数据集合DS中第i个文本数据,i=1,2,…,ns,ns为源领域文本数据集合DS中的文本数据个数;yi为所述第i个文本数据si的标签,且cd表示第d个类别;d=1,2,…,nc,nc表示类别个数;步骤1.2:获取目标领域的文本数据集合tj为所述目标领域的文本数据集合DT中第j个文本数据,j=1,2,…,nt,nt为目标领域的文本数据集合DT中的文本数据个数;步骤1.3:基于所述源领域的文本数据集合DS利用支持向量机进行训练,得到源领域的分类器;利用所述源领域的分类器对所述目标领域的文本数据集合DT进行分类,得到目标领域的文本数据的伪标签集合yj为目标领域的文本数据集合DT中第j个文本数据tj的伪标签,且步骤1.4:将所述源领域的文本数据集合DS和目标领域的文本数据集合DT中所有文本数据进行合并,得到合并集合X,X=[x1,x2,…,xa,…,xA],xa为合并集合X中第a个文本数据,a=1,2,…,A,且A=ns+nt;步骤1.5:根据源领域的文本数据的样本标签集合YS和目标领域的文本数据的伪标签集合YT,将所述源领域的文本数据集合DS和目标领域的文本数据集合DT中的属于同一类别的文本数据划分为一类,从而得到包含nc个类的数据集,其中第d个类别cd的数据集,记为Ed=[DSd,DTd];DSd为所述源领域的文本数据集合DS中,样本标签属于第d个类别cd的所有文本数据;DTd为目标领域的文本数据集合DT中,伪标签属于第d个类别cd的所有文本数据;步骤2:利用基于自适应分布的边缘降噪自动编码方法对所述合并集合X进行Lmax层堆叠学习,获得源领域的文本数据集合DS和目标领域的文本数据集合DT的全局特征表示:步骤2.1:定义当前堆叠学习的层数为L;并初始化L=1;定义最大堆叠学习的层数为Lmax;步骤2.2:将所述合并集合X的第L层的输入记为hL-1,当L=1,令hL-1=X;步骤2.3:以噪音干扰系数p对所述第l层的输入hL-1进行随机损坏,得到损坏数据即步骤2.4:利用式(1)表征第L层的重构误差Θ(WL):式(1)中,λ,β为常数,||·||2表示矩阵的Frobenius范数的平方,是第L层的源领域的文本数据集合DS和目标领域的文本数据集合DT的边缘分布,并利用式(2)得到,是第L层的源领域的文本数据集合DS和目标领域的文本数据集合DT的条件分布,并利用式(4)得到;式(2)中,tr(·)为矩阵的迹,(·)T为矩阵(·)的转置,为第L层的源领域的文本数据集合DS和目标领域的文本数据集合DT的图拉普拉斯算子,并有:式(3)中,(·)αδ表示矩阵的第α行第δ列元素;xα和xδ分别表示所述合并集合X中第α个文本数据和第δ个文本数据;式(4)中,为第L层的样本标签属于第d个类别cd的源领域的文本数据集合DSd和目标领域的文本数据集合DTd的图拉普拉斯算子,并有:式(5)中,(·)ηκ表示矩阵的第η行第κ列元素,xη和xκ分别表示所述合并集合X中第η个文本数据和第κ个文本数据;为DSd中文本数据的个数,为DTd中文本数据的个数;步骤2.5:利用最小二乘法对所述重构误差Θ(WL)进行求解,得到其中,(·)-1为矩阵(·)的逆,Ig为单位矩阵,为所述合...

【专利技术属性】
技术研发人员:张玉红杨帅胡学钢李培培
申请(专利权)人:合肥工业大学
类型:发明
国别省市:安徽,34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1