基于双重自动编码器的半监督跨领域文本分类方法技术

技术编号：21850918 阅读：52 留言：0更新日期：2019-08-14 00:24

本发明专利技术公开了一种基于双重自动编码器的半监督跨领域文本分类方法，其步骤包括：采用双重自动编码器同时获取源领域文本数据集合和目标领域文本数据集合之间的全局和局部特征表示用于跨领域文本分类任务；第一重自动编码器为基于自适应分布的边缘降噪自动编码器，它主要用来学习源领域和目标领域文本数据集合的全局特征表示；第二重自动编码器为基于多类别的边缘降噪自动编码器，它以更细粒度方式学习源领域和目标领域文本数据集合的局部特征表示。本发明专利技术能更好地挖掘源领域文本数据集合和目标领域文本数据集合中特征之间的潜在关系，从而进一步提高文本分类的正确性。

Semi-Supervised Cross-Domain Text Classification Method Based on Dual Automatic Encoder

全部详细技术资料下载

【技术实现步骤摘要】
基于双重自动编码器的半监督跨领域文本分类方法
本专利技术涉及机器学习领域，具体的说是一种基于双重自动编码器的半监督跨领域分类方法，并对文本数据信息进行分类，更具体地说是利用某个领域的文本数据信息对另一个具有不同数据分布的文本数据信息进行分类。
技术介绍
近年来，随着信息化、网络化快速发展，人们的生活与工作也越来越依赖网络信息；现如今，网络信息几乎涉及了人类生活的全部领域；然而，网络技术的发展，网络数据也在逐年增长；一些具有重要价值的信息一般都隐藏在这些数据中，如何对这些海量数据进行高效、准确的分类，使之更好地服务于人们的日常生活与工作日益重要；例如：在京东、淘宝等购物平台，商家可以通过分析消费者评论信息，有针对地进行产品改进或升级，从而提高产品质量；对消费者而言，商品的评论信息在一定程度上左右了消费者的购买意愿，消费者偏向购买口碑较好的商品；一些个性化新闻推荐网站，后台技术人员通过对用户的阅览记录进行分析，对用户的喜好进行分类，然后根据用户的兴趣，给不同用户推荐不同领域的文章；鉴于此，文本分类等相关领域的研究具有极其重要的价值和意义；现如今，不仅人类社会生活中数据的类型越来越多样化，而且对海量数据进行标记需要大量的人力和财力，传统的机器学习方法因而面临着艰难的挑战；传统机器学习方法通常基于两个基本假设：不仅训练数据和测试数据独立并且服从同一数据分布，而且需要大量的标记样本用于训练分类模型；然而，由于网络中数据受用户，时间等多因素的影响，其数据分布在不断发生变化，因此，较难收集到满足同一分布的充足的有效训练数据，从而传统的文本分类方法面临巨大的挑战；为了解决...

【技术保护点】
1.一种基于双重自动编码器的半监督跨领域文本分类方法，其特征是按如下步骤进行：步骤1：初始化步骤1.1：获取源领域的文本数据集合

【技术特征摘要】
1.一种基于双重自动编码器的半监督跨领域文本分类方法，其特征是按如下步骤进行：步骤1：初始化步骤1.1：获取源领域的文本数据集合及其样本标签集合其中，si为所述源领域的文本数据集合DS中第i个文本数据，i＝1,2,…,ns，ns为源领域文本数据集合DS中的文本数据个数；yi为所述第i个文本数据si的标签，且cd表示第d个类别；d＝1,2,…,nc，nc表示类别个数；步骤1.2：获取目标领域的文本数据集合tj为所述目标领域的文本数据集合DT中第j个文本数据，j＝1,2,…,nt，nt为目标领域的文本数据集合DT中的文本数据个数；步骤1.3：基于所述源领域的文本数据集合DS利用支持向量机进行训练，得到源领域的分类器；利用所述源领域的分类器对所述目标领域的文本数据集合DT进行分类，得到目标领域的文本数据的伪标签集合yj为目标领域的文本数据集合DT中第j个文本数据tj的伪标签，且步骤1.4：将所述源领域的文本数据集合DS和目标领域的文本数据集合DT中所有文本数据进行合并，得到合并集合X，X＝[x1,x2,…,xa,…,xA]，xa为合并集合X中第a个文本数据，a＝1,2,…,A，且A＝ns+nt；步骤1.5：根据源领域的文本数据的样本标签集合YS和目标领域的文本数据的伪标签集合YT，将所述源领域的文本数据集合DS和目标领域的文本数据集合DT中的属于同一类别的文本数据划分为一类，从而得到包含nc个类的数据集，其中第d个类别cd的数据集，记为Ed＝[DSd,DTd]；DSd为所述源领域的文本数据集合DS中，样本标签属于第d个类别cd的所有文本数据；DTd为目标领域的文本数据集合DT中，伪标签属于第d个类别cd的所有文本数据；步骤2：利用基于自适应分布的边缘降噪自动编码方法对所述合并集合X进行Lmax层堆叠学习，获得源领域的文本数据集合DS和目标领域的文本数据集合DT的全局特征表示：步骤2.1：定义当前堆叠学习的层数为L；并初始化L＝1；定义最大堆叠学习的层数为Lmax；步骤2.2：将所述合并集合X的第L层的输入记为hL-1，当L＝1，令hL-1＝X；步骤2.3：以噪音干扰系数p对所述第l层的输入hL-1进行随机损坏，得到损坏数据即步骤2.4：利用式(1)表征第L层的重构误差Θ(WL)：式(1)中，λ,β为常数，||·||2表示矩阵的Frobenius范数的平方，是第L层的源领域的文本数据集合DS和目标领域的文本数据集合DT的边缘分布，并利用式(2)得到，是第L层的源领域的文本数据集合DS和目标领域的文本数据集合DT的条件分布，并利用式(4)得到；式(2)中，tr(·)为矩阵的迹，(·)T为矩阵(·)的转置，为第L层的源领域的文本数据集合DS和目标领域的文本数据集合DT的图拉普拉斯算子，并有：式(3)中，(·)αδ表示矩阵的第α行第δ列元素；xα和xδ分别表示所述合并集合X中第α个文本数据和第δ个文本数据；式(4)中，为第L层的样本标签属于第d个类别cd的源领域的文本数据集合DSd和目标领域的文本数据集合DTd的图拉普拉斯算子，并有：式(5)中，(·)ηκ表示矩阵的第η行第κ列元素，xη和xκ分别表示所述合并集合X中第η个文本数据和第κ个文本数据；为DSd中文本数据的个数，为DTd中文本数据的个数；步骤2.5：利用最小二乘法对所述重构误差Θ(WL)进行求解，得到其中，(·)-1为矩阵(·)的逆，Ig为单位矩阵，为所述合...

【专利技术属性】
技术研发人员：张玉红，杨帅，胡学钢，李培培，
申请(专利权)人：合肥工业大学，
类型：发明
国别省市：安徽,34

全部详细技术资料下载我是这个专利的主人