舆情数据角色识别中异构关系数据的迁移学习界限的确定方法技术

技术编号:20916818 阅读:41 留言:0更新日期:2019-04-20 09:45
舆情数据角色识别中异构关系数据的迁移学习界限的确定方法,涉及迁移学习技术领域。为了解决现有技术没有联合两个领域的数据进行学习再运用到目标域中,分类效果不准确的问题。定义度量两个异构领域间差异的

A Method for Determining the Limits of Transfer Learning of Heterogeneous Relational Data in Role Recognition of Public Opinion Data

The method of determining the migration learning boundaries of heterogeneous relational data in public opinion data role recognition involves the field of migration learning technology. In order to solve the problem of inaccurate classification effect, the existing technology does not combine the data of two fields to learn and then apply to the target domain. Definition measures differences between two heterogeneous domains

【技术实现步骤摘要】
舆情数据角色识别中异构关系数据的迁移学习界限的确定方法
本专利技术涉及一种迁移学习界限的确定方法,涉及迁移学习

技术介绍
迁移学习过程中,若假设源域和目标域有不同的分布、特征空间和输出空间,则需要考虑源域的分类函数是否适用于目标域的问题,这便有了域适应问题,只有解决了这个问题,得到源域和目标域的误差,才能给出不同领域间的迁移学习界限。现有的工作为迁移学习界限的研究提供了可行的思路,奠定了一定的基础,但也明显存在着一些问题。首先,训练集和测试集来自相同领域或具有相同分布。大部分学习算法表现得很好的前提是基于源域和目标域的数据都是独立同分布的。当分布发生了改变,大部分统计模型需要通过新获取的数据进行重新构建,浪费资源。其次,训练集和测试集具有相同特征空间。例如,文本分类一般都有相同的特征空间,例如网页文档分类的目的就是为了归纳给定的网页到事先定义的种类中去。文本分类,有标签的样例可能是通过事先人工打标签将大学网站和种类信息联系起来。而对于一个新建立的网站的分类任务,数据特征和数据分布可能都是不同的,缺乏有标签的训练数据。对于新的web的分类,直接将已经建立好的分类器应用上去并不合理。在这种情况下,如果能将分类的知识迁移到新的领域中,或将二者的特征空间统一起来将会非常有帮助。最后,源域和目标域的数据彼此分离,没有融合。大多数的迁移学习都只考虑将在拥有大量有标签的数据的源领域上训练得到的分类模型运用到目的领域中。目标域有时会有少量的数据,却没被好好利用,如果能够联合两个领域的数据进行学习,然后再运用到目标域中,能够取得更加准确的分类效果。
技术实现思路
本专利技术的目的是提供一种公共大数据中舆情数据角色识别中异构关系数据的迁移学习界限的确定方法,为了解决现有技术没有联合两个领域的数据进行学习再运用到目标域中,分类效果不准确的问题。本专利技术为解决上述技术问题采取的技术方案是:一种舆情数据角色识别中异构关系数据的迁移学习界限的确定方法,所述方法的实现过程为:首先定义度量两个异构领域间差异的散度,用散度来度量两个领域间的距离,然后利用两个领域的有限样本和异构数据转同构算法给出域间经验距离,并且求出经验距离与理论距离之间的差距;为求出目标域的分类误差,则需要考察两个不同的分类器分别在源域和目标域上的表现,然后利用三角不等式和已求得的差距尾项即可得到目标域的分类误差界限;最后,扩展已有的界限,将源域和目标域的样本融合起来进行学习之后对目标域进行分类,得到泛化的目标域分类误差界限。进一步地,所述的具体实现过程为:步骤一、给出如下基本定义:定义1领域,一个领域由两部分组成:输入空间χ上的分布D和标签函数数数f:χ→{0,1};则源域和目标域分别表示为<DS,fS>和<DT,fT>;定义2假设,一个假设表示为函数h:χ→{0,1};给定分布D,假设h,又称分类函数,与标签函数f之间的分类差异,即误差为:ε(h,f)=Ex~D[|h(x)-f(x)|];定义3抽象假设空间和假设类,设抽象假设空间的集合为每一个抽象假设空间均可泛化为若干个假设类每一个假设类对应一个领域,同时又是该领域多个分类函数h的集合;那么,由A泛化出的对应于分布D的假设类可表示为定义4散度,I(h)为使假设函数h(x)=1的x的集合,即设两个领域的概率分布D1和D2,定义散度为:定义5理想联合假设空间,理想联合假设空间是一个假定的空间,其泛化到源域和目标域的假设类的分类函数能够将源域和目标域的误差联合起来达到最小值:则,联合误差可表示为定义6异构特征空间,令目标域样本的特征矩阵为T=(t1,t2,...,tr)T,其中,是列向量,ti~pt(t)由分布pt(t)得到;从矩阵的角度来看,使用T(i,j)或者[T]i,j表示第i个目标实例的第j个特征,同时也表示矩阵T的第(i,j)个元素;令目标数据的输出为Y=(y1,y2,...,yr)T,其中,为ti的输出,且由输出空间得到;同样地,源域数据的矩阵表示为S=(s1,s2,...,sq)T,由分布ps(s)得到;令源域的输出为V=(v1,v2,...,vr)T,si的输出为vi∈Λ,从输出空间Λ得到;步骤二、关系数据迁移界限公式的推导过程:在独立同分布数据迁移界限研究的基础上,针对关系数据提出了散度度量以及领域间的距离概念,通过将源域和目标域的样本融合起来使得最终得到的迁移界限是一个泛化能力很强的通用上界;具体为:一)、利用有限样本估算领域间的近似距离利用已获取的有标签的样本,求出一个经验散度距离,建立经验散度距离与理论散度距离的关系,求得两个域之间的近似距离;设由抽象假设空间A泛化出的假设类是对称的,即对于其相反的假设1-h也在中,U1,U2的样本大小均为m,和分别表示由抽象假设空间A泛化出的假设类和中的分类器,则根据散度的定义有:其中,表示当x∈U2时二分类器为1;同理,表示当x∈U1时二分类器为1;将二者转化到同一个空间下,即由同一个抽象假设空间泛化得到,这样两者才能利用同一个假设类中的分类函数进行分类,然后才能对分类结果做相应的比较,从而得到两者之间的距离;由上述可知,若两个样本利用同一个假设类中的分类假设进行分类,则有:其中,δ1表示转到相同的假设空间后样本U1中被分为0的样例数与原空间下被分为0的样例数的差值,δ2表示转到相同的假设空间后样本U1中被分为1的样例数与原空间下被分为1的样例数的差值;同理,δ3和δ4分别表示转到相同的假设空间后样本U2的0和1分类的相对应的差值;因此,式(3)可以转化为:所以,经过推导可得两个领域间的经验散度距离为:二)、确定领域间近似距离与理论距离间的差距利用有限样本得到的两个域的距离只是散度理论距离的近似,建立经验散度距离和理论散度距离间的不等式以表示二者的差距,见式(7);在非独立同分布数据中,令由A泛化得来的抽象假设类和VC维分别为和U1和U2分别为基于分布D1和D2的两个样本,其大小分别为m1和m2,是样本之间的经验散度,取M=min{m1,m2},则根据推导,对于任意的θ1∈(0,1),式(3-7)成立的概率至少是1-θ1,推导如下:(令)令且设经过化简和变换则有:三)、求近似距离时所用的异构转同构算法将两个用不同的假设类中的假设进行分类的领域转化到同一个空间下,利用由同一个抽象假设空间泛化得到,从而两者能利用同一个假设类中的分类函数进行分类对分类结果进行比较;这样,问题就转化为寻找源域和目标域的一个共同的特征子空间,最佳映射空间定义为:其中,MT,MS分别为T和S的映射矩阵,l(,)是一个损失函数,用来评价映射矩阵和源矩阵的差距;两个映射矩阵数据集的差别用D(MT,MS)表示;γ作为调节参数来控制变换使两个数据集更接近;将两个领域转化到同一空间下后必定会有一定的损失,因此损失函数的确定是解决问题的关键,考虑到T和S为关系数据,在映射过程中希望能保留各领域的同一个数据块中的数据依然能在同一个块中,因此损失函数被定义为:l(MT,T)=α·||T-MTPT||2+(1-α)·||BT-MTPTB||2+β·||BTdT-MTPTd||2+(1-β)·||BT-MTPTB||2l(MS,S)=α·||S-MSPS||2+(1-α本文档来自技高网...

【技术保护点】
1.一种舆情数据角色识别中异构关系数据的迁移学习界限的确定方法,其特征在于,所述方法的实现过程为:首先定义度量两个异构领域间差异的

【技术特征摘要】
1.一种舆情数据角色识别中异构关系数据的迁移学习界限的确定方法,其特征在于,所述方法的实现过程为:首先定义度量两个异构领域间差异的散度,用散度来度量两个领域间的距离,然后利用两个领域的有限样本和异构数据转同构算法给出域间经验距离,并且求出经验距离与理论距离之间的差距;为求出目标域的分类误差,则需要考察两个不同的分类器分别在源域和目标域上的表现,然后利用三角不等式和已求得的差距尾项即可得到目标域的分类误差界限;最后,扩展已有的界限,将源域和目标域的样本融合起来进行学习之后对目标域进行分类,得到泛化的目标域分类误差界限。2.根据权利要求1所述的一种舆情数据角色识别中异构关系数据的迁移学习界限的确定方法,其特征在于,所述的具体实现过程为:步骤一、给出如下基本定义:定义1领域,一个领域由两部分组成:输入空间χ上的分布D和标签函数数数f:χ→{0,1};则源域和目标域分别表示为<DS,fS>和<DT,fT>;定义2假设,一个假设表示为函数h:χ→{0,1};给定分布D,假设h,又称分类函数,与标签函数f之间的分类差异,即误差为:ε(h,f)=Ex~D[|h(x)-f(x)|];定义3抽象假设空间和假设类,设抽象假设空间的集合为每一个抽象假设空间均可泛化为若干个假设类每一个假设类对应一个领域,同时又是该领域多个分类函数h的集合;那么,由A泛化出的对应于分布D的假设类可表示为定义4散度,I(h)为使假设函数h(x)=1的x的集合,即设两个领域的概率分布D1和D2,定义散度为:定义5理想联合假设空间,理想联合假设空间是一个假定的空间,其泛化到源域和目标域的假设类的分类函数能够将源域和目标域的误差联合起来达到最小值:则,联合误差可表示为定义6异构特征空间,令目标域样本的特征矩阵为T=(t1,t2,...,tr)T,其中,是列向量,ti~pt(t)由分布pt(t)得到;从矩阵的角度来看,使用T(i,j)或者[T]i,j表示第i个目标实例的第j个特征,同时也表示矩阵T的第(i,j)个元素;令目标数据的输出为Y=(y1,y2,...,yr)T,其中,yi∈γ为ti的输出,且由输出空间γ得到;同样地,源域数据的矩阵表示为S=(s1,s2,...,sq)T,由分布ps(s)得到;令源域的输出为V=(v1,v2,...,vr)T,si的输出为vi∈Λ,从输出空间Λ得到;步骤二、关系数据迁移界限公式的推导过程:在独立同分布数据迁移界限研究的基础上,针对关系数据提出了散度度量以及领域间的距离概念,通过将源域和目标域的样本融合起来使得最终得到的迁移界限是一个泛化能力很强的通用上界;具体为:一)、利用有限样本估算领域间的近似距离利用已获取的有标签的样本,求出一个经验散度距离,建立经验散度距离与理论散度距离的关系,求得两个域之间的近似距离;设由抽象假设空间A泛化出的假设类是对称的,即对于其相反的假设1-h也在中,U1,U2的样本大小均为m,和分别表示由抽象假设空间A泛化出的假设类和中的分类器,则根据散度的定义有:其中,表示当x∈U2时二分类器为1;同理,表示当x∈U1时二分类器为1;将二者转化到同一个空间下,即由同一个抽象假设空间泛化得到,这样两者才能利用同一个假设类中的分类函数进行分类,然后才能对分类结果做相应的比较,从而得到两者之间的距离;由上述可知,若两个样本利用同一个假设类中的分类假设进行分类,则有:其中,δ1表示转到相同的假设空间后样本U1中被分为0的样例数与原空间下被分为0的样例数的差值,δ2表示转到相同的假设空间后样本U1中被分为1的样例数与原空间下被分为1的样例数的差值;同理,δ3和δ4分别表示转到相同的假设空间后样本U2的0和1分类的相对应的差值;因此,式(3)可以转化为:所以,经过推导可得两个领域间的经验散度距离为:二)、确定领域间近似距离与理论距离间的差距利用有限样本得到的两个域的距离只是散度理论距离的近似,建立经验散度距离和理论散度距离间的不等式以表示二者的差距,见式(7);在非独立同分布数据中,令由A泛化得来的抽象假设类和VC维分别为和U1和U2分别为基于分布D1和D2的两个样本,其大小分别为m1和m2,是样本之间的经验散度,取M=min{m1,m2},则根据推导,对于任意的θ1∈(0,1),式(3-7)成立的概率至少是1-θ1,推导如下:令且设经过化简和变换则有:三)、求近似距离时所用的异构转同构算法将两个用不同的假设类中的假设进行分类的领域转化到同一个空间下,利用由同一个抽象假设空间泛化得到,从而两者能利用同一个假设类中的分类函数进行分类对分类结果进行比较;这样,问题就转化为寻找源域和目标域的一个共同的特征子空间,最佳映射空间定义为:其中,MT,MS分别为T和S的映射矩阵,l(,)是一个损失函数,用来评价映射矩阵和源矩阵的差距;两个映射矩阵数据集的差别用D(MT,MS)表示;γ作为调节参数来控制变换使两个数据集更接近;将两个领域转化到同一空间下后必定会有一定的损失,因此损失函数的确定是解决问题的关键,考虑到T和S为关系数据,在映射过程中希望能保留各领域的同一个数据块...

【专利技术属性】
技术研发人员:何慧张伟哲方滨兴邰煜赵蕾杨洪伟
申请(专利权)人:哈尔滨工业大学
类型:发明
国别省市:黑龙江,23

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1