一种基于概率分布自适应的实体关系分类方法技术

技术编号:24035771 阅读:42 留言:0更新日期:2020-05-07 01:51
本发明专利技术公开了一种基于概率分布自适应的实体关系分类方法,首先获取源域数据和目标域数据,训练两个领域数据的字向量特征和实体词的位置特征;接着经过深度神经网络模型的前向传播计算,得到两个领域数据的高级特征表示;接下来计算领域数据高级特征表示之间边缘概率分布差异和条件概率分布差异;然后计算两种概率分布之间的A‑distance,赋予两种概率分布差异不同的学习权重,并在训练过程中自动更新权重;再经过损失函数计算,并结合概率分布差异的损失,反向传播更新网络参数,最终训练得到分类模型进行分类测试。本发明专利技术通过降低不同领域数据之间的分布差异达到领域适应,利用源域的大量数据提升目标域分类效果。

A method of entity relationship classification based on adaptive probability distribution

【技术实现步骤摘要】
一种基于概率分布自适应的实体关系分类方法
本专利技术涉及机器学习与自然语言处理
,具体涉及一种基于概率分布自适应的实体关系分类方法。
技术介绍
近年来随着互联网技术的蓬勃发展,尤其是移动网络设备的普及,全球互联网用户数量超过了40亿,产生的数据量呈现几何级增长。网络中的信息有不同的组织形式,而非结构化或半结构化的文本是最常见的信息载体。信息抽取技术是指从结构化程度不同的文本数据中提取符合特定需求的信息,在海量文本信息处理和知识库构建中扮演了重要角色。实体关系抽取任务,则是为了抽取文本中两个实体之间的关系,是信息抽取研究中的一个重要任务。在知识库和知识图谱构建过程中,实体间关系的抽取效果直接影响了知识库的易用性和准确性,因此成为近年来的研究热点。现有的关系抽取机器学习方法,大多以有监督学习方法为主,将关系抽取任务当作分类问题,根据训练数据设计有效的特征,从而学习各种分类模型,然后使用训练好的分类器预测关系。但是基于有监督的机器学习的关系抽取方法需要以大量有标签的训练数据为前提,这带来了大量的人力和时间上的花费。为了缓解训练数据缺乏的困扰,迁移学习方法应运而生,并逐渐成为研究热点。在面对特定领域如地理领域的数据量不足问题时,通过迁移学习的方法,可以使用其他领域学习到的知识,通过领域适应的调整,应用到本领域的学习中,并提升本领域的关系抽取等任务的效果。本申请专利技术人在实施本专利技术的过程中,发现现有技术的方法,至少存在如下技术问题:目前较多的实体关系抽取研究多应用在英文公开语料库中,并且不同领域的关系类型不同不可通用,而中文关系提取需要更多的自然语言处理任务的支持,如分词和命名实体识别等,相比英文更为复杂,更容易产生误差,经过迭代运算会放大误差影响性能,过多的自然语言处理工作获取的特征不利于迁移学习提升目标任务的性能。目前较多的基于深度迁移学习方法的工作,大都围绕图像分类领域展开,但是在NLP领域,无法像图像信息一般直观地感受到不同领域之间的区别。由此可知,现有技术中的方法存在分类效果不佳的技术问题。
技术实现思路
有鉴于此,本专利技术提供了一种基于概率分布自适应的实体关系分类方法,用以解决或者至少部分解决现有技术中的方法存在的分类效果不佳的技术问题。为了解决上述技术问题,本专利技术提供了一种基于概率分布自适应的实体关系分类方法,包括:步骤S1:将获取的有类别标记的数据作为源域数据,获取的待进行实体关系分类的领域标注数据作为目标域数据,并训练获得源域数据字向量特征和实体词的位置特征、目标域数据的字向量特征和实体词的位置特征;步骤S2:将源域数据的字向量特征和实体词的位置特征通过预设深度神经网络模型的前向传播计算,得到源域数据的高级特征表示,将目标域数据的字向量特征和实体词的位置特征通过预设深度神经网络模型的前向传播计算,得到目标域数据的高级特征表示;步骤S3:计算源域数据高级特征表示与目标域数据高级特征表示之间的最大均值差异,作为边缘概率分布差异,计算源域数据高级特征表示与目标域数据高级特征表示之间的条件概率分布的最大均值差异,作为关系分类的条件概率分布差异;步骤S4:计算源域数据边缘概率分布和目标域数据边缘概率分布之间的第一距离、源域数据条件概率分布和目标域数据条件概率分布之间的第二距离,并根据计算出的第一距离和第二距离,对边缘概率分布差异和条件概率分布差异分配相应的权重,得到概率分布差异的损失函数;步骤S5:将源域数据和目标域数据通过预设领域关系类型的损失函数和概率分布差异的损失函数的计算,反向传播更新网络参数,得到分类模型;步骤S6:利用分类模型对待处理的数据进行实体关系分类。在一种实施方式中,步骤S1具体包括:步骤S1.1:获取ACE05关系抽取数据集中的中文数据子集,将其作为源域数据DS,获取目标域的预设量数据,并进行标注,作为目标域数据DT;步骤S1.2:通过训练好的word2vec工具计算源域数据和目标域数据的字向量特征,对于源域数据和目标域数据中的实体词,通过计算实体词与每个文本字符的字符距离,构建源域数据和目标域数据包含的语句中实体词的位置特征向量。在一种实施方式中,预设深度神经网络模型为基于注意力机制的双向长短期记忆神经网络,步骤S2具体包括:步骤S2.1:将得到的源域数据包含的语句中每个字的字向量组成的特征矩阵,并拼接实体词的位置特征向量,经过Bi-LSTM层的前向传播计算和注意力层的注意力计算,得到源域数据的高级特征表示;步骤S2.2:将得到的目标域数据包含的语句中每个字的字向量组成的特征矩阵,并拼接实体词的位置特征向量,经过Bi-LSTM层的前向传播计算和注意力层的注意力计算,得到目标域的高级特征表示。在一种实施方式中,步骤S3具体包括:步骤S3.1:根据公式(1)计算源域数据高级特征表示与目标域数据高级特征表示之间的最大均值差异,作为边缘概率分布差异:其中,RS、RT分别代表源域数据高级特征向量和目标域数据高级特征向量,m、n分别表示源域数据高级特征向量的总数、目标域数据高级特征向量的总数,分别表示目标域数据中第i个的高级特征向量和第j个高级特征向量,分别表示源域数据中第i个的高级特征向量和第j个高级特征向量;高斯核函数的形式为k(x,y)=exp(-||x-y||2/2σ2),其中x,y代表待计算的向量,σ为控制高斯核函数局部作用范围的带宽参数,高级特征向量为高级特征的表示形式;步骤S3.2:根据公式(1)计算源域数据高级特征表示与目标域数据高级特征表示之间的条件概率分布的最大均值差异,作为关系分类的条件概率分布差异:其中,c代表该类别对应的高级特征数据,nc、mc分别表示源域数据高级特征在第c类的向量的总数、目标域数据高级特征在第c类的向量的总数,分别表示目标域数据中在第c类的第i个的高级特征向量和第j个高级特征向量,分别表示源域数据中在第c类的第i个的高级特征向量和第j个高级特征向量。在一种实施方式中,步骤S4具体包括:步骤S4.1:根据公式(3)计算源域数据边缘概率分布和目标域数据边缘概率分布之间的第一距离:dP=dA(RS,RT)=2(1-2ε(h))(3)其中,RS表示源域数据高级特征向量,RT表示目标域数据高级特征向量,ε(h)线性分类器h区分源域数据和目标域数据高级特征向量之间的误差;步骤S4.2:根据公式(4)计算源域数据条件概率分布和目标域数据条件概率分布之间的第二距离:其中,表示分类为第c类的源域数据的高级特征向量,表示表示分类为第c类的目标域数据的高级特征向量;步骤S4.3:根据第一距离和第二距离所占比例的大小分配边缘概率分布差异和条件概率分布差异的权重,得到概率分布差异的损失函数其中,表示边缘概率分布差异,表示条件概率分布差异,γ表示边缘概率分布差异自适应超参数,μ(c)表示条件概率分布差异的自适应超参数。...

【技术保护点】
1.一种基于概率分布自适应的实体关系分类方法,其特征在于,包括:/n步骤S1:将获取的有类别标记的数据作为源域数据,获取的待进行实体关系分类的领域标注数据作为目标域数据,并训练获得源域数据字向量特征和实体词的位置特征、目标域数据的字向量特征和实体词的位置特征;/n步骤S2:将源域数据的字向量特征和实体词的位置特征通过预设深度神经网络模型的前向传播计算,得到源域数据的高级特征表示,将目标域数据的字向量特征和实体词的位置特征通过预设深度神经网络模型的前向传播计算,得到目标域数据的高级特征表示;/n步骤S3:计算源域数据高级特征表示与目标域数据高级特征表示之间的最大均值差异,作为边缘概率分布差异,计算源域数据高级特征表示与目标域数据高级特征表示之间的条件概率分布的最大均值差异,作为关系分类的条件概率分布差异;/n步骤S4:计算源域数据边缘概率分布和目标域数据边缘概率分布之间的第一距离、源域数据条件概率分布和目标域数据条件概率分布之间的第二距离,并根据计算出的第一距离和第二距离,对边缘概率分布差异和条件概率分布差异分配相应的权重,得到概率分布差异的损失函数;/n步骤S5:将源域数据和目标域数据通过预设领域关系类型的损失函数和概率分布差异的损失函数的计算,反向传播更新网络参数,得到分类模型;/n步骤S6:利用分类模型对待处理的数据进行实体关系分类。/n...

【技术特征摘要】
1.一种基于概率分布自适应的实体关系分类方法,其特征在于,包括:
步骤S1:将获取的有类别标记的数据作为源域数据,获取的待进行实体关系分类的领域标注数据作为目标域数据,并训练获得源域数据字向量特征和实体词的位置特征、目标域数据的字向量特征和实体词的位置特征;
步骤S2:将源域数据的字向量特征和实体词的位置特征通过预设深度神经网络模型的前向传播计算,得到源域数据的高级特征表示,将目标域数据的字向量特征和实体词的位置特征通过预设深度神经网络模型的前向传播计算,得到目标域数据的高级特征表示;
步骤S3:计算源域数据高级特征表示与目标域数据高级特征表示之间的最大均值差异,作为边缘概率分布差异,计算源域数据高级特征表示与目标域数据高级特征表示之间的条件概率分布的最大均值差异,作为关系分类的条件概率分布差异;
步骤S4:计算源域数据边缘概率分布和目标域数据边缘概率分布之间的第一距离、源域数据条件概率分布和目标域数据条件概率分布之间的第二距离,并根据计算出的第一距离和第二距离,对边缘概率分布差异和条件概率分布差异分配相应的权重,得到概率分布差异的损失函数;
步骤S5:将源域数据和目标域数据通过预设领域关系类型的损失函数和概率分布差异的损失函数的计算,反向传播更新网络参数,得到分类模型;
步骤S6:利用分类模型对待处理的数据进行实体关系分类。


2.如权利要求1所述的方法,其特征在于,步骤S1具体包括:
步骤S1.1:获取ACE05关系抽取数据集中的中文数据子集,将其作为源域数据DS,获取目标域的预设量数据,并进行标注,作为目标域数据DT;
步骤S1.2:通过训练好的word2vec工具计算源域数据和目标域数据的字向量特征,对于源域数据和目标域数据中的实体词,通过计算实体词与每个文本字符的字符距离,构建源域数据和目标域数据包含的语句中实体词的位置特征向量。


3.如权利要求1所述的方法,其特征在于,预设深度神经网络模型为基于注意力机制的双向长短期记忆神经网络,步骤S2具体包括:
步骤S2.1:将得到的源域数据包含的语句中每个字的字向量组成的特征矩阵,并拼接实体词的位置特征向量,经过Bi-LSTM层的前向传播计算和注意力层的注意力计算,得到源域数据的高级特征表示;
步骤S2.2:将得到的目标域数据包含的语句中每个字的字向量组成的特征矩阵,并拼接实体词的位置特征向量,经过Bi-LSTM层的前向传播计算和注意力层的注意力计算,得到目标域的高级特征表示。


4.如权利要求1所述的方法,其特征在于,步骤S3具体包括:
步骤S3.1:根据公式(1)计算源域数据高级特征表示与目标域数据高级特征表示之间的最大均...

【专利技术属性】
技术研发人员:熊盛武陈振东段鹏飞刁月月
申请(专利权)人:武汉理工大学武汉水象电子科技有限公司
类型:发明
国别省市:湖北;42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1