一种基于概率分布自适应的实体关系分类方法技术

技术编号：24035771 阅读：42 留言：0更新日期：2020-05-07 01:51

本发明专利技术公开了一种基于概率分布自适应的实体关系分类方法，首先获取源域数据和目标域数据，训练两个领域数据的字向量特征和实体词的位置特征；接着经过深度神经网络模型的前向传播计算，得到两个领域数据的高级特征表示；接下来计算领域数据高级特征表示之间边缘概率分布差异和条件概率分布差异；然后计算两种概率分布之间的A‑distance，赋予两种概率分布差异不同的学习权重，并在训练过程中自动更新权重；再经过损失函数计算，并结合概率分布差异的损失，反向传播更新网络参数，最终训练得到分类模型进行分类测试。本发明专利技术通过降低不同领域数据之间的分布差异达到领域适应，利用源域的大量数据提升目标域分类效果。

A method of entity relationship classification based on adaptive probability distribution

全部详细技术资料下载

【技术实现步骤摘要】
一种基于概率分布自适应的实体关系分类方法
本专利技术涉及机器学习与自然语言处理
，具体涉及一种基于概率分布自适应的实体关系分类方法。
技术介绍
近年来随着互联网技术的蓬勃发展，尤其是移动网络设备的普及，全球互联网用户数量超过了40亿，产生的数据量呈现几何级增长。网络中的信息有不同的组织形式，而非结构化或半结构化的文本是最常见的信息载体。信息抽取技术是指从结构化程度不同的文本数据中提取符合特定需求的信息，在海量文本信息处理和知识库构建中扮演了重要角色。实体关系抽取任务，则是为了抽取文本中两个实体之间的关系，是信息抽取研究中的一个重要任务。在知识库和知识图谱构建过程中，实体间关系的抽取效果直接影响了知识库的易用性和准确性，因此成为近年来的研究热点。现有的关系抽取机器学习方法，大多以有监督学习方法为主，将关系抽取任务当作分类问题，根据训练数据设计有效的特征，从而学习各种分类模型，然后使用训练好的分类器预测关系。但是基于有监督的机器学习的关系抽取方法需要以大量有标签的训练数据为前提，这带来了大量的人力和时间上的花费。为了缓解训练数据缺乏的困扰，迁移学习方法应运而生，并逐渐成为研究热点。在面对特定领域如地理领域的数据量不足问题时，通过迁移学习的方法，可以使用其他领域学习到的知识，通过领域适应的调整，应用到本领域的学习中，并提升本领域的关系抽取等任务的效果。本申请专利技术人在实施本专利技术的过程中，发现现有技术的方法，至少存在如下技术问题：目前较多的实体关系抽取研究多应用在英文公开语料库中，并且不同

【技术保护点】
1.一种基于概率分布自适应的实体关系分类方法，其特征在于，包括：/n步骤S1：将获取的有类别标记的数据作为源域数据，获取的待进行实体关系分类的领域标注数据作为目标域数据，并训练获得源域数据字向量特征和实体词的位置特征、目标域数据的字向量特征和实体词的位置特征；/n步骤S2：将源域数据的字向量特征和实体词的位置特征通过预设深度神经网络模型的前向传播计算，得到源域数据的高级特征表示，将目标域数据的字向量特征和实体词的位置特征通过预设深度神经网络模型的前向传播计算，得到目标域数据的高级特征表示；/n步骤S3：计算源域数据高级特征表示与目标域数据高级特征表示之间的最大均值差异，作为边缘概率分布差异，计算源域数据高级特征表示与目标域数据高级特征表示之间的条件概率分布的最大均值差异，作为关系分类的条件概率分布差异；/n步骤S4：计算源域数据边缘概率分布和目标域数据边缘概率分布之间的第一距离、源域数据条件概率分布和目标域数据条件概率分布之间的第二距离，并根据计算出的第一距离和第二距离，对边缘概率分布差异和条件概率分布差异分配相应的权重，得到概率分布差异的损失函数；/n步骤S5：将源域数据和目标域数据...

【技术特征摘要】
1.一种基于概率分布自适应的实体关系分类方法，其特征在于，包括：
步骤S1：将获取的有类别标记的数据作为源域数据，获取的待进行实体关系分类的领域标注数据作为目标域数据，并训练获得源域数据字向量特征和实体词的位置特征、目标域数据的字向量特征和实体词的位置特征；
步骤S2：将源域数据的字向量特征和实体词的位置特征通过预设深度神经网络模型的前向传播计算，得到源域数据的高级特征表示，将目标域数据的字向量特征和实体词的位置特征通过预设深度神经网络模型的前向传播计算，得到目标域数据的高级特征表示；
步骤S3：计算源域数据高级特征表示与目标域数据高级特征表示之间的最大均值差异，作为边缘概率分布差异，计算源域数据高级特征表示与目标域数据高级特征表示之间的条件概率分布的最大均值差异，作为关系分类的条件概率分布差异；
步骤S4：计算源域数据边缘概率分布和目标域数据边缘概率分布之间的第一距离、源域数据条件概率分布和目标域数据条件概率分布之间的第二距离，并根据计算出的第一距离和第二距离，对边缘概率分布差异和条件概率分布差异分配相应的权重，得到概率分布差异的损失函数；
步骤S5：将源域数据和目标域数据通过预设领域关系类型的损失函数和概率分布差异的损失函数的计算，反向传播更新网络参数，得到分类模型；
步骤S6：利用分类模型对待处理的数据进行实体关系分类。

2.如权利要求1所述的方法，其特征在于，步骤S1具体包括：
步骤S1.1：获取ACE05关系抽取数据集中的中文数据子集，将其作为源域数据DS，获取目标域的预设量数据，并进行标注，作为目标域数据DT；
步骤S1.2：通过训练好的word2vec工具计算源域数据和目标域数据的字向量特征，对于源域数据和目标域数据中的实体词，通过计算实体词与每个文本字符的字符距离，构建源域数据和目标域数据包含的语句中实体词的位置特征向量。

3.如权利要求1所述的方法，其特征在于，预设深度神经网络模型为基于注意力机制的双向长短期记忆神经网络，步骤S2具体包括：
步骤S2.1：将得到的源域数据包含的语句中每个字的字向量组成的特征矩阵，并拼接实体词的位置特征向量，经过Bi-LSTM层的前向传播计算和注意力层的注意力计算，得到源域数据的高级特征表示；
步骤S2.2：将得到的目标域数据包含的语句中每个字的字向量组成的特征矩阵，并拼接实体词的位置特征向量，经过Bi-LSTM层的前向传播计算和注意力层的注意力计算，得到目标域的高级特征表示。

4.如权利要求1所述的方法，其特征在于，步骤S3具体包括：
步骤S3.1：根据公式(1)计算源域数据高级特征表示与目标域数据高级特征表示之间的最大均...

【专利技术属性】
技术研发人员：熊盛武，陈振东，段鹏飞，刁月月，
申请(专利权)人：武汉理工大学，武汉水象电子科技有限公司，
类型：发明
国别省市：湖北;42

全部详细技术资料下载我是这个专利的主人