一种关注关联词的实体关系抽取方法技术

技术编号：22022349 阅读：30 留言：0更新日期：2019-09-04 01:18

本发明专利技术公开了一种关注关联词的实体关系抽取方法，所述关注关联词的实体关系抽取方法，包括以下步骤：S1，输入已标签文本和待测文本，进行文本分词，获取每个词语映射的对应的实值向量；S2，将所有词语对应的实值向量两两组合，获取二元组合特征向量，计算二元组合特征向量与关系标签的权重向量，获取句子的二元词组特征；S3，将实值向量输入到神经网络层中，获取文本的语义结构和特征向量表示；S4，将步骤2输出的二元词组特征与步骤3输出的语义特征串联作为最终文本句子的表示，然后将最终文本句子的表示输入至句子级别的关注层，获得句子对于不同关系类型的权重，得到最后的关系分类结果输出。

An Entity Relation Extraction Method Concerning Associative Words

全部详细技术资料下载

【技术实现步骤摘要】
一种关注关联词的实体关系抽取方法
本专利技术涉及深度学习与自然语言处理领域，具体涉及一种关注关联词的实体关系抽取方法。
技术介绍
实体关系抽取是信息抽取领域的热点问题，其主要任务是在实体识别的基础上，在无结构的文本中进行实体关系抽取，实现实体关系的结构化存储与利用。该技术打破了人工阅读理解文本语义及获取关系的限制，在面对大量文本信息处理时具有速度优势，可应用于众多自然语言处理应用领域。例如，通过实体关系抽取，可以辅助知识图谱或者本体知识库的构建；也可以为自动问答系统提供支持。从研究上看，该技术还可以提供理论支持，对目前语义网络标注，篇章理解，机器翻译方面都有着重要意义。目前，基于机器学习方法的关系实体抽取技术主要分为有监督的学习方法、无监督的学习方法和半监督学习方法三种。有监督学习方法是最基本的关系抽取方法，他的思想主要是将已标记的训练数据用来训练关系抽取模型，然后就用这个模型实现数据中实体具备的关系类型进行预测。半监督的学习方法主要采用Bootstrapping进行关系抽取和充分利用现有的freebase进行的远程监督关系抽取。无监督的学习方法通过对所有实体对的语义关系进行聚类，并在此基础上实现关系的识别。中文文本语言特点复杂，大多使用关联词来进一步增强语义信息，而关联词更多倾向于使用两个词语来共同表示实体之间存在的语义关联，例如“因为”和“所以”表示因果关系；但现有的实体抽取方法并未关注关联词对实体提取的影响，难以适应于语言特点复杂的中文文本，实体抽取的准确率不高。例如申请公布号为CN106202044A的专利技术专利申请公开了一种基于深度神经网络的实...

【技术保护点】
1.一种关注关联词的实体关系抽取方法，其特征在于，包括以下步骤：S1：输入已标签文本和待测文本，进行文本分词，获取每个词语映射的对应的实值向量；S2：将所有词语对应的实值向量两两组合，获取二元组合特征向量，计算二元组合特征向量与关系标签的权重向量，获取句子的二元词组特征；S3：将实值向量输入到神经网络层中，获取文本的语义结构和特征向量表示；S4：将步骤2输出的二元词组特征与步骤3输出的语义特征串联作为最终文本句子的表示，然后将最终文本句子的表示输入至句子级别的关注层，获得句子对于不同关系类型的权重，输出最后的关系分类结果。

【技术特征摘要】
1.一种关注关联词的实体关系抽取方法，其特征在于，包括以下步骤：S1：输入已标签文本和待测文本，进行文本分词，获取每个词语映射的对应的实值向量；S2：将所有词语对应的实值向量两两组合，获取二元组合特征向量，计算二元组合特征向量与关系标签的权重向量，获取句子的二元词组特征；S3：将实值向量输入到神经网络层中，获取文本的语义结构和特征向量表示；S4：将步骤2输出的二元词组特征与步骤3输出的语义特征串联作为最终文本句子的表示，然后将最终文本句子的表示输入至句子级别的关注层，获得句子对于不同关系类型的权重，输出最后的关系分类结果。2.根据权利要求1所述的关注关联词的实体关系抽取方法，其特征在于，所述步骤S1具体包括以下步骤：S11：输入已标签文本和待测文本，文本分词，获取词向量；S12：获取词语相对于句中特征实体对的相对位置的表示向量；S13：拼接词向量和两个相对位置的表示向量，得到句子的实值向量。3.根据权利要求1所述的关注关联词的实体关系抽取方法，其特征在于，所述步骤S2具体包括以下步骤：S21：两个词语对应的实值向量组合获取二元组合特征向量，通过将所有词语对应的实值向量两两组合，得到一个特征矩阵X，即特征矩阵X维度为(n2，d)，Xi为特征矩阵的第i个维度；S22：训练词级注意力矩阵，并采用训练完成的词级注意力矩阵重点关注可能存在的影响关系分类的二元词组向量，计算二元组合特征向量与关系标签的相关性。4.根据权利要求3所述的关注关联词的实体关系抽取方法，其特征在于，所述步骤S22具体包括以下步骤：S221：定义词级注意力矩阵的维度，计算已标签文本的二元组合特征向量与各个关系标签的权重向量αi，然后通过比较权重向量与文本的真实值，采用机器学习的方式自动通过梯度下降的方式学习调节词级注意力矩阵的参数，得到训练完成的词级注意力矩阵；S222：通过训练完成的词级注...

【专利技术属性】
技术研发人员：钟将，袁红阳，李青，
申请(专利权)人：重庆大学，
类型：发明
国别省市：重庆,50

全部详细技术资料下载我是这个专利的主人