【技术实现步骤摘要】
一种基于PGAT和FTATT的远程监督关系抽取方法
本专利技术涉及远程监督关系抽取
,具体涉及一种基于PGAT(PiecewiseGraphAttentionNetwork,分段图注意力网络)和FTATT(Fine-tuningAttentionMechanism,微调注意力机制)的远程监督关系抽取方法。
技术介绍
知识图谱近些年在医疗领域应用广泛,根据患者症状从医疗知识图谱中匹配症状的实体,实体之间以关系作为边相连接,例如药物治疗、注意事项、相关症状等关系,可以深层次地挖掘患者症状所对应的疾病以及相应的治疗措施。例如,一名患者存在运动迟缓、动作变慢、痉挛、乏力、痴呆、抑郁症等症状及体征,在医疗知识图谱中,这些症状实体对应的疾病实体正是帕金森病。图谱中由(实体,关系,实体)构成实体关系三元组,例如(帕金森病,药物治疗,恩他卡朋)和(恩他卡朋,注意事项,不可突然停用本品)。根据三元组及患者症状,可以挖掘出该患者可能身患帕金森病,需要使用恩他卡朋进行药物治疗,并叮嘱该患者不能随意停用药物,需要缓慢减量停药。关系抽取 ...
【技术保护点】
1.一种基于PGAT和FTATT的远程监督关系抽取方法,其特征在于,包括以下步骤:/n步骤1:获取NYT数据集,根据远程监督关系抽取条件假设,将NYT数据集中包含相同实体对的句子划分在一个包中;/n步骤2:获取每个包中句子的词语向量表示;/n步骤3:根据词语向量表示,抽取包中每个句子的特征向量表示;/n步骤3-1:基于Bi-LSTM抽取句子的序列特征,将句子的词语向量表示w送入Bi-LSTM网络,获取句子的序列特征;/n步骤3-2:融合句子的序列特征,基于分段图注意力网络PGAT抽取句子的句法结构特征;/n步骤4:采用微调注意力机制FTATT对同一包中的不同句子分配权重;/ ...
【技术特征摘要】
1.一种基于PGAT和FTATT的远程监督关系抽取方法,其特征在于,包括以下步骤:
步骤1:获取NYT数据集,根据远程监督关系抽取条件假设,将NYT数据集中包含相同实体对的句子划分在一个包中;
步骤2:获取每个包中句子的词语向量表示;
步骤3:根据词语向量表示,抽取包中每个句子的特征向量表示;
步骤3-1:基于Bi-LSTM抽取句子的序列特征,将句子的词语向量表示w送入Bi-LSTM网络,获取句子的序列特征;
步骤3-2:融合句子的序列特征,基于分段图注意力网络PGAT抽取句子的句法结构特征;
步骤4:采用微调注意力机制FTATT对同一包中的不同句子分配权重;
步骤4-1:利用注意力机制ATT求出各包中不同句子的初始的权重系数;
步骤4-2:对初始的权重系数进行微调,得到新的权重系数;
步骤5:将包中各句子的特征向量与句子的权重系数加权求和,获得该包的特征向量;
步骤6:根据包的特征向量,对包中实体对进行关系分类。
2.根据权利要求1所述的基于PGAT和FTATT的远程监督关系抽取方法,其特征在于,所述步骤2中所述词语向量表示的获取方法为:
通过Word2vec模型获取句子中词语的词嵌入;
将从当前单词到实体对中两个实体的相对距离的组合作为当前单词的位置嵌入;
将词嵌入和位置嵌入结合,作为当前词的词语向量表示。
3.根据权利要求1所述的基于PGAT和FTATT的远程监督关系抽取方法,其特征在于,所述步骤3-2包括以下步骤:
步骤3-2-1:对输入的句子进行句法依存分析,得到该句子中词与词之间具有依存关系的依存句法树;
步骤3-2-2:根据句子中标注的实体,将依存句法树截为三段:实体之间的最短依存路径树及两个实体各自的子树;
步骤3-2-3:将步骤3-2-2得到的三段依存句法树分别用依存矩阵表示,其中依存矩阵主对角线上的值均为1,除此之外,句子中的词与该词以外的其他词在树结构上有依存关系的,在依存矩阵上对应的值记为1,否则记为0;
步骤3-2-4:将三段依存句法树的依存矩阵分别送入图注意力网络,抽取句子的句法结构特征,分别得到实体最短依存路径特征向量和两个实体子树特征向量;
步骤3-2-5:将三...
【专利技术属性】
技术研发人员:于亚新,包健,王亚龙,吴晓露,乔勇鹏,刘树越,
申请(专利权)人:东北大学,
类型:发明
国别省市:辽宁;21
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。