【技术实现步骤摘要】
一种基于图同构网络的谓词抽取方法
[0001]本专利技术涉及信息抽取领域,具体来讲是一种基于图同构网络的谓词抽取方法。
技术介绍
[0002]信息抽取,即从自然语言文本中,抽取出特定的事实或事实信息,帮助我们将海量内容自动分类、提取和重构。这些信息通常包括实体、关系、事件等等。比如从新闻信息中抽取时间、地点、人物等信息,从病例数据中抽取患者症状、用药情况、疾病等信息。与其他自然语言任务相比,信息抽取任务更具有目的性,并能将抽取到的信息以指定的结构展现出现,从而达到从自然语言中提取用户感兴趣的事实信息的目的,在知识图谱领域中有着广泛的应用。
[0003]三元组抽取事一种经典的信息抽取任务,常见的三元组抽取结果可以用SPO三结构的三元组来表示,即Subject、Predication和Object。例如从文本“胡歌出演了《仙剑奇侠传》”中,可以提取出一个SPO三元组(“胡歌”,“出演”,“仙剑奇侠传”)。
[0004]在三元组抽取中,如何抽取出谓词是一个非常重要的问题。过去常用的谓词抽取方法有人工模板方法、统计生成方法和基于依存的方法。其中,人工模板和统计生成方法都将三元组抽取视为一个整体任务,通过制定模板来匹配文本中存在的三元组。人工模板方法的基本出发点是通过大量人工的统计和总结模式信息,由领域专家定义寻找谓词在上下文中表达的字符、语法特征等,将其作为一种模式与文本进行匹配,最后获取想要的三元组结果。为了减少人们的工作量,统计生成的方法被提出,该方法主要基于搜索引擎进行模板的生成工作,具体来说,该方法将
【技术保护点】
【技术特征摘要】
1.一种基于图同构网络的谓词抽取方法,其特征在于包括如下步骤:步骤(1)使用DDParser工具对输入句子进行解析,得到分词结果、词性和句法依存树信息;步骤(2)根据词性对分词中专有词进行泛化处理,得到泛化处理后输入句子对应的泛化词序列;对Bert模型的词嵌入部分进行微调,在词嵌入部分加入词性信息的编码;将泛化词序列及步骤(1)中的词性信息作为微调后的Bert模型的输入,输出隐藏向量集合;步骤(3)遍历步骤(1)中句法依存树信息中任意一棵子树,把这棵子树中每条边的信息转换为边向量,然后再将这棵子树的信息以及步骤(2)的隐藏向量集合输入到GIN网络中,获得节点嵌入向量,对节点嵌入向量做池化处理,得到子树的表征向量;步骤(4)利用步骤(3)中子树的表征向量和步骤(2)中的每一个隐藏向量计算注意力权重,再将这个注意力权重与步骤(3)中每个节点嵌入向量相乘,得到最终节点嵌入向量集合;步骤(5)将步骤(4)中得到的带有语义信息的最终节点嵌入向量集合输入到一个二分类器中,得到一个二进制序列,序列中每一个二进制指示对应的词是否为谓词。2.根据权利要求1所述的一种基于图同构网络的谓词抽取方法,其特征在于所述步骤(1)具体实现过程如下:使用DDParser对文本句子进行解析,得到结果:X=(x1,x2,
…
,x
n
) (1)T(X)=(t1,t2,
…
,t
n
) (2)D(X)=Dependency_Parser(X) (3)其中,X表示分词后的序列,公式(1)中x1,x2,
…
,x
n
表示分词结果,公式(2)中t1,t2,
…
,t
n
对应于公式(1)中x1,x2,
…
,x
n
的词性标注结果,D(X)是句法依存树。3.根据权利要求2所述的一种基于图同构网络的谓词抽取方法,其特征在于所述步骤(2)具体实现过程如下:2
‑
1根据词性标注结果T(X)对原序列X进行泛处理,具体的规则内容如下:将词性标注结果为“LOC”、“f”、“s”、“<TIME>”、“<LOC>”、“<PER>”、“<ORG>”、“nw”、“nz”的词替换为“PN”标签,得到泛化词序列X':X'=(x'1,x'2,
…
,x'
n
) (4)其中,x'1,x'2,
…
,x'
n
表示泛化后的词汇;2
‑
2对Bert模型的embedding结构做微调,在原来embedding结构中加入了Postag Embedding层用以添加词性信息;对泛化词序列X'做词嵌入处理,将泛化词序列X'送入Token Embedding层从而将每一个词转换为向量形式,将泛化词序列X'送入Position Embedding层获取每个词的顺序特...
【专利技术属性】
技术研发人员:张旻,杨启胜,汤景凡,姜明,
申请(专利权)人:杭州电子科技大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。