一种基于图同构网络的谓词抽取方法技术

技术编号:33030479 阅读:19 留言:0更新日期:2022-04-15 09:06
本发明专利技术公开了一种基于图同构网络的谓词抽取方法。本发明专利技术使用了DDParser工具对文本句子进行解析,并利用句子解析后得到的词性结果对分词序列中的专用名词进行泛化。对Bert的嵌入部分做调整,加入对词性信息的编码,将泛化后的词序列输入到微调后的Bert模型中进行编码。使用GIN网络来获取依存树中每一个节点的嵌入向量以及依存子树的表征向量。再这之后通过一层注意力机制,将语义信息还有依存结构信息融合起来得到最终的节点嵌入向量。最后,本发明专利技术将最终的词嵌入向量集合输入到一个二分类器中,得到谓词结果。本发明专利技术使用了深度学习的方式学习句子的结构模板特征,大大减少了人们的工作量,有着较强的跨领域性和适应能力,有效提升了谓词抽取方法的准确性。有效提升了谓词抽取方法的准确性。有效提升了谓词抽取方法的准确性。

【技术实现步骤摘要】
一种基于图同构网络的谓词抽取方法


[0001]本专利技术涉及信息抽取领域,具体来讲是一种基于图同构网络的谓词抽取方法。

技术介绍

[0002]信息抽取,即从自然语言文本中,抽取出特定的事实或事实信息,帮助我们将海量内容自动分类、提取和重构。这些信息通常包括实体、关系、事件等等。比如从新闻信息中抽取时间、地点、人物等信息,从病例数据中抽取患者症状、用药情况、疾病等信息。与其他自然语言任务相比,信息抽取任务更具有目的性,并能将抽取到的信息以指定的结构展现出现,从而达到从自然语言中提取用户感兴趣的事实信息的目的,在知识图谱领域中有着广泛的应用。
[0003]三元组抽取事一种经典的信息抽取任务,常见的三元组抽取结果可以用SPO三结构的三元组来表示,即Subject、Predication和Object。例如从文本“胡歌出演了《仙剑奇侠传》”中,可以提取出一个SPO三元组(“胡歌”,“出演”,“仙剑奇侠传”)。
[0004]在三元组抽取中,如何抽取出谓词是一个非常重要的问题。过去常用的谓词抽取方法有人工模板方法、统计生成方法和基于依存的方法。其中,人工模板和统计生成方法都将三元组抽取视为一个整体任务,通过制定模板来匹配文本中存在的三元组。人工模板方法的基本出发点是通过大量人工的统计和总结模式信息,由领域专家定义寻找谓词在上下文中表达的字符、语法特征等,将其作为一种模式与文本进行匹配,最后获取想要的三元组结果。为了减少人们的工作量,统计生成的方法被提出,该方法主要基于搜索引擎进行模板的生成工作,具体来说,该方法将已知的三元组事实作为查询语句,通过搜索引擎返回的前n个结果文档并保留包含该三元组的句子集合,最后将包含三元组的最长字符串作为统计模板并保留置信度较高的模板用于三元组抽取。这两种方法具有较高的准确率,但是它们的适用性有限,难以移植。基于依存句法的方法则是将三元组抽取分成两个步骤,首先通过文本的词性、依存结构等信息抽取谓词,然后再以这个谓词作为出发点,利用句子中各个成分之间的联系和关系构建规则抽取主体和客体。该方法相对于人工模板和统计模板的方法具有更高的准确率,且适用于小规模的数据集,但是它同样存在着耗时耗力、难以维护等问题。

技术实现思路

[0005]在综合考量上述问题后,本专利技术针对现有技术存在的问题,提出一种基于图同构网络的谓词抽取方法。
[0006]本专利技术解决其技术问题所采用的技术方案包括如下步骤:
[0007]步骤(1)使用DDParser工具对输入句子进行解析,得到分词结果、词性和句法依存树信息;
[0008]步骤(2)根据词性和分词结果,对分词中专有词进行泛化处理。对Bert的词嵌入部分进行微调,加入对词性信息的编码。将泛化后的词序列及步骤(1)中的词性数据作为微调
后的Bert模型的输入,输出隐藏向量的集合;
[0009]步骤(3)遍历步骤(1)中的句法依存树中任意两个节点构成的子树,把这棵子树中每条边的信息转换为边向量,然后再将这棵子树的信息以及步骤(2)的隐藏向量输入到GIN网络中,获得节点嵌入向量,对节点嵌入向量做池化处理,得到子树的表征向量;
[0010]步骤(4)利用步骤(3)中的子树表征向量和步骤(2)中的每一个隐藏向量计算注意力权重,再将这个权重乘到步骤(3)中每个节点的嵌入向量中,得到最终的节点嵌入向量集合;
[0011]步骤(5)将步骤(4)中得到的带有语义信息的节点嵌入向量集合输入到一个二分类器中,得到一个二进制序列,序列中每一个二进制指示对应的词是否为谓词。
[0012]本专利技术有益效果如下:
[0013]本专利技术提出了一种基于图同构网络的谓词抽取方法。首先,本专利技术使用了DDParser工具对文本句子进行解析,并利用句子解析后得到的词性结果对分词序列中的专用名词进行泛化,以弱化一些无用语义信息对结果产生影响。于此同时,本专利技术对Bert的嵌入部分做了调整,加入了对词性信息的编码,将泛化后的词序列输入到微调后的Bert模型中进行编码。另外,为了强调原本句子中的依存结构信息,本专利技术使用了GIN网络来获取依存树中每一个节点的嵌入向量以及依存子树的表征向量。再这之后通过一层注意力机制,将语义信息还有依存结构信息融合起来得到最终的节点嵌入向量。最后,本专利技术将最终的词嵌入向量集合输入到一个二分类器中,得到谓词结果。对比现有的技术,本专利技术使用了深度学习的方式学习句子的结构模板特征,大大减少了人们的工作量,有着较强的跨领域性和适应能力,有效提升了谓词抽取方法的准确性。
附图说明
[0014]图1本专利技术的整体实施方案流程图
[0015]图2本专利技术的模型整体架构图
[0016]图3本专利技术的词嵌入构建图
[0017]图4本专利技术的注意力机制增强信息图
具体实施方式
[0018]下面结合附图对本专利技术作进一步描述。
[0019]如图1和2所示,一种基于图同构网络的谓词抽取方法,包括以下步骤:
[0020]一种基于图同构网络的谓词抽取方法,包括如下步骤:
[0021]步骤(1)使用DDParser工具对输入句子进行解析,得到分词结果、词性和句法依存树信息;
[0022]步骤(2)根据词性对分词中专有词进行泛化处理,得到泛化处理后输入句子对应的泛化词序列;对Bert模型的词嵌入部分进行微调,在词嵌入部分加入词性信息的编码;将泛化词序列及步骤(1)中的词性信息作为微调后的Bert模型的输入,输出隐藏向量集合;
[0023]步骤(3)遍历步骤(1)中句法依存树信息中任意一棵子树,把这棵子树中每条边的信息转换为边向量,然后再将这棵子树的信息以及步骤(2)的隐藏向量集合输入到GIN网络中,获得节点嵌入向量,对节点嵌入向量做池化处理,得到子树的表征向量;
[0024]步骤(4)利用步骤(3)中子树的表征向量和步骤(2)中的每一个隐藏向量计算注意力权重,再将这个注意力权重与步骤(3)中每个节点嵌入向量相乘,得到最终节点嵌入向量集合;
[0025]步骤(5)将步骤(4)中得到的带有语义信息的最终节点嵌入向量集合输入到一个二分类器中,得到一个二进制序列,序列中每一个二进制指示对应的词是否为谓词。
[0026]进一步的,所述步骤(1)具体实现过程如下:
[0027]使用DDParser对文本句子进行解析,得到结果:
[0028]X=(x1,x2,

,x
n
)
ꢀꢀꢀꢀ
(1)
[0029]T(X)=(t1,t2,

,t
n
)
ꢀꢀꢀ
(2)
[0030]D(X)=Dependency_Parser(X)
ꢀꢀꢀ
(3)
[0031]其中,X表示分词后的序列,公式(1)中x1,x2,

,x
n
表示分词结果,公式(2)中t1,t2,

,t
...

【技术保护点】

【技术特征摘要】
1.一种基于图同构网络的谓词抽取方法,其特征在于包括如下步骤:步骤(1)使用DDParser工具对输入句子进行解析,得到分词结果、词性和句法依存树信息;步骤(2)根据词性对分词中专有词进行泛化处理,得到泛化处理后输入句子对应的泛化词序列;对Bert模型的词嵌入部分进行微调,在词嵌入部分加入词性信息的编码;将泛化词序列及步骤(1)中的词性信息作为微调后的Bert模型的输入,输出隐藏向量集合;步骤(3)遍历步骤(1)中句法依存树信息中任意一棵子树,把这棵子树中每条边的信息转换为边向量,然后再将这棵子树的信息以及步骤(2)的隐藏向量集合输入到GIN网络中,获得节点嵌入向量,对节点嵌入向量做池化处理,得到子树的表征向量;步骤(4)利用步骤(3)中子树的表征向量和步骤(2)中的每一个隐藏向量计算注意力权重,再将这个注意力权重与步骤(3)中每个节点嵌入向量相乘,得到最终节点嵌入向量集合;步骤(5)将步骤(4)中得到的带有语义信息的最终节点嵌入向量集合输入到一个二分类器中,得到一个二进制序列,序列中每一个二进制指示对应的词是否为谓词。2.根据权利要求1所述的一种基于图同构网络的谓词抽取方法,其特征在于所述步骤(1)具体实现过程如下:使用DDParser对文本句子进行解析,得到结果:X=(x1,x2,

,x
n
) (1)T(X)=(t1,t2,

,t
n
) (2)D(X)=Dependency_Parser(X) (3)其中,X表示分词后的序列,公式(1)中x1,x2,

,x
n
表示分词结果,公式(2)中t1,t2,

,t
n
对应于公式(1)中x1,x2,

,x
n
的词性标注结果,D(X)是句法依存树。3.根据权利要求2所述的一种基于图同构网络的谓词抽取方法,其特征在于所述步骤(2)具体实现过程如下:2

1根据词性标注结果T(X)对原序列X进行泛处理,具体的规则内容如下:将词性标注结果为“LOC”、“f”、“s”、“<TIME>”、“<LOC>”、“<PER>”、“<ORG>”、“nw”、“nz”的词替换为“PN”标签,得到泛化词序列X':X'=(x'1,x'2,

,x'
n
) (4)其中,x'1,x'2,

,x'
n
表示泛化后的词汇;2

2对Bert模型的embedding结构做微调,在原来embedding结构中加入了Postag Embedding层用以添加词性信息;对泛化词序列X'做词嵌入处理,将泛化词序列X'送入Token Embedding层从而将每一个词转换为向量形式,将泛化词序列X'送入Position Embedding层获取每个词的顺序特...

【专利技术属性】
技术研发人员:张旻杨启胜汤景凡姜明
申请(专利权)人:杭州电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1