【技术实现步骤摘要】
一种融入外部知识的生物医疗关系抽取方法
本专利技术涉及自然语言处理
,具体为一种融入外部知识的生物医疗关系抽取方法。
技术介绍
随着社会飞速发展,目前已经进入信息爆炸时代,在生物医疗领域中,每天都有数以千计的生物医疗文献公开发表,这些文献中含有海量的生物医疗实体关系,医生、专家们对其中的有效信息筛选与归纳的需求日益迫切,如何从海量数据提取有效信息成为一个难题。目前,在关系抽取技术中常常采用基于监督学习的关系抽取技术,这个技术需要大量的人工标注训练数据,非常的耗时费力。因此,自动、高效地抽取隐含在文献中的生物医疗实体关系能够有效节省人力和资源。随着深度学习理论的发展,研究人员开始使用神经网络模型从生物医疗文献中自动地抽取实体关系。其中,最常用的方法就是使用远程监督技术,自动产生大量的训练数据以供人们使用,然而远程监督技术存在的严重问题之一是其产生的训练数据存在大量的噪声,这种情况在生物医疗数据上更为突出。神经网络模型在处理远程监督生物医疗数据产生的噪音上还没有十分有效的方法,因此,如何使用神经网络的方法应 ...
【技术保护点】
1.一种融入外部知识的生物医疗关系抽取方法,其特征在于包括以下步骤:/n步骤一、对生物医疗数据集中每个句子中的每个单词进行词嵌入和位置嵌入操作,得到词向量和位置向量,然后将得到的词向量和位置向量进行拼接得到每个单词的向量表示,最后将句子中所有单词的向量表示进行拼接,得到每个句子的矩阵表示;/n步骤二、将步骤一得到的每个句子的矩阵表示输入到PCNN神经网络中得到生物医疗数据集中每个句子的向量表示;/n步骤三、获取生物医疗数据集中每个句子的头实体和尾实体,并在外部知识图谱中分别抽取与头实体有关系的实体以及与尾实体有关系的实体,得到以头实体为中心的关系图和以尾实体为中心的关系图, ...
【技术特征摘要】
1.一种融入外部知识的生物医疗关系抽取方法,其特征在于包括以下步骤:
步骤一、对生物医疗数据集中每个句子中的每个单词进行词嵌入和位置嵌入操作,得到词向量和位置向量,然后将得到的词向量和位置向量进行拼接得到每个单词的向量表示,最后将句子中所有单词的向量表示进行拼接,得到每个句子的矩阵表示;
步骤二、将步骤一得到的每个句子的矩阵表示输入到PCNN神经网络中得到生物医疗数据集中每个句子的向量表示;
步骤三、获取生物医疗数据集中每个句子的头实体和尾实体,并在外部知识图谱中分别抽取与头实体有关系的实体以及与尾实体有关系的实体,得到以头实体为中心的关系图和以尾实体为中心的关系图,将得到的两个关系图输入到图编码器中构建头尾实体的外部知识图谱的综合向量表示;
步骤四、将生物医疗数据集中每个句子的向量表示和头尾实体的外部知识图谱的综合向量进行结合,得到包含外部信息的句子向量;
步骤五、对于每个实体对,选择包含该实体对的所有句子构成一个集合,根据包含外部信息的句子向量表示,采用句子级别注意力机制计算该集合中每个句子的注意力权重,然后以该集合中所有包含外部信息的句子表示的注意力加权和作为该集合的向量表示,并对该集合的向量表示进行预测,得到该实体对的预测关系。
2.根据权利要求1所述的一种融入外部知识的生物医疗关系抽取方法,其特征在于所述步骤三中图编码器采用KG-Transformer。
3.根据权利要求2所述的一种融入外部知识的生物医疗关系抽取方法,其特征在于所述KG-Transformer的编码过程为:
KG-Transformer将输入的两个关系图中的结点序列的向量表示X={x1,x2,...,xN}输入到Muti-headAttentionLayer与Add&NormLayer:
所述Muti-headAttentionLayer进行如下计算:
其中,表示这一层H个注意头的拼接,x'i表示输出的节点表示,A为邻接矩阵,i表示第i行,j表示第j列,d为结点嵌入的维度,均为权重矩阵,N表示结点序列的长度,Masking(X,A)表示按照矩阵A中值为1的位置对矩阵X的相应位置的值进行掩码操作;
所述Add&NormLayer进行如下计算:
O=LayerNorm(X+X')
其中,X={x1,x2,......,xN},X为结点序列的向量表示,X'={x'1,x'2,......x'N},X'为Muti-headAttentionLayer计算的输出,LayerNorm(·)为层归一化函数,该输出结果O将作为下一层Muti-headAttentionLayer的输入;
上述计算过程重复L次,L为任意整数,得到所有结点的向量表示,最后分别将头实体和尾实体的关系图的所有结点的向量表示求和,得到头尾实体的综合向量表示。...
【专利技术属性】
技术研发人员:王春宇,张浩,梁天铭,刘晓燕,刘国军,郭茂祖,
申请(专利权)人:哈尔滨工业大学,
类型:发明
国别省市:黑龙江;23
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。