一种基于BERT和依存句法联合实体及关系抽取方法技术

技术编号:38126622 阅读:9 留言:0更新日期:2023-07-08 09:31
本发明专利技术提出了一种基于BERT和依存句法联合实体及关系抽取方法,所述方法包括以下步骤:构建句子的依存句法图;基于BioBERT进行模型嵌入,得到词嵌入、词性嵌入、依存关系嵌入和实体标签嵌入;利用BiLSTM作为序列编码器,结合CRF完成实体识别;利用依存句法树和Bi

【技术实现步骤摘要】
一种基于BERT和依存句法联合实体及关系抽取方法


[0001]本专利技术涉及一种基于BERT和依存句法联合实体及关系抽取方法,属于自然语言处理领域。

技术介绍

[0002]实体抽取也叫命名实体识别,是指在非结构化的自然语言文本中提取命名实体,并将其分类到提前预定好的类别中。关系抽取旨在提取实体之间存在的语义关系,如实体“成都”和实体“四川”它们的关系是“省会”。
[0003]传统的实体抽取技术都是基于“基于词典”或“有监督”的方法,所构建的知识图谱将无法适应新问题领域中的新词汇。例如,当构建一个冠状病毒的知识图谱时,它不能用预先建立的字典或数据集来构建,也不能频发的更新构建好的知识图谱。
[0004]基于神经网络的无监督流水线(Pipeline)学习模型,也会有误差传递和实体冗余的问题。误差传递,即如果实体识别不准确,则后面的实体关系识别也会受到相应的影响。实体冗余,即在实体识别阶段,产生不存在任何关系的实体,在关系识别阶段,模型检索实体就会增加模型的计算量,大大降低模型的效率。这种方法对关系重叠和复杂关系的情况处理也不够准确,因此也需要改进。

技术实现思路

[0005]本专利技术提出一种基于BERT和依存句法联合实体及关系抽取方法。本专利技术的目的在于解决误差传递和实体冗余的问题,更加准确、更加高效地识别特定领域实体,以及实体之间的关系,生成医疗领域三元组以供构建医疗领域知识图谱,从而构建医疗领域的知识图谱。
[0006]本专利技术技术方案如下:
[0007]首先构建句子的依存句法图。依存句法可以准确的表示两个实体之间的关系,且可以理解句子实体之间的关键信息,从而解决关系重叠和复杂关系等类似问题。
[0008]然后基于BioBERT进行模型嵌入,得到词嵌入、词性嵌入、依存关系嵌入和实体标签嵌入。词嵌入层采用BioBERT,BioBERT是在继承通用BERT参数权重的基础上,在生物医药领域语料(包括PUBMED摘要和PMC全文)上继续预训练。
[0009]接着利用BiLSTM作为序列编码器,结合CRF完成实体识别。BiLSTM是由前向LSTM和后向LSTM组成的双向网络,能够更好地捕获双向语义信息。在BiLSTM之后添加CRF层,可以计算相邻标签之间的依赖信息,进一步提高标签预测准确率。
[0010]最后利用依存句法树和Bi

TreeLSTM模型获取两个实体之间的关系。为了实现参数共享,本层将进行独立embedding,利用依存句法树构造TreeLSTM,然后利用Bi

TreeLSTM获取两个实体存在的关系。
[0011]本专利技术的有益效果为:本专利技术可以很好地解决误差传递和实体冗余的问题,更加准确、更加高效地识别特定领域实体,以及实体之间的关系,生成医疗领域三元组以供构建
医疗领域知识图谱,从而构建医疗领域的知识图谱。
[0012]附图和附表说明
[0013]图1为本专利技术的算法整体框图;
[0014]图2为依存句法图示例;
[0015]图3为BERT嵌入层示意图;
[0016]图4为TreeLSTM结构单元;
[0017]具体实施方式
[0018]下面将会描述该算法的思路,并给出算法的具体步骤。
[0019]步骤一:构建句子的依存句法图。
[0020]因为依存句法可以准确的表示两个实体之间的关系,且可以理解句子实体之间的关键信息,所以使用依存句法可以解决关系重叠和复杂关系等类似问题。依存句法树中最短距离再在关系分类研究中已被证明是十分有效的。
[0021]如果给定句子s={w0,w1,...,w
n
},用α和β分别表示实体集合和关系集合,通过命名实体识别出两个实体w
i
和w
j
,且w
i
,w
j
∈α,通过对句子中的词向量和实体对进行特征抽取和衍生,并依次训练模型,将句子中的两个实体w
i
和w
j
的关系映射到α中的某个β,则β就是最终所要的实体关系。
[0022]依存关系,表示的是一个例句中的词之间的关系,一般在进行依存句法分析时,将有关系的两个词用线条指向表示,并标上关系,一般来说一个例句中会有一个其核心作用的动词。例如句子:“早在2019年,全球还没有新型肺炎”,可得出依存句法结构如图2所示。
[0023]步骤二:基于BioBERT进行模型嵌入。
[0024]Google在2018年开源的BERT模型,直接用它去做领域命名实体识别效果一定不会太好,因为通用领域预训练模型中不包含特定领域的新词,对于医学领域,“儿童感冒”通用领域BERT会识别为:“儿童”和“感冒”。
[0025]BioBERT是在继承通用BERT参数权重的基础上,在生物医药领域语料(包括PUBMED摘要和PMC全文)上继续预训练。词表继承BERT的词表,为了解决未登录词的问题,使用Wordpiece的策略;该领域特定的预训练模型可用于命名实体识别、关系提取和问答系统等任务。从结果来看,BioBERT的效果好于通用BERT。
[0026]模型嵌入层由四层,分别是Token Embedding(词嵌入)v
(w)
、POS Embedding(词性嵌入)v
(p)
、Relation Embedding(依存关系嵌入)v
(d)
和Label Embedding(实体标签嵌入)v
(e)
。本层模型嵌入的输出的词向量则包含四个,即字的词向量、字的词性向量、字的依存关系词向量和字的实体标签词向量,如图3所示。
[0027]假如输入序列为X(x1,x2,...,x
n
),训练集的大小是D维,使用word2vec进行词嵌入,则该模型生成的单词向量序列X
d
是一个n*D维的矩阵,如式(1)所示。
[0028][0029]其中,(x
i1
,x
i2
,...,x
id
)是输入句子中其中一个单个词x
i
的词向量。此外,BERT预训练语言模型还通过两个任务分别捕获单词级和句子级的表示,即MLM模型和下一句预测,并进行联合训练。掩蔽语言模型通过随机掩蔽句子中的某些词,然后预测掩蔽词,来训练深层的双向语言表示向量。与只能从左到右或从右到左的一个方向预测目标函数的标准语言模型(例如word2vec)不同,MLM模型可以从任何方向预测mask词。
[0030]步骤三:利用BiLSTM作为序列编码器,结合CRF完成实体识别。
[0031]在本层,利用BiLSTM作为序列编码器完成实体识别,嵌入层的词嵌入以及词性嵌入作为该层的输入,即t时刻的输入的计算如式(2)所示。
[0032][0033]其中一个字X
t
的词向量由一组维向量组成:输入本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于BERT和依存句法联合实体及关系抽取方法,该方法包括以下步骤:步骤1:构建句子的依存句法图。依存句法可以准确的表示两个实体之间的关系,且可以理解句子实体之间的关键信息,从而解决关系重叠和复杂关系等类似问题。一般来说一个例句中会有一个其核心作用的动词,将有关系的两个词用线条指向表示,并标上关系。步骤2:基于BioBERT进行模型嵌入。词嵌入层采用BioBERT,BioBERT是在继承通用BERT参数权重的基础上,在生物医药领域语料(包括PUBMED摘要和PMC全文)上继续预训练。模型嵌入的输出的词向量则包含四个,即字的词向量、字的词性向量、字的依存关系词向量和字的实体标签词向量。步骤3:利用BiLSTM作为序列编码器,结合CRF完成实体识别。BiLSTM是由前向LSTM和后向LSTM组成的双向网络,能够更好地捕获双向语义信息。将词嵌入层后的输出,作为双向长短时间记忆网络BiLSTM的输入。在双向长短时间记忆网络BiLSTM之后添加CRF层,可以计算相邻标签之间的依赖信息,进一步提高标签预测准确率。步骤4:利用依存句法树和Bi

TreeLSTM模型获取两个实体之间的关系。为了解决将实体识别和关系抽取分开而产生的误差传递的问题,本层在上一层实体识别通过BiBERT进行词嵌入得到的词向量中的参数进行共享。为了实现参数共享,本层将进行独立embedding...

【专利技术属性】
技术研发人员:周焕来李嘉豪唐小龙许文波贾海涛李金润谭志昊张博阳
申请(专利权)人:成都量子矩阵科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1