一种基于Bi-LSTM输入信息增强的关系抽取方法技术

技术编号:18711780 阅读:17 留言:0更新日期:2018-08-21 22:49
本发明专利技术提出了一种基于Bi‑LSTM输入信息增强的关系抽取方法,属于计算机人工智能自然语言处理领域。通过应用不确定标签的策略标注数据集,应用冗余编码技术对每个单词进行字符级编码产生词形编码向量。词形编码向量与词嵌入向量拼接生成词向量用于捕捉词形与词义信息。通过应用输入信息增强的Bi‑LSTM作为模型编码层,将词向量输入编码层,输出编码向量。将编码向量输入解码层,得到解码向量。应用三个分层次的NN,从解码向量分别提取出实体标签、关系类型、实体编号信息。最后,计算梯度、更新权重,通过最大化目标函数训练模型。本发明专利技术方法提高了系统的鲁棒性,减少了非实体单词带来的干扰信息,有效提高了关系抽取的准确率和召回率。

A method of relation extraction based on Bi-LSTM input information enhancement

The invention presents a method of relational extraction based on Bi_LSTM input information enhancement, which belongs to the field of computer artificial intelligence natural language processing. The strategy of indeterminate label is used to annotate the data set, and redundant coding technique is used to encode each word at character level to generate word form coding vector. Word vector coding is combined with word embedding vector to generate word vectors to capture word form and word meaning information. Bi_LSTM enhanced by input information is used as model coding layer. Word vector is input to coding layer and coding vector is output. The encoding vectors are input to the decoding layer to get the decoding vectors. Entity label, relation type and entity number information are extracted from decoding vector by three hierarchical NN. Finally, we calculate the gradient and update the weight, and maximize the objective function to train the model. The method of the invention improves the robustness of the system, reduces the interference information brought by non-entity words, and effectively improves the accuracy and recall rate of relation extraction.

【技术实现步骤摘要】
一种基于Bi-LSTM输入信息增强的关系抽取方法
本专利技术涉及一种文本关系抽取方法,尤其涉及一种改进的基于双向长短时记忆神经网络(Bi-LSTM)的文本关系抽取方法,属于计算机人工智能自然语言处理领域。
技术介绍
在人工智能自然语言处理领域中,关系抽取是信息抽取中一个重要的研究课题,也是自动构建知识图谱的关键步骤,对信息检索、文本分类、自动问答、机器翻译等其它自然语言处理任务有很大帮助。关系抽取旨在把文件中的非结构和半结构化信息转化为结构化信息,抽取文本中的实体对和它们之间的语义关系,即为文本中的实体对设置预先定义好的关系类型。通常,一个三元组(实体1,关系类型,实体2)用来作为结构化表示的格式。现有的关系抽取系统可以分为基于人工构造匹配规则的弱监督模型和基于人工标注数据的监督模型。在弱监督模型中,有的使用匹配规则抽取关系,有的使用“拔靴法”迭代模式来匹配候选关系,还有的在一个图模型构建一系列传播规则来标注未知关系。这些弱监督模型不需要大量的标注数据,但是设计一个既具有高精度又有高覆盖能力的规则或模式是相当困难的任务。监督模型可以分为基于核函数的方法和基于神经网络的方法。其中,基于核函数的方法一般选择多个特征集进行关系分类,可用的特征集包括:词汇特征、语义特征、句法特征三类。例如,词嵌入、词性、依存类型、实体标签、位置信息、上下位关系等。基于神经网络的方法可以自动学习所需的潜在特征。但是,这类系统的性能主要取决于标注数据的数量与质量。为了减少人工干预,催生了一种远程监督方法,这种方法利用知识库而不是人工产生标注数据,但该方法会产生大量的噪声数据,去噪工作成为这种方法的难点。近年来,在英语等词形丰富的语言中,基于字符级的词形特征引起了一些研究的重视。关系抽取任务可以分为实体识别和关系分类两个子任务,结合一套标注方法,关系抽取又可以转化为一个标注任务。长短时记忆神经网络(LSTM)作为一个有效的序列标注工具,已经成功应用到关系抽取领域,它通过一个记忆单元可以学习长距离依赖关系。这个记忆单元包括:输入门、遗忘门和输出门。在标准的LSTM模型中,输入信息首先需要和上一个时间步的隐含状态拼接,然后依次经过三个门。拼接操作会引起输入信息的稀释,门操作会导致输入信息的损失。在现有的标注方法中,都用一个标签来标记非实体单词,这样将关系关键词和非关键词用一个标签标注,会给系统带来干扰信息。
技术实现思路
本专利技术的目的是为了解决文本关系抽取的问题,提出一种基于Bi-LSTM输入信息增强的关系抽取方法。本方法基于双向长短时记忆神经网络,结合词嵌入和词形编码向量,共同捕捉输入单词的语义和词形特征信息,并且引入了冗余编码技术对英文单词进行编码来提高系统的鲁棒性,通过不确定标签来减少非实体单词的干扰。为达到以上目的,本专利技术所采用的技术方案如下:一种基于Bi-LSTM输入信息增强的关系抽取方法。首先,应用不确定标签标注策略标注数据集,应用冗余编码技术对句子的每个单词进行字符级词形编码,产生单词编码向量,用于捕捉词形信息。之后,通过在训练集上运行word2vec3CBOW模型,产生单词嵌入向量,用于捕捉单词语义信息,并将单词编码向量与单词嵌入向量拼接为单词输入向量,为编码层提供词形特征信息和词义特征信息。然后,应用改进的LSTM模型作为输入信息加强模型编码层,将t时间步的向量输入到编码层,输出编码向量。将编码层输出的编码向量输入解码层,得到解码向量。应用三个分层次的NN细胞,从解码向量分别提取出实体标签、关系类型、实体编号信息,并转换为相应标签。最后,使用Adam算法计算梯度,使用BPTT算法更新权重,通过最大化目标函数训练模型。有益效果本专利技术方法与现有技术相比,具有以下优点:(1)引入了冗余编码技术对单词进行词形编码,提高了系统的鲁棒性。(2)改进了标准LSTM模型,解决了输入信息稀释和损失的问题。(3)首次提出不确定标签,并成功应用到神经网络,解决了非实体单词带来干扰信息的问题。通过上述三种策略,有效提高了关系抽取的准确率和召回率。本专利技术方法既可以完成单关系抽取任务,也可以完成多关系抽取任务(一个句子中包含有多个关系三元组)。该模型是一个实体对和关系联合抽取的系统,当将实体标签的实际值代替预测值时,模型可以完成关系分类的任务。附图说明图1为本专利技术方法的模型结构图;图2为本专利技术方法所述关系抽取与标注示例图。图3为本专利技术方法所述词编码流程图;图4为本专利技术方法所述冗余编码对字符编码流程图;具体实施方式下面结合附图和实施例对本专利技术方法的具体实施方式做进一步详细说明。一种基于Bi-LSTM输入信息增强的关系抽取方法,如图1所示,包括以下步骤:步骤一,应用不确定标签标注策略标注数据集,如图2所示。具体方法如下:将句子中的每个单词都使用一个标签标注,每一个标签由三部分组成:实体部分、编号部分、关系部分。其中,实体部分用“E”表示实体,“N”表示非实体;编号部分用“1”表示第一个实体,“2”表示第二个实体;关系部分用关系类型的缩写“ED”(Entity-Destination)、“CE”(Cause-Effect)等表示关系类型。例如,标签“E1-ED”表示单词是“ED”关系类型的第一个实体,“E0-R0”表示单词是实体并属于“None”关系类型。非实体单词用“N-X”表示,其中“X”是标签的编号部分和关系部分,它的值不确定,可以是任意值。引入不确定标签“X”的作用,举例说明,在语句“OnNovember15th,2017,USpresidentDonaldTrumparrivedinAustraliaforastatevisit.”中,有关系三元组(实体1:DonaldTrump,关系类型:Entity-Destination,实体2:Australia)。可见,关系类型ED主要由“arrivedin”决定,决定关系类型的词或短语称作关系关键词,通常为非实体词。现有方法是将非实体用一个标签标注,如把“arrived”、“in”等关键词与“for”、“a”、“state”、“visit”等非关键词用一个确定的非实体标签“N”标注。这样会给关系类型带来干扰信息,显然不合理。为了解决这个问题,通过引入不确定标签“X”,非实体单词用“N-X”标注,“N”是实体部分,“X”是编号和关系类型部分。它的含义是:如果一个单词是非实体,则不需要关心其编号是多少以及属于哪种关系类型。步骤二,应用冗余编码技术对句子的每个单词进行字符级词形编码,产生单词编码向量vb,用于捕捉词形信息。在英语等词形丰富的语言中,一个词根可以派生出名词、动词、形容词、副词等许多词性。在步骤一的示例中,关系关键词“arrivedin”还可以有“arrivein”、“arrivesin”、“Trump’sarrivalinAustraliahappenedinNovember…”等多种表达。由此得出结论:词形相同的单词,具有相同的实体类型;词形相似的关系关键词表达相同的关系类型。可见,词形信息对关系抽取是一个重要的特征。在信息论中,码距定义为编码系统中两个编码的最小海明距离。若p=(p1,p2,…pn)和q=(q1,q2,…qn)是编码系统C中的两个编码,则p和q之间的海明距离dp本文档来自技高网
...

【技术保护点】
1.一种基于Bi‑LSTM输入信息增强的关系抽取方法,其特征在于包括以下步骤:步骤一,应用不确定标签标注策略标注数据集,具体如下:将句子中的每个单词都使用一个标签标注,每一个标签由三部分组成:实体部分、编号部分、关系部分;其中,实体部分用“E”表示实体,“N”表示非实体;编号部分用“1”表示第一个实体,“2”表示第二个实体;关系部分用关系类型的缩写“ED”、“CE”等表示关系类型;非实体单词用“N‑X”表示,其中“X”是标签的编号部分和关系部分,它的值不确定,为任意值;步骤二,应用冗余编码技术对句子的每个单词进行字符级词形编码,产生单词编码向量vb,用于捕捉词形信息;步骤三、通过在训练集上运行word2vec3 CBOW模型,产生单词嵌入向量vq,用于捕捉单词语义信息;步骤四、将单词编码向量vb与单词嵌入向量vq拼接为单词输入向量v,为编码层提供词形特征信息和词义特征信息;步骤五、应用改进的LSTM模型作为输入信息增强模型编码层,将t时间步的向量vt输入到编码层,输出编码向量

【技术特征摘要】
1.一种基于Bi-LSTM输入信息增强的关系抽取方法,其特征在于包括以下步骤:步骤一,应用不确定标签标注策略标注数据集,具体如下:将句子中的每个单词都使用一个标签标注,每一个标签由三部分组成:实体部分、编号部分、关系部分;其中,实体部分用“E”表示实体,“N”表示非实体;编号部分用“1”表示第一个实体,“2”表示第二个实体;关系部分用关系类型的缩写“ED”、“CE”等表示关系类型;非实体单词用“N-X”表示,其中“X”是标签的编号部分和关系部分,它的值不确定,为任意值;步骤二,应用冗余编码技术对句子的每个单词进行字符级词形编码,产生单词编码向量vb,用于捕捉词形信息;步骤三、通过在训练集上运行word2vec3CBOW模型,产生单词嵌入向量vq,用于捕捉单词语义信息;步骤四、将单词编码向量vb与单词嵌入向量vq拼接为单词输入向量v,为编码层提供词形特征信息和词义特征信息;步骤五、应用改进的LSTM模型作为输入信息增强模型编码层,将t时间步的向量vt输入到编码层,输出编码向量所述改进的LSTM模型是一种单层双向LSTM模型,具体如下:将输入向量vt经过一个普通NN层的变换得到输入增强向量然后与前向编码向量后向编码向量拼接得到编码向量其中,前向编码向量用来携带历史单词信息,输入加强向量用来携带当前单词信息,后向编码向量用来携带未来单词信息;编码向量既是编码层的输出,同时也是解码层的输入,用来携带整个句子的信息;步骤六、将编码层输出的编码向量输入解码层,得到解码向量其中,分别表示解码层t时间步的输入门、遗忘门、输出门的输出;是解码层t时间步的细胞状态,是一个方向的解码向量;是解码向量,包含实体标签、关系类型、实体编号信息;步骤七、应用三个分层次的NN细胞,从解码向量中分别提取出实体标签、关系类型、实体编号信息,并转换为相应标签:其中,分别是实体标签、关系类型、实体编号的预测值,W是权重矩阵,b是偏置;步骤八、使用Adam算法计算梯度,使用BPTT算法更新权重,通过最大化目标函数训练模型,目标函数如下:其中,S是训练集句子总数,Ts是第s句的长度,分别是实体标签、关系类型、实体编号的真实值,分别是实体标签、关系类型、实体编号的预测值;l、u、v分别...

【专利技术属性】
技术研发人员:黄河燕雷鸣冯冲
申请(专利权)人:北京理工大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1