The invention presents a method of relational extraction based on Bi_LSTM input information enhancement, which belongs to the field of computer artificial intelligence natural language processing. The strategy of indeterminate label is used to annotate the data set, and redundant coding technique is used to encode each word at character level to generate word form coding vector. Word vector coding is combined with word embedding vector to generate word vectors to capture word form and word meaning information. Bi_LSTM enhanced by input information is used as model coding layer. Word vector is input to coding layer and coding vector is output. The encoding vectors are input to the decoding layer to get the decoding vectors. Entity label, relation type and entity number information are extracted from decoding vector by three hierarchical NN. Finally, we calculate the gradient and update the weight, and maximize the objective function to train the model. The method of the invention improves the robustness of the system, reduces the interference information brought by non-entity words, and effectively improves the accuracy and recall rate of relation extraction.
【技术实现步骤摘要】
一种基于Bi-LSTM输入信息增强的关系抽取方法
本专利技术涉及一种文本关系抽取方法,尤其涉及一种改进的基于双向长短时记忆神经网络(Bi-LSTM)的文本关系抽取方法,属于计算机人工智能自然语言处理领域。
技术介绍
在人工智能自然语言处理领域中,关系抽取是信息抽取中一个重要的研究课题,也是自动构建知识图谱的关键步骤,对信息检索、文本分类、自动问答、机器翻译等其它自然语言处理任务有很大帮助。关系抽取旨在把文件中的非结构和半结构化信息转化为结构化信息,抽取文本中的实体对和它们之间的语义关系,即为文本中的实体对设置预先定义好的关系类型。通常,一个三元组(实体1,关系类型,实体2)用来作为结构化表示的格式。现有的关系抽取系统可以分为基于人工构造匹配规则的弱监督模型和基于人工标注数据的监督模型。在弱监督模型中,有的使用匹配规则抽取关系,有的使用“拔靴法”迭代模式来匹配候选关系,还有的在一个图模型构建一系列传播规则来标注未知关系。这些弱监督模型不需要大量的标注数据,但是设计一个既具有高精度又有高覆盖能力的规则或模式是相当困难的任务。监督模型可以分为基于核函数的方法和基于神经网络的方法。其中,基于核函数的方法一般选择多个特征集进行关系分类,可用的特征集包括:词汇特征、语义特征、句法特征三类。例如,词嵌入、词性、依存类型、实体标签、位置信息、上下位关系等。基于神经网络的方法可以自动学习所需的潜在特征。但是,这类系统的性能主要取决于标注数据的数量与质量。为了减少人工干预,催生了一种远程监督方法,这种方法利用知识库而不是人工产生标注数据,但该方法会产生大量的噪声数据,去噪工作 ...
【技术保护点】
1.一种基于Bi‑LSTM输入信息增强的关系抽取方法,其特征在于包括以下步骤:步骤一,应用不确定标签标注策略标注数据集,具体如下:将句子中的每个单词都使用一个标签标注,每一个标签由三部分组成:实体部分、编号部分、关系部分;其中,实体部分用“E”表示实体,“N”表示非实体;编号部分用“1”表示第一个实体,“2”表示第二个实体;关系部分用关系类型的缩写“ED”、“CE”等表示关系类型;非实体单词用“N‑X”表示,其中“X”是标签的编号部分和关系部分,它的值不确定,为任意值;步骤二,应用冗余编码技术对句子的每个单词进行字符级词形编码,产生单词编码向量vb,用于捕捉词形信息;步骤三、通过在训练集上运行word2vec3 CBOW模型,产生单词嵌入向量vq,用于捕捉单词语义信息;步骤四、将单词编码向量vb与单词嵌入向量vq拼接为单词输入向量v,为编码层提供词形特征信息和词义特征信息;步骤五、应用改进的LSTM模型作为输入信息增强模型编码层,将t时间步的向量vt输入到编码层,输出编码向量
【技术特征摘要】
1.一种基于Bi-LSTM输入信息增强的关系抽取方法,其特征在于包括以下步骤:步骤一,应用不确定标签标注策略标注数据集,具体如下:将句子中的每个单词都使用一个标签标注,每一个标签由三部分组成:实体部分、编号部分、关系部分;其中,实体部分用“E”表示实体,“N”表示非实体;编号部分用“1”表示第一个实体,“2”表示第二个实体;关系部分用关系类型的缩写“ED”、“CE”等表示关系类型;非实体单词用“N-X”表示,其中“X”是标签的编号部分和关系部分,它的值不确定,为任意值;步骤二,应用冗余编码技术对句子的每个单词进行字符级词形编码,产生单词编码向量vb,用于捕捉词形信息;步骤三、通过在训练集上运行word2vec3CBOW模型,产生单词嵌入向量vq,用于捕捉单词语义信息;步骤四、将单词编码向量vb与单词嵌入向量vq拼接为单词输入向量v,为编码层提供词形特征信息和词义特征信息;步骤五、应用改进的LSTM模型作为输入信息增强模型编码层,将t时间步的向量vt输入到编码层,输出编码向量所述改进的LSTM模型是一种单层双向LSTM模型,具体如下:将输入向量vt经过一个普通NN层的变换得到输入增强向量然后与前向编码向量后向编码向量拼接得到编码向量其中,前向编码向量用来携带历史单词信息,输入加强向量用来携带当前单词信息,后向编码向量用来携带未来单词信息;编码向量既是编码层的输出,同时也是解码层的输入,用来携带整个句子的信息;步骤六、将编码层输出的编码向量输入解码层,得到解码向量其中,分别表示解码层t时间步的输入门、遗忘门、输出门的输出;是解码层t时间步的细胞状态,是一个方向的解码向量;是解码向量,包含实体标签、关系类型、实体编号信息;步骤七、应用三个分层次的NN细胞,从解码向量中分别提取出实体标签、关系类型、实体编号信息,并转换为相应标签:其中,分别是实体标签、关系类型、实体编号的预测值,W是权重矩阵,b是偏置;步骤八、使用Adam算法计算梯度,使用BPTT算法更新权重,通过最大化目标函数训练模型,目标函数如下:其中,S是训练集句子总数,Ts是第s句的长度,分别是实体标签、关系类型、实体编号的真实值,分别是实体标签、关系类型、实体编号的预测值;l、u、v分别...
【专利技术属性】
技术研发人员:黄河燕,雷鸣,冯冲,
申请(专利权)人:北京理工大学,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。