【技术实现步骤摘要】
一种基于多层次注意力机制的多种人物关系抽取方法
本专利技术涉及自然语言处理领域,尤其涉及一种基于多层次注意力机制的多种人物关系抽取方法。
技术介绍
随着在互联网技术的高速发展,网络中的文本信息数据呈指数型增长,但往往文本信息数据是非结构化信息。信息抽取是自然语言处理的一项任务,目的即为从非结构化文本中提取结构化的结构化信息。信息抽取包括两个方面:命名实体识别任务和关系抽取任务,前者用于发现文本中存在的实体,后者判断已发现实体之间的关系,即对指定文本获得实体对e1和e2,以及二者之间的关系r组成的三元组(e1,r,e2)。关系抽取任务已经广泛地用于知识图谱、信息检索等领域。用于关系抽取的传统非深度学习方法通常是有监督学习,可以分为基于特征的方法和基于内核的方法,这两种方法都使用现存的NLP工具,会导致下游的错误累积。进入深度学习时代,避免了手工获取特征方式,但是有监督的深度学习需要大量训练数据来学习特征。而训练数据的标注是会花费大量的时间和精力的,同时也会偏向于某一固定领域。Mintz等人于2009年提出了远程监督方法 ...
【技术保护点】
1.一种基于多层次注意力机制的多种人物关系抽取方法,其特征在于,包括步骤:/n对采集的文本进行预处理;/n采用远程监督技术对原始人物命名实体的对齐标注,得到包含实体的文本以及实体描述信息;/n对得到包含实体的文本进行中文词向量训练;/n构建包含两个级别的注意力机制双向长短时记忆网络,对构建的模型进行训练,得到用于多种人物关系抽取的多分类模型;/n输入预处理后的文本,得到文本关系抽取的结果。/n
【技术特征摘要】
1.一种基于多层次注意力机制的多种人物关系抽取方法,其特征在于,包括步骤:
对采集的文本进行预处理;
采用远程监督技术对原始人物命名实体的对齐标注,得到包含实体的文本以及实体描述信息;
对得到包含实体的文本进行中文词向量训练;
构建包含两个级别的注意力机制双向长短时记忆网络,对构建的模型进行训练,得到用于多种人物关系抽取的多分类模型;
输入预处理后的文本,得到文本关系抽取的结果。
2.根据权利要求1所述的方法,其特征在于,所述预处理包括:
去除文本中的英文数据;
去除文本中的表情符号和超链接;
根据中文停用词表去除文本中的停用词;
对经过上述处理的文本进行中文分词。
3.根据权利要求1所述的方法,其特征在于,所述采用远程监督技术对原始人物命名实体的对齐标注的步骤中,利用中文在线百度百科的获取人名词条,将有关系的两个人物以及人物的关系组成三元组,最终构建人物关系知识库。文本中出现与知识库存在的实体对,即两个实体的关系被标注为三元组中关系。
4.根据权利要求1所述的方法,其特征在于,所述对文本进行中文词向量训练的步骤中,采用分布式词向量表示方法Word2Vec,并将输出词向量维度设置为300。
5.根据权利要求1所述的方法,其特征在于,所述构建包含两个级别的注意力机制双向长短时记忆网络的步骤中,使用pytorch搭建BiLSTM以及两个级别的注意力机制网络结构,所述网络第一层是嵌入层,第二层为双向LSTM层,第三层为词级别的注意力层,第四层为句子级别的注意力层,第五层为分类器softmax层。
6.根据权利要求5所述的方法,其特征在于,所述嵌入层的输入为训练好的词向量序列,将文本序列长度(词向量序列个数)设定为m,不足m的用0填充,超过m的截断,每个文本中词相...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。