一种中文关系抽取方法技术

技术编号:22308452 阅读:16 留言:0更新日期:2019-10-16 08:32
本发明专利技术提供一种中文关系抽取方法,包括如下步骤:S1:数据预处理:对输入数据的文本进行多粒度信息的预训练处理,以提取出所述文本中的字、词和词义三个级别的分布式向量;S2:特征编码:以双向长短时记忆网络为基本架构,通过所述字、词和词义三个级别的分布式向量得到字的隐藏状态向量、词的隐藏状态向量,进而得到字级别的最终隐状态向量;S3:关系分类:学习所述字级别的最终隐状态向量,采用所述字级别的注意力机制将所述字级别的隐状态向量融合成一个句子级别的隐状态向量。有效地解决分词歧义和多义词歧义的问题,大大提升了模型在关系抽取任务上的表现,提高中文关系抽取的准确率和鲁棒性。

A method of Chinese relation extraction

【技术实现步骤摘要】
一种中文关系抽取方法
本专利技术涉及计算机应用
,尤其涉及一种中文关系抽取方法。
技术介绍
自然语言处理是人工智能的子学科,也是计算机科学和计算语言学的交叉学科。其中,关系抽取是自然语言处理领域的基本任务之一。其目的是对于给定的句子及标记好的实体(一般是名词),准确找出实体之间的关系。关系抽取技术能用于构建大规模的知识图谱,知识图谱是由概念、实体、实体属性及实体关系组成的语义网络,是对真实世界结构化的表示。大规模知识图谱的构建可以为人工智能系统提供全面且结构化的外部知识,从而发展出更加强大的应用。传统的关系抽取任务存在着一定的问题,它们往往由人工来制定特征,使得模型在小范围特定的数据集上有效运行,这种做法限制了关系抽取领域的发展。同时,由于对手工特征的依赖,传统的关系抽取技术具有较差的鲁棒性和可扩展性,导致模型无法在不同的数据和语料上进行泛化。近年来,基于深度学习的关系抽取取得了很大的进展,和传统的关系抽取方法比,这些方法有很多优点。首先,由于神经网络的应用,这些模型可以自动地去学习文本的语义特征,从而避免了人工地针对特定数据去设计特征,降低了人力成本,并且取得了更好的效果。这种神经网络模型提供了一种端到端的解决方案,最小化了人工的参与程度。同时,基于神经网络的模型也拥有较高的鲁棒性,可以针对千变万化的自然语言学习不同的特征到输出的映射。但是,即使是深度学习模型,也面临着一些尚未解决的问题。对于像中文这种没有天然分隔符的语言来说,目前的方法是对主流方法进行字级别或者词级别的实现。前者的输入序列以字为单位输入到模型中,这种方法会让模型很难学习到语义空间中的词级别特征,导致了信息不足,降低了关系抽取任务的准确性;后者是先将输入序列用分词工具进行分词,再输入到模型中,这种方法虽然可以考虑到词级别信息,但是由于借助了外部分词工具,很容易产生分词歧义的现象,从而外部工具的误差会在整个模型中传播,限制了关系抽取任务的发展。而且无论是字级别还是词级别模型,均没有考虑到词的多义现象,而只用一个词向量去表示词特征,这种策略会无法处理多义词歧义的现象,从而降低模型的上限。
技术实现思路
本专利技术为了解决现有技术中中文关系抽取的分词歧义和多义词歧义的问题,提供一种中文关系抽取方法。为了解决上述问题,本专利技术采用的技术方案如下所述:一种中文关系抽取方法,包括如下步骤:S1:数据预处理:对输入数据的文本进行多粒度信息的预训练处理,以提取出所述文本中的字、词和词义三个级别的分布式向量;S2:特征编码:以双向长短时记忆网络为基本架构,通过所述字、词和词义三个级别的分布式向量得到字的隐藏状态向量、词的隐藏状态向量,进而得到字级别的最终隐状态向量;S3:关系分类:学习所述字级别的最终隐状态向量,采用所述字级别的注意力机制将所述字级别的隐状态向量融合成一个句子级别的隐状态向量。优选地,提取字级别的分布式向量包括提取字向量和位置向量;所述字向量:对于给定的所述输入数据的文本的字级别序列s={c1,...,cM}共M有个字符,使用word2vec方法,将每个字符ci都映射为一个字向量其中,ci表示第i个字符,是第i个字符的字向量,R为实数空间,dc是所述字向量的维度;所述位置向量表示字符ci到两个实体P1和P2之间的相对位置其中,的计算方法如下:其中,b1和e1是第一个实体P1的开头和结束位置,的计算方法和的计算方法相同,将和转化为相应的位置向量,为和用于表示所述字级别序列的位置特征,dp表示位置向量的维度;字级别的分布式向量的最终表示是将所述字向量和两个所述位置向量拼接起来,即为:此时,d=dc+2*dp,d为所述字向量和所述位置向量拼接之后的总维度;此时,所述输入数据的文本的字级别序列的表示变成优选地,提取词级别的分布式向量包括:对于给定的所述输入数据的文本的字级别序列s={c1,...,cM}和词级别序列s={w1,...,wM},使用起始位置b和终止位置e来表示一个词即wb,e;通过word2vec方法将词wb,e转化为词级别的分布式向量优选地,从外部语义知识库知网中获取每个词wb,e的词义集合Sense(wb,e),将每一个在所述词义集合中的词义即都转化为一个词义级别的分布式向量即其中,K为词wb,e的词义的个数。优选地,步骤S2包括:S21:以字为基本单位,将所述输入数据的文本的字级别序列直接输入到所述双向长短时记忆网络中得到所述字的隐藏状态向量;S22:将所述输入数据的文本的字级别序列的以每个所述字作为结尾的词通过外部语义知识库知网获取所述词的所有词义向量,将所述词义向量输入到所述双向长短时记忆网络中计算得到词义级别的隐藏状态向量,使用加权求和的方法将所有所述词义级别的隐藏状态向量融合,得到所述词的隐藏状态向量;S23:使用一个门单元计算所述字和所述词的权重,通过加权求和的方法将所述字的隐藏状态向量和所述词的所述隐藏状态向量融合为所述字的最终的隐藏状态向量。优选地,步骤S21包括:所述文本的字级别序列中的第j个字,输入到所述双向长短时记忆网络的计算过程为:其中,i是输入门,用于控制哪些信息被存储;f是遗忘门,用于控制哪些信息将被遗忘;o是输出门,用来控制哪些信息将被输出;c是细胞单元,U和b是述双向长短时记忆网络中待学习的参数,h表示隐状态向量,由上个时刻的隐状态和当前时刻的数据输入共同决定。优选地,步骤S22中对于一个以下标b开头,以下标e结尾的词wb,e,词表示为输入到所述双向长短时记忆网络中,所述词的细胞单元计算如下:对于所述词wb,e的第k个词义,表示向量为一个词义级别的细胞单元的计算过程如下:引入额外的门机制来控制每个词义信息的贡献:融合了多个词义信息的词细胞状态计算方式如下:随后所有的词义细胞单元会被融合成一个词细胞状态对于字符ce,计算方法如下:其中,和是门结构的归一化表示,其计算方法如下:每个字对应的细胞单元将会融合词和词义级别的信息,进而得到所述字的最终的隐藏状态向量:所述字的最终的隐藏状态向量将会被送入到分类器中,合成对应的句子级别的特征表示。优选地,所述句子级别的隐状态向量h*的计算如下:H=tanh(h)α=softmax(wTH)h*=hαT然后h*会被送入一个softmax分类层中,计算出每一个类别的概率分布:o=Wh*+bp(y|s)=softmax(o)对于T个训练数据,整个训练过程将由以下交叉熵损失函数进行优化:其中,dh是隐状态变量的维度,M是输入序列的长度,R是实数空间,T代表转置,w是一个要学习的参数,α是h的权重向量,是转移矩阵,b∈RY是偏置向量,Y表示所有类别的总数量,p(y)则表示预测某个类别的概率,θ表示整个模型中需要训练的所有参数。优选地,在所述训练过程中采用dropout机制,在训练中所述双向长短时记忆网络的每个神经元都有50%的概率被关闭。本专利技术还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如上任一所述方法的步骤。本专利技术的有益效果为:提供一种中文关系抽取方法,通过对输入数据的文本进行多粒度信息的预训练处理,以提取出文本中的字、词和词义三个级别的分布式向量,可以自动学习语义特征,极大地减少人工的参与度;可以有效本文档来自技高网
...

【技术保护点】
1.一种中文关系抽取方法,其特征在于,包括如下步骤:S1:数据预处理:对输入数据的文本进行多粒度信息的预训练处理,以提取出所述文本中的字、词和词义三个级别的分布式向量;S2:特征编码:以双向长短时记忆网络为基本架构,通过所述字、词和词义三个级别的分布式向量得到字的隐藏状态向量、词的隐藏状态向量,进而得到字级别的最终隐状态向量;S3:关系分类:学习所述字级别的最终隐状态向量,采用所述字级别的注意力机制将所述字级别的隐状态向量融合成一个句子级别的隐状态向量。

【技术特征摘要】
1.一种中文关系抽取方法,其特征在于,包括如下步骤:S1:数据预处理:对输入数据的文本进行多粒度信息的预训练处理,以提取出所述文本中的字、词和词义三个级别的分布式向量;S2:特征编码:以双向长短时记忆网络为基本架构,通过所述字、词和词义三个级别的分布式向量得到字的隐藏状态向量、词的隐藏状态向量,进而得到字级别的最终隐状态向量;S3:关系分类:学习所述字级别的最终隐状态向量,采用所述字级别的注意力机制将所述字级别的隐状态向量融合成一个句子级别的隐状态向量。2.如权利要求1所述的中文关系抽提方法,其特征在于,提取字级别的分布式向量包括提取字向量和位置向量;所述字向量:对于给定的所述输入数据的文本的字级别序列s={c1,...,cM}共M有个字符,使用word2vec方法,将每个字符ci都映射为一个字向量其中,ci表示第i个字符,是第i个字符的字向量,R为实数空间,dc是所述字向量的维度;所述位置向量表示字符ci到两个实体P1和P2之间的相对位置其中,的计算方法如下:其中,b1和e1是第一个实体P1的开头和结束位置,的计算方法和的计算方法相同,将和转化为相应的位置向量,为和用于表示所述字级别序列的位置特征,dp表示位置向量的维度;字级别的分布式向量的最终表示是将所述字向量和两个所述位置向量拼接起来,即为:此时,d=dc+2*dp,d为所述字向量和所述位置向量拼接之后的总维度;此时,所述输入数据的文本的字级别序列的表示变成3.如权利要求1所述的中文关系抽提方法,其特征在于,提取词级别的分布式向量包括:对于给定的所述输入数据的文本的字级别序列s={c1,...,cM}和词级别序列s={w1,...,wM},使用起始位置b和终止位置e来表示一个词即wb,e;通过word2vec方法将词wb,e转化为词级别的分布式向量4.如权利要求3所述的中文关系抽提方法,其特征在于,从外部语义知识库知网中获取每个词wb,e的词义集合Sense(wb,e),将每一个在所述词义集合中的词义即都转化为一个词义级别的分布式向量即其中,K为词wb,e的词义的个数。5.如权利要求1所述的中文关系抽提方法,其特征在于,步骤S2包括:S21:以字为基本单位,将所述输入数据的文本的字级别序列直接输入到所述双向长短时记忆网络中得到所述字的隐藏状态向量;S22:将所述输入数据的文本的字级别序列的以每个所述字作为结尾的词通过外部语义知识库知网获取所述词的所有词义向量,将所述词义向量输入到所述双向长短时记忆网络中计算得到词义级别的隐藏状态向量...

【专利技术属性】
技术研发人员:丁宁李自然郑海涛刘知远沈颖
申请(专利权)人:清华大学深圳研究生院
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1