面向内容大数据的小样本关系抽取方法和装置制造方法及图纸

技术编号:30020727 阅读:13 留言:0更新日期:2021-09-11 06:40
本发明专利技术公开了一种面向内容大数据的小样本关系抽取方法和装置。本发明专利技术首先利用预训练语言模型和字符级LSTM对句子进行向量化处理;其次通过双仿射机制和图神经网络提取文本结构特征;同时使用单词级LSTM和BERT中表示语义信息的[CLS]词向量将上下文语境信息融入实体对的词向量,构造含语境信息的实体对特征;最后通过相似

【技术实现步骤摘要】
面向内容大数据的小样本关系抽取方法和装置


[0001]本专利技术涉及一种面向内容大数据的小样本关系抽取方法和装置,属于互联网与大数据


技术介绍

[0002]随着互联网行业的不断发展,互联网中的文本数据正以指数级的速度持续增长。互联网中的文本数据具有异构性、碎片性、多源性的特点,同时蕴含了丰富的知识和信息。使用实体关系抽取方法可以从无结构的文本数据中抽取结构化的信息表示,结构化的信息表示对于知识图谱、搜索引擎、智能问答系统等应用的构建具有基础性的作用。另外,对抽取出的结构化信息进行合理、高效地组织和管理,才能更充分地挖掘以及利用文本中相互关联的信息,进而实现互联网大数据下的内容治理。实体关系抽取方法通常需要在实体标注的基础上进行,但实体标注工作往往耗时耗力且成本较高,因此研究小样本场景的实体关系抽取技术具有重要的现实意义。
[0003]近年来,基于神经网络模型的小样本关系抽取成为主流方法,但是现有的小样本关系抽取方法在提取句子特征时考虑的维度较少,并且难以高效提取文本的多维度特征。同时,在利用句子特征进行关系抽取时,现有的小样本关系抽取方法往往仅关注句子特征之间的相似性,而忽略了不同类型的实体关系间的差异性。

技术实现思路

[0004]针对现有的小样本关系抽取方法存在的问题与不足,本专利技术提出了一种面向内容大数据的小样本关系抽取方法和装置。本专利技术使用双仿射机制和图卷积神经网络从含实体对句子中提取文本结构信息和实体对信息作为句子的特征,提高特征提取的充分性。同时,本专利技术使用相似

差异关系网络提取关系类别的相似度和差异度,再基于相似度和差异度实现小样本关系抽取,提高对能够区别不同类别关系的特征的关注。
[0005]为了达到上述目的,本专利技术设计了一种面向内容大数据的小样本关系抽取方法和装置。首先,使用预训练语言模型BERT或单词级双向LSTM对句子进行向量化处理的方式,并使用双向LSTM提取单词的字符级语义信息,再拼接到BERT预训练的词向量上。其次,鉴于句子依存关系的结构特征对实体间关系抽取具有重要作用,本专利技术利用双仿射机制构造依存关系图,进而使用图卷积神经网络提取文本结构特征。同时,关系作为连接主、客实体间的桥梁,实体对的语义信息对关系抽取起到了决定性作用。实体对的语义信息易受到上下文语境的影响,为了在实体对的词向量上体现出这种影响,本专利技术使用双向LSTM网络的长期记忆单元与BERT预训练的[CLS]词向量通过投影方式附加到实体对内的单词向量上。然后,本专利技术将文本结构特征和实体对特征结合起来,作为句子的特征向量。最后,由于在利用句子特征向量进行关系抽取时,为避免忽略不同实体关系的句子特征之间的差异性,而导致文本特征的度量方式单一,本专利技术提出分别使用卷积神经网络对相似性和差异性进行度量,再基于相似性和差异性预测实体关系类别。
[0006]面向内容大数据的小样本关系抽取方法,该方法主要包括4个步骤,具体如下:
[0007]步骤1,对句子进行融合字符信息的向量化。在提取句子的关系依存结构特征和融合上下文语境的实体对特征之前,文本中的单词需要做向量化处理。本专利技术使用预训练语言模型BERT对文本进行向量化,考虑到针对小样本学习的Episode训练策略下,需要对支持集Support和查询集Query的文本输入同时向量化,对内存和显卡资源的要求较高,所以本专利技术在BERT基础版的预训练词向量后加入仿射层对词向量进行降维,降低模型的参数量,减少对资源的占用并加快模型收敛速度。BERT预训练语言模型随机对单词进行遮盖,然后通过上下文预测被遮盖的单词,不能完整地获取到单词的词法信息。按照语言形态学中对语法结构特点的研究,英文单词的词形变化是作为表示语法关系的主要手段,而英文单词的词形变化主要通过英文字符的变换来实现,所以组成每个单词的字符对于理解单词语义也具有重要作用。本专利技术使用字符级的双向LSTM获取已经嵌入了字符信息的单词向量。
[0008]步骤2,提取句子的关系依存结构特征。借助对句子的依存分析可以进一步提升关系抽取神经网络模型的效果。本专利技术使用双仿射机制在文本序列词向量输入上实现无向的依存关系图构建,在进行双仿射变换之前先使用两个多层感知机对词向量进行降维处理,从而避免模型出现过拟合,同时,对词向量的降维操作也有助于去除冗余的语义信息,因为原始词向量中可能已经含有预测依存弧的信息。无向图的邻接矩阵是一个实对称矩阵,表示一个图数据结构的节点邻接关系。使用多层图卷积网络能够聚合图数据结构里中心节点邻域中的其它节点信息,每一个卷积层仅处理一阶邻域信息,通过叠加若干卷积层可以实现多阶邻域的信息传递。本专利技术以通过双仿射机制构造的依存关系矩阵为基础构造输入文本句的依存关系图,再使用图卷积神经网络从依存关系图中提取文本结构特征。
[0009]步骤3,提取融合上下文语境的实体对特征。文本句中实体对的特征主要受到主、客实体语义特征和实体对上下文语境信息的影响,上下文信息也可以在出现多义实体的情况下帮助模型正确地理解实体间的关系。本专利技术出于保持文本长距离依赖的目的,使用双向LSTM网络结构编码文本句中实体对的单词级上下文特征和BERT中用于的分类词向量表征句子的上下文语境,再将上下文语境特征通过投影的方式融入词向量,然后使用分段池化神经网络将主、客实体内的词向量进行融合,得到句子的实体对特征。
[0010]步骤4,基于相似

差异关系网络实现小样本关系抽取。造成神经网络模型在小样本学习场景下难以显现效果的原因主要在于少量的样本数据无法反映真实的数据分布,从而导致在依据经验风险最小化原则指导的学习策略下,经验风险不能很好地模拟期望风险。本专利技术中的相似

差异关系网络包含相似性关系提取模块、差异性关系提取模块两个部分。相似性关系提取模块可以度量实体关系文本实例之间在多个维度上的相似程度,差异性关系提取模块度量在不同维度上语义特征的差异程度。相似性度量模块和差异性度量模块网络结构相同,但参数相互独立。本专利技术基于Episode的元任务训练策略对模型进行训练,在每轮Episode训练时,先对句子的特征进行“广播式”连接,再将拼接后的特征向量输入相似

差异关系网络提取相似性和差异性,最终基于相似性和差异性实现小样本关系抽取。同时,利用同类型关系的相似性分布的KL散度和预测结果的交叉熵损失作为模型损失函数,对模型参数进行训练。
[0011]本专利技术还提供了面向内容大数据的小样本关系抽取装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,该计算机程序被加载至处理器时实现
所述的面向内容大数据的小样本关系抽取方法。
[0012]与现有技术相比,本专利技术具有如下优点和有益效果:
[0013]1.本专利技术能够从词形信息、文本结构、实体对等多维度提取对关系抽取具有提升效果的特征,并充分刻画不同类型的实体关系间的差异性,进而提升小样本关系抽取的准确率。
[0014]2.本专利技术通过融合字符级信息的句子向量化,在本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.面向内容大数据的小样本关系抽取方法,其特征在于,包括如下步骤:步骤1,对句子进行融合字符信息的向量化使用预训练语言模型BERT对文本进行向量化,在BERT基础版的预训练词向量后加入仿射层对词向量进行降维,降低模型的参数量;使用字符级的双向LSTM获取已经嵌入了字符信息的单词向量;步骤2,提取句子的关系依存结构特征使用双仿射机制在文本序列词向量输入上实现无向的依存关系图构建,在进行双仿射变换之前先使用两个多层感知机对词向量进行降维处理,通过双仿射机制构造的依存关系矩阵为基础构造输入文本句的依存关系图,再使用图卷积神经网络从依存关系图中提取文本结构特征;步骤3,提取融合上下文语境的实体对特征使用双向LSTM网络结构编码文本句中实体对的单词级上下文特征和BERT中用于的分类词向量表征句子的上下文语境,再将上下文语境特征通过投影的方式融入词向量,然后使用分段池化神经网络将主、客实体内的词向量进行融合,得到句子的实体对特征;步骤4,基于相似

差异关系网络实现小样本关系抽取所述相似

差异关系网络包含相似性关系提取模块、差异性关系提取模块两个部分;相似性关系提取模块能够度量含实体关系的文本实例之间在多个维度上的相似程度,差异性关系提取模块用于度量在不同维度上语义特征的差异程度;相似性度量模块和差异性度量模块网络结构相同,但参数相互独立;基于Episode的元任务训练策略对模型进行训练,在每轮Episode训练时,先对句子的特征进行“广播式”连接,再将连接后的特征向量输入相似

差异关系网络提取相似性和差异性,最终基于相似性和差异性实现小样本关系抽取;同时,利用同类型关系的相似性分布的KL散度和预测结果的交叉熵损失作为模型损失函数,对模型参数进行训练。2.根据权利要求1所述的面向内容大数据的小样本关系抽取方法,其特征在于,所述步骤1具体包括如下过程:使用预训练语言模型BERT的基础版对句子进行向量化,计算如式(1)所示,其中[CLS]表示能够表征句子上下文的分类特征向量,[SEP]表示分句词向量,sentence=[w1,w2,

,w
L
]表示句子的单词列表,L表示文本句长度:H
bert
=BERT
base
([CLS];sentence;[SEP])=[h
CLS
,h1,h2,

,h
L
,h
SEP
]
ꢀꢀꢀꢀ
(1)再使用仿射层对预训练的词向量进行降维,计算如式(2)所示,其中表示拼接操作,便于将偏置也通过参数矩阵U
(bert)
进行训练:使用双向LSTM获取嵌入字符信息的单词向量h
chars
,最后计算出的词向量输入h
word
是由经过降维的预训练词向量h
pre

train
和嵌入了字符信息的词向量h
chars
拼接得到,h
chars
和h
word
计算分别如式(3)和式(4)所示:h
word
=[h
pre

train
;h
chars
]
ꢀꢀꢀꢀꢀꢀ
(4)。3.根据权利要求1所述的面向内容大数据的小样本关系抽取方法,其特征在于,所述步
骤2具体包括如下过程:在进行双仿射变换之前先使用两个多层感知机MLP
(arc

head)
和MLP
(arc

dep)
将词向量的维度从D
emb
减小到k,降低神经网络的维度,多层感知机降维的计算如式(5)和式(6)所示:减小到k,降低神经网络的维度,多层感知机降维的计算如式(5)和式(6)所示:输入句子中含有L个单词,包含添加的根节点ROOT在内一共d=L+1个Token,每个Token都需要一个分数向量以描述该Token与其他Token的依存关系是否存在,句子中所有的分数向量组成分数矩阵每个Token的依存弧是否存在的概率计算如式(7)所示,其中是由d个Token的特征经过多层感知机降维后的特征向量组成,与是需要通过训练学习的权值参数;将式(7)中两个权值参数结合后,依存弧成立的分数矩阵S
(arc

score)
的计算如式(8),其中由U
(1)

【专利技术属性】
技术研发人员:杨鹏娄健程昌虎张磊宏
申请(专利权)人:北京华成智云软件股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1