面向内容大数据的小样本关系抽取方法和装置制造方法及图纸

技术编号：30020727 阅读：13 留言：0更新日期：2021-09-11 06:40

本发明专利技术公开了一种面向内容大数据的小样本关系抽取方法和装置。本发明专利技术首先利用预训练语言模型和字符级LSTM对句子进行向量化处理；其次通过双仿射机制和图神经网络提取文本结构特征；同时使用单词级LSTM和BERT中表示语义信息的[CLS]词向量将上下文语境信息融入实体对的词向量，构造含语境信息的实体对特征；最后通过相似

全部详细技术资料下载

【技术实现步骤摘要】
面向内容大数据的小样本关系抽取方法和装置

[0001]本专利技术涉及一种面向内容大数据的小样本关系抽取方法和装置，属于互联网与大数据

技术介绍

[0002]随着互联网行业的不断发展，互联网中的文本数据正以指数级的速度持续增长。互联网中的文本数据具有异构性、碎片性、多源性的特点，同时蕴含了丰富的知识和信息。使用实体关系抽取方法可以从无结构的文本数据中抽取结构化的信息表示，结构化的信息表示对于知识图谱、搜索引擎、智能问答系统等应用的构建具有基础性的作用。另外，对抽取出的结构化信息进行合理、高效地组织和管理，才能更充分地挖掘以及利用文本中相互关联的信息，进而实现互联网大数据下的内容治理。实体关系抽取方法通常需要在实体标注的基础上进行，但实体标注工作往往耗时耗力且成本较高，因此研究小样本场景的实体关系抽取技术具有重要的现实意义。
[0003]近年来，基于神经网络模型的小样本关系抽取成为主流方法，但是现有的小样本关系抽取方法在提取句子特征时考虑的维度较少，并且难以高效提取文本的多维度特征。同时，在利用句子特征进行关系抽取时，现有的小样本关系抽取方法往往仅关注句子特征之间的相似性，而忽略了不同类型的实体关系间的差异性。

技术实现思路

[0004]针对现有的小样本关系抽取方法存在的问题与不足，本专利技术提出了一种面向内容大数据的小样本关系抽取方法和装置。本专利技术使用双仿射机制和图卷积神经网络从含实体对句子中提取文本结构信息和实体对信息作为句子的特征，提高特征提取的充分性。同时，本专利技术使用相似...

【技术保护点】

【技术特征摘要】
1.面向内容大数据的小样本关系抽取方法，其特征在于，包括如下步骤：步骤1，对句子进行融合字符信息的向量化使用预训练语言模型BERT对文本进行向量化，在BERT基础版的预训练词向量后加入仿射层对词向量进行降维，降低模型的参数量；使用字符级的双向LSTM获取已经嵌入了字符信息的单词向量；步骤2，提取句子的关系依存结构特征使用双仿射机制在文本序列词向量输入上实现无向的依存关系图构建，在进行双仿射变换之前先使用两个多层感知机对词向量进行降维处理，通过双仿射机制构造的依存关系矩阵为基础构造输入文本句的依存关系图，再使用图卷积神经网络从依存关系图中提取文本结构特征；步骤3，提取融合上下文语境的实体对特征使用双向LSTM网络结构编码文本句中实体对的单词级上下文特征和BERT中用于的分类词向量表征句子的上下文语境，再将上下文语境特征通过投影的方式融入词向量，然后使用分段池化神经网络将主、客实体内的词向量进行融合，得到句子的实体对特征；步骤4，基于相似
‑
差异关系网络实现小样本关系抽取所述相似
‑
差异关系网络包含相似性关系提取模块、差异性关系提取模块两个部分；相似性关系提取模块能够度量含实体关系的文本实例之间在多个维度上的相似程度，差异性关系提取模块用于度量在不同维度上语义特征的差异程度；相似性度量模块和差异性度量模块网络结构相同，但参数相互独立；基于Episode的元任务训练策略对模型进行训练，在每轮Episode训练时，先对句子的特征进行“广播式”连接，再将连接后的特征向量输入相似
‑
差异关系网络提取相似性和差异性，最终基于相似性和差异性实现小样本关系抽取；同时，利用同类型关系的相似性分布的KL散度和预测结果的交叉熵损失作为模型损失函数，对模型参数进行训练。2.根据权利要求1所述的面向内容大数据的小样本关系抽取方法，其特征在于，所述步骤1具体包括如下过程：使用预训练语言模型BERT的基础版对句子进行向量化，计算如式(1)所示，其中[CLS]表示能够表征句子上下文的分类特征向量，[SEP]表示分句词向量，sentence＝[w1,w2,
…
,w
L
]表示句子的单词列表，L表示文本句长度：H
bert
＝BERT
base
([CLS]；sentence；[SEP])＝[h
CLS
,h1,h2,
…
,h
L
,h
SEP
]
ꢀꢀꢀꢀ
(1)再使用仿射层对预训练的词向量进行降维，计算如式(2)所示，其中表示拼接操作，便于将偏置也通过参数矩阵U
(bert)
进行训练：使用双向LSTM获取嵌入字符信息的单词向量h
chars
，最后计算出的词向量输入h
word
是由经过降维的预训练词向量h
pre
‑
train
和嵌入了字符信息的词向量h
chars
拼接得到，h
chars
和h
word
计算分别如式(3)和式(4)所示：h
word
＝[h
pre
‑
train
；h
chars
]
ꢀꢀꢀꢀꢀꢀ
(4)。3.根据权利要求1所述的面向内容大数据的小样本关系抽取方法，其特征在于，所述步
骤2具体包括如下过程：在进行双仿射变换之前先使用两个多层感知机MLP
(arc
‑
head)
和MLP
(arc
‑
dep)
将词向量的维度从D
emb
减小到k，降低神经网络的维度，多层感知机降维的计算如式(5)和式(6)所示：减小到k，降低神经网络的维度，多层感知机降维的计算如式(5)和式(6)所示：输入句子中含有L个单词，包含添加的根节点ROOT在内一共d＝L+1个Token，每个Token都需要一个分数向量以描述该Token与其他Token的依存关系是否存在，句子中所有的分数向量组成分数矩阵每个Token的依存弧是否存在的概率计算如式(7)所示，其中是由d个Token的特征经过多层感知机降维后的特征向量组成，与是需要通过训练学习的权值参数；将式(7)中两个权值参数结合后，依存弧成立的分数矩阵S
(arc
‑
score)
的计算如式(8)，其中由U
(1)

【专利技术属性】
技术研发人员：杨鹏，娄健，程昌虎，张磊宏，
申请(专利权)人：北京华成智云软件股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人