基于知识注入的用户关系挖掘方法和装置制造方法及图纸

技术编号:36873195 阅读:15 留言:0更新日期:2023-03-15 20:13
本文提供了一种基于知识注入的用户关系挖掘方法和装置,所述方法包括:获得预设外部数据集的数据特征;将待挖掘文档划分为第一集合和第二集合;将所述待挖掘文档输入到文档级关系提取模型中的编码层中,以获得所述第一集合和所述第二集合的隐藏表示;将所述数据特征分别与所述第一集合的隐藏表示和第二集合的隐藏表示输入到文档级关系提取模型的注入层中,分别得到所述第一集合和第二集合的目标令牌表示;将所述第一集合的目标令牌表示输入到训练完成的对比学习分类器中,以获得重组后的输出结构;将所述输出结构馈送至所述文档级关系提取模型中的预测层中,以获得用户实体间的关系,本文通过知识注入提高了用户关系挖掘的准确性。准确性。准确性。

【技术实现步骤摘要】
基于知识注入的用户关系挖掘方法和装置


[0001]本文属于自然语言处理
,具体涉及一种基于知识注入的用户关系挖掘方法和装置。

技术介绍

[0002]近年来,自然语言处理领域的研究者们开始致力于知识图谱构建的研究。知识图谱究其根本是一种语义网络图,通俗来讲,就是把多种信息按照一定的规则融合在一起而得到的关系网络。知识图谱是从“关系”的角度来分析问题的,为搜索提供了新思路:直接返回问题的答案,而不是返回包含关键词的文档序列。信息抽取则是知识图谱构建的关键一步。
[0003]信息抽取的研究内容主要包括三个方面:实体抽取、实体关系抽取、事件抽取。实体关系抽取是核心任务,其问题定义为“输入一段文本,抽取出每句话中的实体及其之间的语义关系”。目前的研究主要是指从一句话中抽取出两个实体及语义关系。
[0004]现有技术的关系抽取通常依赖于逻辑规则和手工构建的特征,这些特征耗费劳动力且难以泛化。而基于神经网络的模型也只是端到端训练,利用神经网络对输入的句子及实体进行特征值提取后,并没有进行筛选,而是将这些包含着噪声的特征值矩阵进行模型训练,这就导致模型学习了部分错误数据产生的特征值,从而影响到最后对两个实体的关系进行预测的效果。

技术实现思路

[0005]针对现有技术的上述问题,本文的目的在于,提供一种基于知识注入的用户关系挖掘方法和装置,以提高现有针对文档中关系挖掘的准确性。
[0006]为了解决上述技术问题,本文的具体技术方案如下:
[0007]一方面,本文提供一种基于知识注入的用户关系挖掘方法,所述方法包括:
[0008]通过实体提取模型和关系提取模型获得预设外部数据集的数据特征,所述数据特征至少包括共指三元组、关系三元组和属性三元组;
[0009]利用伯努利分布对待挖掘文档进行批次采样,将待挖掘文档划分为第一集合和第二集合;
[0010]将所述待挖掘文档输入到文档级关系提取模型中的编码层中,以获得所述第一集合和所述第二集合的隐藏表示,所述隐藏表示为令牌的上下文表示;
[0011]将所述数据特征分别与所述第一集合的隐藏表示和第二集合的隐藏表示输入到文档级关系提取模型的注入层中,分别得到所述第一集合和第二集合的目标令牌表示;
[0012]将所述第一集合的目标令牌表示输入到利用第二集合的目标令牌表示训练完成的对比学习分类器中,以获得所述第一集合重组后的输出结构;
[0013]将所述输出结构馈送至所述文档级关系提取模型中的预测层中,以获得所述待挖掘文档中用户实体间的关系。
[0014]进一步地,所述通过实体提取模型和关系提取模型获得预设外部数据集的数据特征,所述数据特征至少包括共指三元组、关系三元组和属性三元组,包括:
[0015]利用BBiGRU

GA

CRF的实体提取模型获取预设外部数据集中的最佳预测序列;
[0016]利用BiGRU

GA关系提取模型获取所述预设外部数据集中的用户关系类型;
[0017]根据所述最佳预测序列和所述用户关系类型,确定所述预设外部数据集的数据特征,所述数据特征至少包括共指三元组、关系三元组和属性三元组。
[0018]进一步地,所述将所述待挖掘文档输入到文档级关系提取模型中的编码层中,以获得所述第一集合和所述第二集合的隐藏表示,之后还包括:
[0019]将所述共指三元组带入到预先训练的共指消解模型中,得到目标共指概率;
[0020]根据所述第一集合和第二集合的隐藏表示,所述文档级关系提取模型利用多层感知器生成共指概率;
[0021]通过预设共指损失从所述预先训练的共指消解模型中学习来实施所述文档级关系提取模型;
[0022]通过上下文交换进行共指知识,确定所述第一集合和所述第二集合的增强令牌表示。
[0023]进一步地,所述通过实体提取模型和关系提取模型获得预设外部数据集的数据特征,之后还包括:
[0024]对所述属性三元组进行编码,以生成相应实体的属性表示;
[0025]将所述关系三元组对应的实体关系图和所述实体的属性表示带入到关系图注意网络中,以获得图卷积后的表示;
[0026]将图卷积后的表示进行知识编码,以获得相应的实体表示。
[0027]进一步地,所述对所述属性三元组进行编码,以生成相应实体的属性表示,包括:
[0028]针对每个实体的属性三元组,确定由属性名称和属性值连接形成的标记序列,其中所述标记序列包括多个标记令牌;
[0029]定义一个查找函数,将每个标志令牌通过转换函数转换为令牌嵌入,以获得每个实体的令牌嵌入序列,其中所述转换函数为:
[0030][0031]其中,LP(w
j
)为实体的第j个标记令牌的令牌嵌入,w
j
为实体的第j个标记令牌,WordEmb(
·
)返回单词嵌入,CharEmb(
·
)提供用跳字模型(Skip

gram)预训练的字符嵌入的平均值;
[0032]利用自编码器,将每个实体的令牌嵌入序列进行编码,以获得属性三重嵌入,其中属性三重嵌入通过如下公式表示:
[0033]q=AutoEncoder([LP(w1);...;LP(w
M
)]);
[0034]将每个实体的所有属性三重嵌入堆叠到一维卷积神经网络中,以获得实体的属性表示,其中实体的属性表示通过如下公式表示:
[0035]是实体e
i
的属性表示。
[0036]进一步地,所述通过上下文交换进行共指知识,确定所述第一集合和第二集合的
增强令牌表示,之后包括:
[0037]确定N个依次连接的堆叠聚合器,将经过多头注意力之后的增强令牌表示和实体表示进行融合处理,得到每个堆叠聚合器中的融合表示;
[0038]根据预先训练的令牌

实体对齐模型,依次从堆叠聚合器进行对齐处理,并将对齐后的增强令牌表示和实体表示进行更新和增强处理,以得到最后一个堆叠聚合器中的令牌表示序列和实体表示序列,其中所述令牌表示序列更新为目标令牌表示。
[0039]进一步地,所述令牌

实体对齐模型通过如下步骤训练:
[0040]将待挖掘文档中令牌序列和对应的候选实体作为训练集;
[0041]将所述训练集带入到待训练的令牌

实体对齐模型中,以得到对齐结果;
[0042]根据所述对齐结果和预设的多任务学习损失函数,对所述令牌

实体对齐模型进行训练,以得到收敛后的令牌

实体对齐模型;
[0043]所述多任务学习损失函数为:
[0044]L=α1·
L
cr
+α2·
L
kg
,其中,
[0045][0046本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于知识注入的用户关系挖掘方法,其特征在于,所述方法包括:通过实体提取模型和关系提取模型获得预设外部数据集的数据特征,所述数据特征至少包括共指三元组、关系三元组和属性三元组;利用伯努利分布对待挖掘文档进行批次采样,将待挖掘文档划分为第一集合和第二集合;将所述待挖掘文档输入到文档级关系提取模型中的编码层中,以获得所述第一集合和所述第二集合的隐藏表示,所述隐藏表示为令牌的上下文表示;将所述数据特征分别与所述第一集合的隐藏表示和第二集合的隐藏表示输入到文档级关系提取模型的注入层中,分别得到所述第一集合和第二集合的目标令牌表示;将所述第一集合的目标令牌表示输入到利用第二集合的目标令牌表示训练完成的对比学习分类器中,以获得所述第一集合重组后的输出结构;将所述输出结构馈送至所述文档级关系提取模型中的预测层中,以获得所述待挖掘文档中用户实体间的关系。2.根据权利要求1所述的方法,其特征在于,所述通过实体提取模型和关系提取模型获得预设外部数据集的数据特征,所述数据特征至少包括共指三元组、关系三元组和属性三元组,包括:利用BBiGRU

GA

CRF的实体提取模型获取预设外部数据集中的最佳预测序列;利用BiGRU

GA关系提取模型获取所述预设外部数据集中的用户关系类型;根据所述最佳预测序列和所述用户关系类型,确定所述预设外部数据集的数据特征,所述数据特征至少包括共指三元组、关系三元组和属性三元组。3.根据权利要求1所述的方法,其特征在于,所述将所述待挖掘文档输入到文档级关系提取模型中的编码层中,以获得所述第一集合和所述第二集合的隐藏表示,之后还包括:将所述共指三元组带入到预先训练的共指消解模型中,得到目标共指概率;根据所述第一集合和第二集合的隐藏表示,所述文档级关系提取模型利用多层感知器生成共指概率;通过预设共指损失从所述预先训练的共指消解模型中学习来实施所述文档级关系提取模型;通过上下文交换进行共指知识,确定所述第一集合和所述第二集合的增强令牌表示。4.根据权利要求3所述的方法,其特征在于,所述通过实体提取模型和关系提取模型获得预设外部数据集的数据特征,之后还包括:对所述属性三元组进行编码,以生成相应实体的属性表示;将所述关系三元组对应的实体关系图和所述实体的属性表示带入到关系图注意网络中,以获得图卷积后的表示;将图卷积后的表示进行知识编码,以获得相应的实体表示。5.根据权利要求4所述的方法,其特征在于,所述对所述属性三元组进行编码,以生成相应实体的属性表示,包括:针对每个实体的属性三元组,确定由属性名称和属性值连接形成的标记序列,其中所述标记序列包括多个标记令牌;定义一个查找函数,将每个标志令牌通过转换函数转换为令牌嵌入,以获得每个实体
的令牌嵌入序列,其中所述转换函数为:其中,LP(w
j
)为实体的第j个标记令牌的令牌嵌入,w
j
为实体的第j个标记令牌,WordEmb(
·
)返回单词嵌入,CharEmb(
·
)提供用跳字模型(Skip

gram)预训练的字符嵌入的平均值;利用自编码器,将每个实体的令牌嵌入序列进行编码,以获得属性三重嵌入,其中属性三重嵌入通过如下公式表示:q=AutoEncoder([LP(w1);...;LP(w
M
)]);将每个实体的所有属性三重嵌入堆叠到一维卷积神经网络中,以获得实体的属性表示,其中实体的属性表示通过如下公式表示:示,其中实体的属性表示通过如下公式表示:是实体e
i
的属性表示。6.根据权利要求5所述的方法,其特征在于,所述通过上下文交换...

【专利技术属性】
技术研发人员:李刚李雄
申请(专利权)人:中科紫东信息技术北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1