一种基于知识图谱和文本对分类的立场检测方法技术

技术编号:39181514 阅读:11 留言:0更新日期:2023-10-27 08:29
本发明专利技术涉及立场检测领域,其公开了一种基于知识图谱和文本对分类的立场检测方法,目的在于提高知识图谱的利用率,降低外部知识对句意的影响,并缓解立场检测目标外置导致的检测性能损失。本发明专利技术的方法,首先根据原始输入文本及立场检测目标对知识图谱进行知识初筛,构建备选知识池;然后,将给定的立场检测目标及其不同立场类别分别与备选知识池中的所有三元组相结合,构建不同立场类别表征的辅助句;最后,将构建的不同立场表征的辅助句分别与原始输入文本组合为输入对,并输入至文本检测模型,通过文本检测模型输出该原始输入文本的立场检测结果。本发明专利技术适用于需要对文本进行立场检测的场景。检测的场景。检测的场景。

【技术实现步骤摘要】
一种基于知识图谱和文本对分类的立场检测方法


[0001]本专利技术涉及立场检测领域,具体涉及一种基于知识图谱和文本对分类的立场检测方法。

技术介绍

[0002]立场检测的目的是将一段文本根据给定的立场检查目标,划分为支持、反对和中立三类或是在此基础上细分的多种类型。知识图谱是一种以实体—关系—实体形式的三元组为基本单位构成的语义网络,其网状结构可以用于表示现实世界中实体的复杂关系,这一特性使得知识图谱被广泛用于各种立场检测方法。
[0003]目前基于知识图谱的立场检测方案中,大多是将知识图谱中的三元组用作注入到句子中的领域知识,利用知识图谱增强BERT来进行立场检测,但其未将知识图谱与立场检测目标将结合,导致立场检测目标外置,知识图谱的作用很难被区分为辅助还是外源的低效答案库,从而损失了检测性能。
[0004]此外,为了进行立场检测构建知识图谱所进行的海量数据收集以及实体和关系抽取工作,在进行立场检测时,绝大部分都被模型和知识筛选算法弃置。因此,如何提高知识图谱的利用率也应当被关注。然而,如果要引入更多的知识,就不得不解决外部知识对句意的干扰问题,否则也会影响检测的准确性。

技术实现思路

[0005]本专利技术所要解决的技术问题是:提出一种基于知识图谱和文本对分类的立场检测方法,目的在于提高知识图谱的利用率,降低外部知识对句意的影响,并缓解立场检测目标外置导致的检测性能损失。
[0006]本专利技术解决上述技术问题采用的技术方案是:
[0007]一种基于知识图谱和文本对分类的立场检测方法,包括以下步骤:
[0008]S1、针对给定的立场检测目标和原始输入文本,提取两者所包含的实体并进行任意的两两组合,构成实体对集合;
[0009]S2、将实体对集合中的各实体对分别与知识图谱中的实体对进行匹配,获得知识图谱中与实体对集合中各实体对相匹配的三元组,构建为备选知识池;
[0010]S3、将给定的立场检测目标及针对该立场检测目标的不同立场类别分别与备选知识池中的所有三元组相结合,构建不同立场类别表征的辅助句;
[0011]S4、将给定的原始输入文本分别与步骤S3中构建的不同立场类别表征的辅助句组合为输入对,并分别输入至文本检测模型,通过所述文本检测模型输出该原始输入文本隶属不同立场类别的置信度,并以最大置信度所对应立场类别作为该原始输入文本的立场检测结果。
[0012]进一步的,步骤S2中,将实体对集合中的各实体对分别与知识图谱中的实体对进行匹配,获得知识图谱中与实体对集合中各实体对相匹配的三元组,构建为备选知识池,包
括:
[0013]首先,将实体对集合中的各实体对分别与知识图谱中的实体对进行直接匹配,获得知识图谱中实体对分别与实体对集合中的各实体对相一致的三元组,构建为初始的备选知识池;
[0014]然后,将初始的备选知识池中的三元组与知识图谱中的三元组,进行模糊匹配,将满足预设条件的知识图谱中的三元组加入备选知识池,获得第一次扩充后的备选知识池;
[0015]再然后,将第一次扩充后的备选知识池中的三元组与知识图谱中的三元组,进行语义相似度匹配,将满足预设条件的知识图谱中的三元组加入备选知识池,获得第二次扩充后的备选知识池。
[0016]具体的,将实体对集合中的各实体对分别与知识图谱中的实体对进行直接匹配,获得知识图谱中实体对分别与实体对集合中的各实体对相一致的三元组,构建为初始的备选知识池,具体为:
[0017]对于实体对集合中的实体对T=(t
i
,t
j
),当满足以下条件时:
[0018]T=(t
i
,t
j
)∈K=(k
m
,r,k
n
),i≠j,m≠n
[0019]将知识图谱中的三元组K加入备选知识池;
[0020]其中,k
m
、k
n
、r分别为知识图谱中的三元组中的头实体、尾实体以及关系;t
i
,t
j
分别为给定的原始输入文本中的实体。
[0021]具体的,将初始的备选知识池中的三元组与知识图谱中的三元组,进行模糊匹配,将满足预设条件的知识图谱中的三元组加入备选知识池,获得第一次扩充后的备选知识池,具体为:
[0022]将知识图谱中满足下式的三元组K
f
加入备选知识池:
[0023][0024]其中,Fuzz()为模糊匹配函数,m
f
是模糊匹配后备选知识池中的三元组数量,m是模糊匹配前备选知识池中的三元组数量,L
f
是设定的模糊匹配数量上限,S
f
是模糊匹配相似度阈值。
[0025]具体的,模糊匹配相似度阈值S
f
的计算方式如下:
[0026][0027]其中,l
t
是知识图谱中的三元组的平均长度,l
e
是知识图谱中的三元组中的实体的平均长度,l
r
是知识图谱中的三元组中的关系的平均长度。
[0028]具体的,将第一次扩充后的备选知识池中的三元组与知识图谱中的三元组,进行语义相似度匹配,将满足预设条件的知识图谱中的三元组加入备选知识池,获得第二次扩充后的备选知识池,具体为:
[0029]将知识图谱中满足下式的三元组K
s
加入备选知识池:
[0030][0031]其中,Similarity()为语义相似度匹配函数,m
s
是语义相似度匹配后备选知识池中的三元组数量,m

是语义相似度匹配前备选知识池中的三元组数量,L
s
是设定的语义相
似度匹配数量上限;S
se
是设定的语义相似度阈值。
[0032]具体的,步骤S3中,将给定的立场检测目标及针对该立场检测目标的不同立场类别分别与备选知识池中的所有三元组相结合,构建不同立场类别表征的辅助句,包括:
[0033]首先,对备选知识池K={K1,K2,...,K
n
}进行序列化,并添加描述性前缀p
d
,获得知识序列K


[0034]K

=[p
d
,h1,r1,t1,h2,r2,t2,...,h
n
,r
n
,t
n
][0035]其中,描述性前缀p
d
是预设的使得备选知识池的序列化三元组构成陈述性语句形式存在的前缀,所述h、r和t分别表示头实体、关系和尾实体,所述h、r和t的下标则为该三元组在备选知识池中的序号;
[0036]将立场检测目标及针对该立场检测目标的不同立场类别分别进行组合,获得立场文本:
[0037]Sup
l
=tgt+sfx
l
[00本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于知识图谱和文本对分类的立场检测方法,其特征在于,包括以下步骤:S1、针对给定的立场检测目标和原始输入文本,提取两者所包含的实体并进行任意的两两组合,构成实体对集合;S2、将实体对集合中的各实体对分别与知识图谱中的实体对进行匹配,获得知识图谱中与实体对集合中各实体对相匹配的三元组,构建为备选知识池;S3、将给定的立场检测目标及针对该立场检测目标的不同立场类别分别与备选知识池中的所有三元组相结合,构建不同立场类别表征的辅助句;S4、将给定的原始输入文本分别与步骤S3中构建的不同立场类别表征的辅助句组合为输入对,并分别输入至文本检测模型,通过所述文本检测模型输出该原始输入文本隶属不同立场类别的置信度,并以最大置信度所对应立场类别作为该原始输入文本的立场检测结果。2.如权利要求1所述的一种基于知识图谱和文本对分类的立场检测方法,其特征在于,步骤S2中,将实体对集合中的各实体对分别与知识图谱中的实体对进行匹配,获得知识图谱中与实体对集合中各实体对相匹配的三元组,构建为备选知识池,包括:首先,将实体对集合中的各实体对分别与知识图谱中的实体对进行直接匹配,获得知识图谱中实体对分别与实体对集合中的各实体对相一致的三元组,构建为初始的备选知识池;然后,将初始的备选知识池中的三元组与知识图谱中的三元组,进行模糊匹配,将满足预设条件的知识图谱中的三元组加入备选知识池,获得第一次扩充后的备选知识池;再然后,将第一次扩充后的备选知识池中的三元组与知识图谱中的三元组,进行语义相似度匹配,将满足预设条件的知识图谱中的三元组加入备选知识池,获得第二次扩充后的备选知识池。3.如权利要求2所述的一种基于知识图谱和文本对分类的立场检测方法,其特征在于,将实体对集合中的各实体对分别与知识图谱中的实体对进行直接匹配,获得知识图谱中实体对分别与实体对集合中的各实体对相一致的三元组,构建为初始的备选知识池,具体为:对于实体对集合中的实体对T=(t
i
,t
j
),当满足以下条件时:T=(t
i
,t
j
)∈K=(k
m
,r,k
n
),i≠j,m≠n将知识图谱中的三元组K加入备选知识池;其中,k
m
、k
n
、r分别为知识图谱中的三元组中的头实体、尾实体以及关系;t
i
,t
j
分别为给定的原始输入文本中的实体。4.如权利要求2所述的一种基于知识图谱和文本对分类的立场检测方法,其特征在于,将初始的备选知识池中的三元组与知识图谱中的三元组,进行模糊匹配,将满足预设条件的知识图谱中的三元组加入备选知识池,获得第一次扩充后的备选知识池,具体为:将知识图谱中满足下式的三元组K
f
加入备选知识池:其中,Fuzz()为模糊匹配函数,m
f
是模糊匹配后备选知识池中的三元组数量,m是模糊匹配前备选知识池中的三元组数量,L
f
是设定的模糊匹配数量上限,S
f
是模糊匹配相似度阈
值。5.如权利要求4所述的一种基于知识图谱和文本对分类的立场检测方法,其特征在于,模糊匹配相似度阈值S
f
的计算方式如下:其中,l
t
是知识图谱中的三元组的平均长度,l
e
是知识图谱中的三元组中的实体的平均长度,l
r
是知识图谱中的三元组中的关系的平均长度。6.如权利要求2所述的一种基于知识图谱和文本对分类的立场检测方法,其特征在于,将第一次扩充后的备选知识池中的三元组与知识图谱中的三元组,进行语义相似度匹配,将满足预设条件的知识图谱中的三元组加入备选知识池,获得第二次扩充后的备选知识池,具体为:将知识图谱中满足下式的三元组K
s
加入备选知识池:其中,Similarity()为语义相似度匹配函数,m
s
是语义相似度匹配后备选知识池中的三元组数量,m

是语义相似度匹配前备选知识池中的三元组数量,L
s
是设定的语义相似度匹配数量上限;S
se
是设定的语...

【专利技术属性】
技术研发人员:龚敬惠孛张栗粽
申请(专利权)人:成都开源众智信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1