一种SPO的选择方法、装置、电子设备及存储介质制造方法及图纸

技术编号:24497943 阅读:74 留言:0更新日期:2020-06-13 03:48
本申请公开了一种SPO的选择方法、装置、电子设备及存储介质,涉及人工智能、知识图谱领域。具体实现方案为:将上游设备抽取出的当前SP对应的多个O值进行过滤,得到所述当前SP对应的符合约束条件的SPO;根据所述当前SP对应的符合约束条件的SPO以及预先确定的所述符合约束条件的SPO中的各个O值的得分,在所述符合约束条件的SPO中选择出N个SPO;其中,N为大于等于1的自然数。在上游模型存在错误的情况下,本申请实施例可以过滤掉不符合约束条件的SPO,从而可以提高选择SPO的准确率。

Selection method, device, electronic equipment and storage medium of spo

【技术实现步骤摘要】
一种SPO的选择方法、装置、电子设备及存储介质
本申请涉及计算机处理
,进一步涉及人工智能技术,尤其是一种三元组SPO的选择方法、装置、电子设备及存储介质。
技术介绍
知识图谱是从语义角度用结构化形式表示的真实世界知识的大规模知识库,是一张有向图,其中包括实体(节点)、关系(边)等要素。三元组SPO,是指实体对(主语S-宾语Opair)与它们间的关系(谓语P)构成的三元组。知识图谱中的SPO三元组数据可广泛的用于搜索和推荐产品中,既可以直接满足用户对于实体关联的需求,也可以有效提高人们检索和浏览实体的效率,提升用户体验。一方面,开放SPO抽取是多个来源的,不同来源可能有冲突;另一方面,存在抽取算法准确率和数据源质量问题,因此需要融合择优解决从质量参差不齐的来源里面选择正确的SPO,保证输出事实知识的准确性。在现有技术中,通常采用以下两种方案实现SPO的选择:(1)基于SPO出现的次数进行选择:对每个SPO在各个文本中被抽取的次数进行投票,将出现次数最多或者高于某一次数预设阈值的SPO作为最终选择结果;(2)基于SPO置信度得分进行选择:对于各个来源的文本或不同的抽取模型赋予不同的权值,通过加权求和的方式得到每个SPO最终的置信度打分,将得分最高或者超过某一得分阈值的SPO作为最终选择结果。在实现本专利技术的过程中,专利技术人发现现有技术中至少存在如下问题:针对上述方案(1)和(2),都过于依赖上游设备的挖掘效果,如果上游设备本身存在错误,仅通过计数或者加和的方式,会导致最终选择出的SPO的准确率降低。
技术实现思路
有鉴于此,本申请提出实施例提供一种SPO的选择方法、装置、电子设备及存储介质,在上游模型存在错误的情况下,可以过滤掉不符合约束条件的SPO,从而可以提高选择SPO的准确率。第一方面,本申请实施例提供了一种SPO的选择方法,所述方法包括:将上游设备抽取出的当前主语和谓语SP对应的多个宾语O值进行过滤,得到所述当前SP对应的符合约束条件的SPO;根据所述当前SP对应的符合约束条件的SPO以及预先确定的所述符合约束条件的SPO中的各个O值的得分,在所述符合约束条件的SPO中选择出N个SPO;其中,N为大于等于1的自然数。上述实施例具有如下优点或有益效果:上述实施例通过将上游设备抽取出的当前SP对应的多个O值进行过滤,从而可以过滤掉不符合约束条件的SPO,保留下符合约束条件的SPO,这样可以在符合约束条件的SPO中选择出若干个SPO,而不是在全部的SPO中选择出若干个SPO,由于减小了SPO的选择范围,所以可以提高选择SPO的准确率。在上述实施例中,在所述将上游设备抽取出的当前SP对应的多个O值进行过滤之前,所述方法还包括:判断所述当前SP是否为有效的SP;若判定出所述当前SP为有效的SP,则执行所述将上游设备抽取出的当前SP对应的多个O值进行过滤的操作。上述实施例具有如下优点或有益效果:上述实施例可以通过判断SP的有效性,可以只针对有效的SP进行选择SPO的操作,而不针对无效的SP进行选择SPO的操作,这样可以节省时间,提高效率。在上述实施例中,所述将上游设备抽取出的当前SP对应的多个O值进行过滤,包括:获取所述当前SP对应的各个O值的类别;将所述当前SP对应的各个O值的类别与预先确定的当前P值的类别进行匹配;其中,所述当前P值为所述当前SP中的P值;若所述当前SP对应的各个O值的类别与所述当前P值的类别匹配成功,则将匹配成功的O值确定为所述当前SP对应的有效的O值;根据所述当前SP以及所述有效的O值确定出所述符合约束条件的SPO。上述实施例具有如下优点或有益效果:上述实施例通过将各个O值的类别与当前P值的类别进行匹配,可以得到当前SP对应的有效的O值和当前SP对应的无效的O值,这里只保留当前SP对应的有效的O值,然后根据当前SP以及有效的O值确定出符合约束条件的SPO,由于采取了类别匹配的技术手段,从而可以提高选择SPO的准确率。在上述实施例中,所述在所述符合约束条件的SPO中选择出N个SPO,包括:将所述当前SP对应的各个O值的得分进行累加,并根据各个O值的累加得分对所述当前SP对应的全部O值进行排序;在所述当前SP中提取出当前P值,并根据所述当前P值以及预先确定的P值与属性的对应关系,确定出所述当前P值的属性;其中,所述当前P值的属性包括:单值属性或者多值属性;若所述当前P值的属性为所述单值属性,则根据排序后的各个O值的累加得分,在所述符合约束条件的SPO中选择出一个SPO;若所述当前P值的属性为所述多值属性,则根据排序后的各个O值的累加得分以及预先确定的每个P值对应的O值的概率分布,在所述符合约束条件的SPO中选择出多个SPO。上述实施例具有如下优点或有益效果:上述实施例通过区别当前P值的属性,可以将其划分到单值属性和多值属性中,针对不同的属性采取不同的手段,即:若当前P值的属性为单值属性,则根据排序后的各个O值的累加得分,在符合约束条件的SPO中选择出一个SPO;若当前P值的属性为多值属性,则根据排序后的各个O值的累加得分以及预先确定的每个P值对应的O值的概率分布,在符合约束条件的SPO中选择出多个SPO。这样可以更加快速地选择出符合约束条件的SPO。在上述实施例中,所述根据排序后的各个O值的累加得分以及预先确定的每个P值对应的O值的概率分布,在所述符合约束条件的SPO中选择出多个SPO,包括:若第M个O值的得分乘以第M个O值的先验概率大于第M+1个O值的得分乘以第M+1个O值的先验概率,则在所述排序后的各个O值中选择出前M个O值,并根据所述前M个O值确定出M个SPO;其中,M为大于1的自然数。上述实施例具有如下优点或有益效果:上述实施例根据O值的得分和O值的先验概率,将第M个O值的得分乘以第M个O值的先验概率与第M+1个O值的得分乘以第M+1个O值的先验概率进行比较,若第M个O值的得分乘以第M个O值的先验概率大于第M+1个O值的得分乘以第M+1个O值的先验概率,则在排序后的各个O值中选择出前M个O值,可以快速准确地在多个O值中选择出M个O值,从而可以根据选择出的M个O值确定出M个SPO。第二方面,本申请还提供了一种SPO的选择装置,所述装置包括:SPO过滤模块和O值判断模块;其中,所述SPO过滤模块,用于将上游设备抽取出的当前主语和谓语SP对应的多个宾语O值进行过滤,得到所述当前SP对应的符合约束条件的SPO;所述O值判断模块,用于根据所述当前SP对应的符合约束条件的SPO以及预先确定的所述符合约束条件的SPO中的各个O值的得分,在所述符合约束条件的SPO中选择出N个SPO;其中,N为大于等于1的自然数。在上述实施例中,所述装置还包括:SP-NIL判定模块,用于判断所述当前SP是否为有效的SP;若判定出所述当前SP为有效的SP,则通过所述SPO过滤模块执行所述将上游设备本文档来自技高网
...

【技术保护点】
1.一种三元组SPO的选择方法,其特征在于,所述方法包括:/n将上游设备抽取出的当前主语和谓语SP对应的多个宾语O值进行过滤,得到所述当前SP对应的符合约束条件的SPO;/n根据所述当前SP对应的符合约束条件的SPO以及预先确定的所述符合约束条件的SPO中的各个O值的得分,在所述符合约束条件的SPO中选择出N个SPO;其中,N为大于等于1的自然数。/n

【技术特征摘要】
1.一种三元组SPO的选择方法,其特征在于,所述方法包括:
将上游设备抽取出的当前主语和谓语SP对应的多个宾语O值进行过滤,得到所述当前SP对应的符合约束条件的SPO;
根据所述当前SP对应的符合约束条件的SPO以及预先确定的所述符合约束条件的SPO中的各个O值的得分,在所述符合约束条件的SPO中选择出N个SPO;其中,N为大于等于1的自然数。


2.根据权利要求1所述的方法,其特征在于,在所述将上游设备抽取出的当前SP对应的多个O值进行过滤之前,所述方法还包括:
判断所述当前SP是否为有效的SP;
若判定出所述当前SP为有效的SP,则执行所述将上游设备抽取出的当前SP对应的多个O值进行过滤的操作。


3.根据权利要求1所述的方法,其特征在于,所述将上游设备抽取出的当前SP对应的多个O值进行过滤,包括:
获取所述当前SP对应的各个O值的类别;
将所述当前SP对应的各个O值的类别与预先确定的当前P值的类别进行匹配;其中,所述当前P值为所述当前SP中的P值;
若所述当前SP对应的各个O值的类别与所述当前P值的类别匹配成功,则将匹配成功的O值确定为所述当前SP对应的有效的O值;
根据所述当前SP以及所述有效的O值确定出所述符合约束条件的SPO。


4.根据权利要求1所述的方法,其特征在于,所述在所述符合约束条件的SPO中选择出N个SPO,包括:
将所述当前SP对应的各个O值的得分进行累加,并根据各个O值的累加得分对所述当前SP对应的全部O值进行排序;
在所述当前SP中提取出当前P值,并根据所述当前P值以及预先确定的P值与属性的对应关系,确定出所述当前P值的属性;其中,所述当前P值的属性包括:单值属性或者多值属性;
若所述当前P值的属性为所述单值属性,则根据排序后的各个O值的累加得分,在所述符合约束条件的SPO中选择出一个SPO;
若所述当前P值的属性为所述多值属性,则根据排序后的各个O值的累加得分以及预先确定的每个P值对应的O值的概率分布,在所述符合约束条件的SPO中选择出多个SPO。


5.根据权利要求4所述的方法,其特征在于,所述根据排序后的各个O值的累加得分以及预先确定的每个P值对应的O值的概率分布,在所述符合约束条件的SPO中选择出多个SPO,包括:
若第M个O值的得分乘以第M个O值的先验概率大于第M+1个O值的得分乘以第M+1个O值的先验概率,则在所述排序后的各个O值中选择出前M个O值,并根据所述前M个O值确定出M个SPO;其中,M为大于1的自然数。


6.一种三元组SPO的选择装置,其特征在于,所述装置包括:SPO过滤模块和O值判断模块;其中,
所述SPO过滤模块,用于将上游设备抽取出的当前主语和谓语SP对应的多个宾语O值进行过滤,得到所述当前SP对应的符合约束条件的SP...

【专利技术属性】
技术研发人员:贺薇李双婕史亚冰蒋烨张扬朱勇
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1