【技术实现步骤摘要】
一种SPO的选择方法、装置、电子设备及存储介质
本申请涉及计算机处理
,进一步涉及人工智能技术,尤其是一种三元组SPO的选择方法、装置、电子设备及存储介质。
技术介绍
知识图谱是从语义角度用结构化形式表示的真实世界知识的大规模知识库,是一张有向图,其中包括实体(节点)、关系(边)等要素。三元组SPO,是指实体对(主语S-宾语Opair)与它们间的关系(谓语P)构成的三元组。知识图谱中的SPO三元组数据可广泛的用于搜索和推荐产品中,既可以直接满足用户对于实体关联的需求,也可以有效提高人们检索和浏览实体的效率,提升用户体验。一方面,开放SPO抽取是多个来源的,不同来源可能有冲突;另一方面,存在抽取算法准确率和数据源质量问题,因此需要融合择优解决从质量参差不齐的来源里面选择正确的SPO,保证输出事实知识的准确性。在现有技术中,通常采用以下两种方案实现SPO的选择:(1)基于SPO出现的次数进行选择:对每个SPO在各个文本中被抽取的次数进行投票,将出现次数最多或者高于某一次数预设阈值的SPO作为最终选择结果;(2)基于SPO置信度得分进行选择:对于各个来源的文本或不同的抽取模型赋予不同的权值,通过加权求和的方式得到每个SPO最终的置信度打分,将得分最高或者超过某一得分阈值的SPO作为最终选择结果。在实现本专利技术的过程中,专利技术人发现现有技术中至少存在如下问题:针对上述方案(1)和(2),都过于依赖上游设备的挖掘效果,如果上游设备本身存在错误,仅通过计数或者加和的方式,会导致最终选择出 ...
【技术保护点】
1.一种三元组SPO的选择方法,其特征在于,所述方法包括:/n将上游设备抽取出的当前主语和谓语SP对应的多个宾语O值进行过滤,得到所述当前SP对应的符合约束条件的SPO;/n根据所述当前SP对应的符合约束条件的SPO以及预先确定的所述符合约束条件的SPO中的各个O值的得分,在所述符合约束条件的SPO中选择出N个SPO;其中,N为大于等于1的自然数。/n
【技术特征摘要】
1.一种三元组SPO的选择方法,其特征在于,所述方法包括:
将上游设备抽取出的当前主语和谓语SP对应的多个宾语O值进行过滤,得到所述当前SP对应的符合约束条件的SPO;
根据所述当前SP对应的符合约束条件的SPO以及预先确定的所述符合约束条件的SPO中的各个O值的得分,在所述符合约束条件的SPO中选择出N个SPO;其中,N为大于等于1的自然数。
2.根据权利要求1所述的方法,其特征在于,在所述将上游设备抽取出的当前SP对应的多个O值进行过滤之前,所述方法还包括:
判断所述当前SP是否为有效的SP;
若判定出所述当前SP为有效的SP,则执行所述将上游设备抽取出的当前SP对应的多个O值进行过滤的操作。
3.根据权利要求1所述的方法,其特征在于,所述将上游设备抽取出的当前SP对应的多个O值进行过滤,包括:
获取所述当前SP对应的各个O值的类别;
将所述当前SP对应的各个O值的类别与预先确定的当前P值的类别进行匹配;其中,所述当前P值为所述当前SP中的P值;
若所述当前SP对应的各个O值的类别与所述当前P值的类别匹配成功,则将匹配成功的O值确定为所述当前SP对应的有效的O值;
根据所述当前SP以及所述有效的O值确定出所述符合约束条件的SPO。
4.根据权利要求1所述的方法,其特征在于,所述在所述符合约束条件的SPO中选择出N个SPO,包括:
将所述当前SP对应的各个O值的得分进行累加,并根据各个O值的累加得分对所述当前SP对应的全部O值进行排序;
在所述当前SP中提取出当前P值,并根据所述当前P值以及预先确定的P值与属性的对应关系,确定出所述当前P值的属性;其中,所述当前P值的属性包括:单值属性或者多值属性;
若所述当前P值的属性为所述单值属性,则根据排序后的各个O值的累加得分,在所述符合约束条件的SPO中选择出一个SPO;
若所述当前P值的属性为所述多值属性,则根据排序后的各个O值的累加得分以及预先确定的每个P值对应的O值的概率分布,在所述符合约束条件的SPO中选择出多个SPO。
5.根据权利要求4所述的方法,其特征在于,所述根据排序后的各个O值的累加得分以及预先确定的每个P值对应的O值的概率分布,在所述符合约束条件的SPO中选择出多个SPO,包括:
若第M个O值的得分乘以第M个O值的先验概率大于第M+1个O值的得分乘以第M+1个O值的先验概率,则在所述排序后的各个O值中选择出前M个O值,并根据所述前M个O值确定出M个SPO;其中,M为大于1的自然数。
6.一种三元组SPO的选择装置,其特征在于,所述装置包括:SPO过滤模块和O值判断模块;其中,
所述SPO过滤模块,用于将上游设备抽取出的当前主语和谓语SP对应的多个宾语O值进行过滤,得到所述当前SP对应的符合约束条件的SP...
【专利技术属性】
技术研发人员:贺薇,李双婕,史亚冰,蒋烨,张扬,朱勇,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。