【技术实现步骤摘要】
图谱优化方法、装置、终端及存储介质
本专利技术涉及互联网
,具体涉及计算机处理
,尤其涉及一种图谱优化方法、一种图谱优化装置、一种终端及一种计算机存储介质。
技术介绍
实体词是一种用于表示真实的具体事物,且无法再进行下位的词;一个实体词通常会具有多个上位词,所谓的上位词是指概念上外延更广的主题词;例如,实体词为“波斯猫”,则该实体词的上位词通常包括“猫”“猫科动物”“动物”等。目前,针对具有多个上位词的实体词而言,通常会采用该实体词和相应的多个上位词构建得到该实体词所对应的图谱,以便于后续可使用该图谱执行一系列关于该实体词的业务处理。然而,经研究表明:由于实体词的上位词通常是从互联网数据中获取到的,其可能会存在一些错误的上位词;这些错误的上位词容易导致构建的图谱中数据的噪声较大,从而导致该图谱难以使用。因此,如何对构建得到的图谱进行优化,以提高图谱的准确性成为了研究热点。
技术实现思路
本专利技术实施例提供了一种图谱优化方法、装置、终端及计算机存储介质,可以较好地去除图谱中数据的噪声,提高图谱的准确性及使用价值。一方面,本专利技术实施例提供了一种图谱优化方法,该图谱优化方法包括:获取目标实体词的初始图谱,所述初始图谱包括多层节点,底层节点存储所述目标实体词,非底层节点存储所述目标实体词的上位词,连接任意两个节点的边表示所述任意两个节点所存储的词之间的上下位关系;获取所述初始图谱中的至少一个非底层节点的节点信息,任一非底层节点的节点信息包括:所述非底层节点所存储的 ...
【技术保护点】
1.一种图谱优化方法,其特征在于,包括:/n获取目标实体词的初始图谱,所述初始图谱包括多层节点,底层节点存储所述目标实体词,非底层节点存储所述目标实体词的上位词,连接任意两个节点的边表示所述任意两个节点所存储的词之间的上下位关系;/n获取所述初始图谱中的至少一个非底层节点的节点信息,任一非底层节点的节点信息包括:所述非底层节点所存储的上位词位于所述非底层节点当前所在的节点层的概率值,或者所述非底层节点所存储的上位词的类簇;/n根据所述至少一个非底层节点的节点信息对所述至少一个非底层节点进行异常节点检测;/n若检测到所述至少一个非底层节点中存在异常节点,则根据所述异常节点对所述初始图谱进行剪枝后处理,得到所述目标实体词的目标图谱。/n
【技术特征摘要】
1.一种图谱优化方法,其特征在于,包括:
获取目标实体词的初始图谱,所述初始图谱包括多层节点,底层节点存储所述目标实体词,非底层节点存储所述目标实体词的上位词,连接任意两个节点的边表示所述任意两个节点所存储的词之间的上下位关系;
获取所述初始图谱中的至少一个非底层节点的节点信息,任一非底层节点的节点信息包括:所述非底层节点所存储的上位词位于所述非底层节点当前所在的节点层的概率值,或者所述非底层节点所存储的上位词的类簇;
根据所述至少一个非底层节点的节点信息对所述至少一个非底层节点进行异常节点检测;
若检测到所述至少一个非底层节点中存在异常节点,则根据所述异常节点对所述初始图谱进行剪枝后处理,得到所述目标实体词的目标图谱。
2.如权利要求1所述的方法,其特征在于,所述非底层节点包括:所述初始图谱中的各条路径中的末尾节点;所述非底层节点的节点信息包括:所述末尾节点所存储的上位词位于所述末尾节点当前所在的节点层的概率值;
所述根据所述至少一个非底层节点的节点信息对所述至少一个非底层节点进行异常节点检测,包括:将概率值小于所述概率阈值所对应的末尾节点确定为异常节点。
3.如权利要求1所述的方法,其特征在于,所述任一非底层节点的节点信息包括:所述非底层节点所存储的上位词的类簇;所述非底层节点对应的类簇是对词对数据库中的多个词对中的上位词进行聚类得到的;
所述根据所述至少一个非底层节点的节点信息对所述至少一个非底层节点进行异常节点检测,包括:
根据各非底层节点所存储的上位词的信赖度从所述至少一个非底层节点中确定参考节点,并将所述参考节点对应的类簇作为参考类簇;
根据各非底层节点对应的类簇和所述参考类簇,从所述至少一个非底层节点中筛选出异常节点,所述异常节点对应的类簇和所述参考类簇不同。
4.如权利要求1-3任一项所述的方法,其特征在于,所述若检测到所述至少一个非底层节点中存在异常节点,则根据所述异常节点对所述初始图谱进行剪枝后处理,得到所述目标实体词的目标图谱,包括:
若检测到所述至少一个非底层节点中存在异常节点,则将所述初始图谱中所述异常节点所在的路径作为待剪枝路径;
从所述初始图谱中去除所述待剪枝路径,得到所述目标实体词的目标图谱。
5.如权利要求1所述的方法,其特征在于,所述获取目标实体词的初始图谱,包括:
获取关于目标实体词的目标数据集,所述目标数据集中包含多个词对,每个词对由所述目标实体词和所述目标实体词的一个上位词构成;
采用所述目标数据集中的多个词对,层次化构建所述目标实体词的初始图谱。
6.如权利要求5所述的方法,其特征在于,所述获取关于目标实体词的目标数据集,包括:
获取文本数据集,所述文本数据集中包括关于所述目标实体词的多个文本;
基于预设句式模板,从所述文本数据集的多个文本中提取得到至少一个候选词对,每个候选词对由所述目标实体词和所述目标实体词的上位词构成;
根据所述至少一个候选词对中的上位词和所述目标实体词之间的语义关系,对所述至少一个候选词对进行过滤处理;
将过滤后的词对添加至所述目标实体词的目标数据集中。
7.如权利要求6所述的方法,其特征在于,所述根据所述至少一个候选词对中的上位词和所述目标实体词之间的语义关系,对所述至少一个候选词对进行过滤处理,包括:
针对任一候选词对,获取所述任一候选词对中的上位词的上位词向量,以及所述目标实体词的实体词向量;所述词向量用于表示词的语义特征;
根据所述上位词向量和所述实体词向量,计算得到所述任一候选词对的实际关系向量;并调用自编码器根据所述任一候选词对中的上位词和所述目标实体词,预测得到所述任一候选词对的预测关系向量;
根据所述实际关系向量和所述预测关系向量,校验所述任一候选词对中的上位词和所述目标实体词之间的上下位关系;
若校验成...
【专利技术属性】
技术研发人员:林振斌,王晓利,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。