图谱优化方法、装置、终端及存储介质制造方法及图纸

技术编号:23343586 阅读:22 留言:0更新日期:2020-02-15 03:57
本发明专利技术实施例公开了一种图谱优化方法、装置、终端及介质,其中方法包括:获取目标实体词的初始图谱,以及获取初始图谱中的至少一个非底层节点的节点信息;根据至少一个非底层节点的节点信息对至少一个非底层节点进行异常节点检测;若检测到至少一个非底层节点中存在异常节点,则根据异常节点对初始图谱进行剪枝后处理,得到目标实体词的目标图谱。本发明专利技术实施例可以较好地去除图谱中数据的噪声,提高图谱的准确性及使用价值。

Spectrum optimization method, device, terminal and storage medium

【技术实现步骤摘要】
图谱优化方法、装置、终端及存储介质
本专利技术涉及互联网
,具体涉及计算机处理
,尤其涉及一种图谱优化方法、一种图谱优化装置、一种终端及一种计算机存储介质。
技术介绍
实体词是一种用于表示真实的具体事物,且无法再进行下位的词;一个实体词通常会具有多个上位词,所谓的上位词是指概念上外延更广的主题词;例如,实体词为“波斯猫”,则该实体词的上位词通常包括“猫”“猫科动物”“动物”等。目前,针对具有多个上位词的实体词而言,通常会采用该实体词和相应的多个上位词构建得到该实体词所对应的图谱,以便于后续可使用该图谱执行一系列关于该实体词的业务处理。然而,经研究表明:由于实体词的上位词通常是从互联网数据中获取到的,其可能会存在一些错误的上位词;这些错误的上位词容易导致构建的图谱中数据的噪声较大,从而导致该图谱难以使用。因此,如何对构建得到的图谱进行优化,以提高图谱的准确性成为了研究热点。
技术实现思路
本专利技术实施例提供了一种图谱优化方法、装置、终端及计算机存储介质,可以较好地去除图谱中数据的噪声,提高图谱的准确性及使用价值。一方面,本专利技术实施例提供了一种图谱优化方法,该图谱优化方法包括:获取目标实体词的初始图谱,所述初始图谱包括多层节点,底层节点存储所述目标实体词,非底层节点存储所述目标实体词的上位词,连接任意两个节点的边表示所述任意两个节点所存储的词之间的上下位关系;获取所述初始图谱中的至少一个非底层节点的节点信息,任一非底层节点的节点信息包括:所述非底层节点所存储的上位词位于所述非底层节点当前所在的节点层的概率值,或者所述非底层节点所存储的上位词的类簇;根据所述至少一个非底层节点的节点信息对所述至少一个非底层节点进行异常节点检测;若检测到所述至少一个非底层节点中存在异常节点,则根据所述异常节点对所述初始图谱进行剪枝后处理,得到所述目标实体词的目标图谱。另一方面,本专利技术实施例提供了一种图谱优化装置,该图谱优化装置包括:获取单元,用于获取目标实体词的初始图谱,所述初始图谱包括多层节点,底层节点存储所述目标实体词,非底层节点存储所述目标实体词的上位词,连接任意两个节点的边表示所述任意两个节点所存储的词之间的上下位关系;所述获取单元,用于获取所述初始图谱中的至少一个非底层节点的节点信息,任一非底层节点的节点信息包括:所述非底层节点所存储的上位词位于所述非底层节点当前所在的节点层的概率值,或者所述非底层节点所存储的上位词的类簇;处理单元,用于根据所述至少一个非底层节点的节点信息对所述至少一个非底层节点进行异常节点检测;所述处理单元,用于若检测到所述至少一个非底层节点中存在异常节点,则根据所述异常节点对所述初始图谱进行剪枝后处理,得到所述目标实体词的目标图谱。再一方面,本专利技术实施例提供了一种终端,所述终端包括输入设备和输出设备,所述终端还包括:处理器,适于实现一条或多条指令;以及,计算机存储介质,所述计算机存储介质存储有一条或多条指令,所述一条或多条指令适于由所述处理器加载并执行如下步骤:获取目标实体词的初始图谱,所述初始图谱包括多层节点,底层节点存储所述目标实体词,非底层节点存储所述目标实体词的上位词,连接任意两个节点的边表示所述任意两个节点所存储的词之间的上下位关系;获取所述初始图谱中的至少一个非底层节点的节点信息,任一非底层节点的节点信息包括:所述非底层节点所存储的上位词位于所述非底层节点当前所在的节点层的概率值,或者所述非底层节点所存储的上位词的类簇;根据所述至少一个非底层节点的节点信息对所述至少一个非底层节点进行异常节点检测;若检测到所述至少一个非底层节点中存在异常节点,则根据所述异常节点对所述初始图谱进行剪枝后处理,得到所述目标实体词的目标图谱。再一方面,本专利技术实施例提供了一种计算机存储介质,所述计算机存储介质存储有一条或多条指令,所述一条或多条指令适于由处理器加载并执行如下步骤:获取目标实体词的初始图谱,所述初始图谱包括多层节点,底层节点存储所述目标实体词,非底层节点存储所述目标实体词的上位词,连接任意两个节点的边表示所述任意两个节点所存储的词之间的上下位关系;获取所述初始图谱中的至少一个非底层节点的节点信息,任一非底层节点的节点信息包括:所述非底层节点所存储的上位词位于所述非底层节点当前所在的节点层的概率值,或者所述非底层节点所存储的上位词的类簇;根据所述至少一个非底层节点的节点信息对所述至少一个非底层节点进行异常节点检测;若检测到所述至少一个非底层节点中存在异常节点,则根据所述异常节点对所述初始图谱进行剪枝后处理,得到所述目标实体词的目标图谱。本专利技术实施例针对采用目标实体词和多个上位词所构建得到的初始图谱,由于该初始图谱的底层节点存储目标实体词,非底层节点存储目标实体词的上位词;因此,可先获取初始图谱中的至少一个非底层节点的节点信息,然后根据至少一个非底层节点的节点信息对至少一个非底层节点进行异常节点检测。若检测到至少一个非底层节点中存在异常节点,则可根据异常节点对初始图谱进行剪枝后处理;通过利用初始图谱的结构特点进行剪枝后处理,可以有效去除初始图谱中错误的上位词(即异常节点所存储的上位词)以及错误的上下位关系,从而保证剪枝后处理所得到的目标图谱具有较高的准确性及使用价值。附图说明为了更清楚地说明本专利技术实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1a是本专利技术实施例提供的一种图谱优化方案的示意图;图1b是本专利技术实施例提供的一种过滤器的结构示意图;图1c是本专利技术实施例提供的一种图谱的示意图;图2是本专利技术实施例提供的一种图谱优化方法的流程示意图;图3是本专利技术实施例提供的一种剪枝后处理的示意图;图4是本专利技术另一实施例提供的一种图谱优化方法的流程示意图;图5a是本专利技术实施例提供的一种矩阵分解算法的原理示意图;图5b是本专利技术实施例提供的一种对图谱进行主义项标记的示意图;图5c是本专利技术实施例提供的一种上下位关系图谱的应用场景图;图6a是本专利技术实施例提供的一种方案测试的测试结果示意图;图6b是本专利技术另一实施例提供的一种方案测试的测试结果示意图;图6c是本专利技术另一实施例提供的一种方案测试的测试结果示意图;图7是本专利技术实施例提供的一种图谱优化装置的结构示意图;图8是本专利技术实施例提供的一种终端的结构示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述。图谱是一种由多个相连接的节点所构成的网状的数据结构;每个节点可存储一个词(如实体词、上位词等)。本专利技术实施例的相关技术提及,目前在构建某目标实体词的本文档来自技高网...

【技术保护点】
1.一种图谱优化方法,其特征在于,包括:/n获取目标实体词的初始图谱,所述初始图谱包括多层节点,底层节点存储所述目标实体词,非底层节点存储所述目标实体词的上位词,连接任意两个节点的边表示所述任意两个节点所存储的词之间的上下位关系;/n获取所述初始图谱中的至少一个非底层节点的节点信息,任一非底层节点的节点信息包括:所述非底层节点所存储的上位词位于所述非底层节点当前所在的节点层的概率值,或者所述非底层节点所存储的上位词的类簇;/n根据所述至少一个非底层节点的节点信息对所述至少一个非底层节点进行异常节点检测;/n若检测到所述至少一个非底层节点中存在异常节点,则根据所述异常节点对所述初始图谱进行剪枝后处理,得到所述目标实体词的目标图谱。/n

【技术特征摘要】
1.一种图谱优化方法,其特征在于,包括:
获取目标实体词的初始图谱,所述初始图谱包括多层节点,底层节点存储所述目标实体词,非底层节点存储所述目标实体词的上位词,连接任意两个节点的边表示所述任意两个节点所存储的词之间的上下位关系;
获取所述初始图谱中的至少一个非底层节点的节点信息,任一非底层节点的节点信息包括:所述非底层节点所存储的上位词位于所述非底层节点当前所在的节点层的概率值,或者所述非底层节点所存储的上位词的类簇;
根据所述至少一个非底层节点的节点信息对所述至少一个非底层节点进行异常节点检测;
若检测到所述至少一个非底层节点中存在异常节点,则根据所述异常节点对所述初始图谱进行剪枝后处理,得到所述目标实体词的目标图谱。


2.如权利要求1所述的方法,其特征在于,所述非底层节点包括:所述初始图谱中的各条路径中的末尾节点;所述非底层节点的节点信息包括:所述末尾节点所存储的上位词位于所述末尾节点当前所在的节点层的概率值;
所述根据所述至少一个非底层节点的节点信息对所述至少一个非底层节点进行异常节点检测,包括:将概率值小于所述概率阈值所对应的末尾节点确定为异常节点。


3.如权利要求1所述的方法,其特征在于,所述任一非底层节点的节点信息包括:所述非底层节点所存储的上位词的类簇;所述非底层节点对应的类簇是对词对数据库中的多个词对中的上位词进行聚类得到的;
所述根据所述至少一个非底层节点的节点信息对所述至少一个非底层节点进行异常节点检测,包括:
根据各非底层节点所存储的上位词的信赖度从所述至少一个非底层节点中确定参考节点,并将所述参考节点对应的类簇作为参考类簇;
根据各非底层节点对应的类簇和所述参考类簇,从所述至少一个非底层节点中筛选出异常节点,所述异常节点对应的类簇和所述参考类簇不同。


4.如权利要求1-3任一项所述的方法,其特征在于,所述若检测到所述至少一个非底层节点中存在异常节点,则根据所述异常节点对所述初始图谱进行剪枝后处理,得到所述目标实体词的目标图谱,包括:
若检测到所述至少一个非底层节点中存在异常节点,则将所述初始图谱中所述异常节点所在的路径作为待剪枝路径;
从所述初始图谱中去除所述待剪枝路径,得到所述目标实体词的目标图谱。


5.如权利要求1所述的方法,其特征在于,所述获取目标实体词的初始图谱,包括:
获取关于目标实体词的目标数据集,所述目标数据集中包含多个词对,每个词对由所述目标实体词和所述目标实体词的一个上位词构成;
采用所述目标数据集中的多个词对,层次化构建所述目标实体词的初始图谱。


6.如权利要求5所述的方法,其特征在于,所述获取关于目标实体词的目标数据集,包括:
获取文本数据集,所述文本数据集中包括关于所述目标实体词的多个文本;
基于预设句式模板,从所述文本数据集的多个文本中提取得到至少一个候选词对,每个候选词对由所述目标实体词和所述目标实体词的上位词构成;
根据所述至少一个候选词对中的上位词和所述目标实体词之间的语义关系,对所述至少一个候选词对进行过滤处理;
将过滤后的词对添加至所述目标实体词的目标数据集中。


7.如权利要求6所述的方法,其特征在于,所述根据所述至少一个候选词对中的上位词和所述目标实体词之间的语义关系,对所述至少一个候选词对进行过滤处理,包括:
针对任一候选词对,获取所述任一候选词对中的上位词的上位词向量,以及所述目标实体词的实体词向量;所述词向量用于表示词的语义特征;
根据所述上位词向量和所述实体词向量,计算得到所述任一候选词对的实际关系向量;并调用自编码器根据所述任一候选词对中的上位词和所述目标实体词,预测得到所述任一候选词对的预测关系向量;
根据所述实际关系向量和所述预测关系向量,校验所述任一候选词对中的上位词和所述目标实体词之间的上下位关系;
若校验成...

【专利技术属性】
技术研发人员:林振斌王晓利
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1