图谱的构建方法、装置、计算机设备和存储介质制造方法及图纸

技术编号:26376479 阅读:21 留言:0更新日期:2020-11-19 23:45
本申请提出一种图谱的构建方法、装置、计算机设备和存储介质,其中,方法包括:对输入文本进行解析以生成多个结构段落;根据目标字段对多个结构段落进行筛选,以从多个结构段落中选择N个结构段落;对N个结构段落通过阅读理解模型进行分析,以确定目标字段所对应的答案在N个结构段落中对应的开始位置和结束位置以及置信度;根据起始标记符以及目标字段所对应的答案在N个结构段落中对应的开始位置和结束位置,确定具有答案的M个结构段落,根据目标字段所对应的答案在M个结构段落中对应的开始位置和结束位置确定目标字段所对应的答案,并根据答案构建图谱。该方法节省了人力成本,泛化性和对答案的挖掘效果较好,构建的图谱召回率较高。

【技术实现步骤摘要】
图谱的构建方法、装置、计算机设备和存储介质
本申请涉及信息处理
,尤其涉及一种图谱的构建方法、装置、计算机设备和存储介质。
技术介绍
知识图谱可以应用于许多应用场景,比如基于知识图谱进行信息推荐,或是基于知识图谱进行推理问答等。目前,对于大量存在于非结构化文档的知识无法加以利用。现有从非结构化文档挖掘知识的方法,主要是分为规则挖掘和条件随机场(ConditionalRandomField,简称CRF)模型挖掘两种方法。规则挖掘耗费人力,没有语义泛化导致召回率低,条件随机场CRF模型的对于值是长段描述时效果不好、以及泛化性较差。由此,基于规则挖掘和CFR模型的图谱构建方法,人力成本高、构建的图谱召回率较低。
技术实现思路
本申请提出一种图谱的构建方法、装置、计算机设备和存储介质,用于解决相关技术中基于规则挖掘和CFR模型挖掘的图谱构建方法,存在的人力成本高、构建的图谱召回率较低的问题。本申请一方面实施例提出了一种图谱的构建方法,包括:获取输入文本,并获取目标字段;对所述输入文本进行解析以生成多个结构段落,其中,每个结构段落的第一个字符前具有起始标记符;根据所述目标字段对所述多个结构段落进行筛选,以从所述多个结构段落中选择N个结构段落,其中,N为自然数;对所述N个结构段落通过阅读理解模型进行分析,以确定所述目标字段所对应的答案在所述N个结构段落中对应的开始位置和结束位置以及置信度;根据所述起始标记符,以及所述目标字段所对应的答案在所述N个结构段落中对应的开始位置和结束位置,确定具有答案的M个结构段落,其中,M为自然数;以及根据所述目标字段所对应的答案在所述M个结构段落中对应的开始位置和结束位置确定所述目标字段所对应的答案,并根据所述答案构建图谱。本申请实施例的图谱的构建方法,通过获取输入文本,并获取目标字段,对输入文本进行解析以生成多个结构段落,其中,每个结构段落的第一个字符前具有起始标记符,根据目标字段对多个结构段落进行筛选,以从多个结构段落中选择N个结构段落,对N个结构段落通过阅读理解模型进行分析,以确定目标字段所对应的答案在N个结构段落中对应的开始位置和结束位置及置信度,根据起始标记符以及目标字段所对应的答案在N个结构段落中对应的开始位置和结束位置,确定具有答案的M个结构段落,根据目标字段所对应的答案在M个结构段落中对应的开始位置和结束位置确定目标字段所对应的答案,并根据答案构建图谱,由此,通过目标字段对多个结构段落进行筛选,并结合阅读理解模型从筛选出的结构段落中确定答案的开始位置和开始位置,并从筛选出的结构段落中再筛选出具有答案的结构段落,根据具有答案的结构段落对应的开始位置和结束位置确定目标字段所对应的答案,基于获取的答案构建图谱,节省了人力成本,泛化性和对答案的挖掘效果较好,构建的图谱召回率较高。本申请另一方面实施例提出了一种图谱的构建装置,包括:获取模块,用于获取输入文本,并获取目标字段;生成模块,用于对所述输入文本进行解析以生成多个结构段落,其中,每个结构段落的第一个字符前具有起始标记符;筛选模块,用于根据所述目标字段对所述多个结构段落进行筛选,以从所述多个结构段落中选择N个结构段落,其中,N为自然数;第一确定模块,用于对所述N个结构段落通过阅读理解模型进行分析,以确定所述目标字段所对应的答案在所述N个结构段落中对应的开始位置和结束位置以及置信度;第二确定模块,用于根据所述起始标记符,以及所述目标字段所对应的答案在所述N个结构段落中对应的开始位置和结束位置,确定具有答案的M个结构段落,其中,M为自然数;以及构建模块,用于根据所述目标字段所对应的答案在所述M个结构段落中对应的开始位置和结束位置确定所述目标字段所对应的答案,并根据所述答案构建图谱。本申请实施例的图谱的构建装置,通过获取输入文本,并获取目标字段,对输入文本进行解析以生成多个结构段落,其中,每个结构段落的第一个字符前具有起始标记符,根据目标字段对多个结构段落进行筛选,以从多个结构段落中选择N个结构段落,对N个结构段落通过阅读理解模型进行分析,以确定目标字段所对应的答案在N个结构段落中对应的开始位置和结束位置以及置信度,根据起始标记符以及目标字段所对应的答案在N个结构段落中对应的开始位置和结束位置,确定具有答案的M个结构段落,根据目标字段所对应的答案在M个结构段落中对应的开始位置和结束位置确定目标字段所对应的答案,并根据答案构建图谱,由此,通过目标字段对多个结构段落进行筛选,并结合阅读理解模型从筛选出的结构段落中确定答案的开始位置和开始位置,并从筛选出的结构段落中再筛选出具有答案的结构段落,根据具有答案的结构段落对应的开始位置和结束位置确定目标字段所对应的答案,基于获取的答案构建图谱,节省了人力成本,泛化性和对答案的挖掘效果较好,构建的图谱召回率较高。本申请另一方面实施例提出了一种计算机设备,包括处理器和存储器;其中,所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序,以用于实现如上述一方面实施例所述的图谱的构建方法。本申请另一方面实施例提出了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述一方面实施例所述的图谱的构建方法。本申请附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。附图说明本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:图1为本申请实施例提供的一种图谱的构建方法的流程示意图;图2为本申请实施提供的另一种图谱的构建方法的流程示意图;图3为本申请实施例提供的又一种图谱的构建方法的流程示意图;图4为本申请实施例提供的一种图谱的构建装置的结构示意图;图5示出了适于用来实现本申请实施方式的示例性计算机设备的框图。具体实施方式下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本申请,而不能理解为对本申请的限制。下面参考附图描述本申请实施例的图谱的构建方法、装置、计算机设备和存储介质。图1为本申请实施例提供的一种图谱的构建方法的流程示意图。本申请实施例的图谱的构建方法,可由本申请实施例提供的图谱的构建装置执行,该装置可配置于计算机设备中,以实现根据目标字段对多个结构段落进行筛选,并结合阅读理解模型从筛选出的结构段落中确定答案的开始位置和结束位置,以根据答案构建图谱。如图1所示,该图谱的构建方法包括:步骤101,获取输入文本,并获取目标字段。现有的知识图谱主要通过挖掘半结构化知识来构建SPO,其中,SPO包括S(Subject,主语)、P(Predicate,谓语)、O(本文档来自技高网...

【技术保护点】
1.一种图谱的构建方法,其特征在于,包括:/n获取输入文本,并获取目标字段;/n对所述输入文本进行解析以生成多个结构段落,其中,每个结构段落的第一个字符前具有起始标记符;/n根据所述目标字段对所述多个结构段落进行筛选,以从所述多个结构段落中选择N个结构段落,其中,N为自然数;/n对所述N个结构段落通过阅读理解模型进行分析,以确定所述目标字段所对应的答案在所述N个结构段落中对应的开始位置和结束位置以及置信度;/n根据所述起始标记符,以及所述目标字段所对应的答案在所述N个结构段落中对应的开始位置和结束位置,确定具有答案的M个结构段落,其中,M为自然数;以及/n根据所述目标字段所对应的答案在所述M个结构段落中对应的开始位置和结束位置确定所述目标字段所对应的答案,并根据所述答案构建图谱。/n

【技术特征摘要】
1.一种图谱的构建方法,其特征在于,包括:
获取输入文本,并获取目标字段;
对所述输入文本进行解析以生成多个结构段落,其中,每个结构段落的第一个字符前具有起始标记符;
根据所述目标字段对所述多个结构段落进行筛选,以从所述多个结构段落中选择N个结构段落,其中,N为自然数;
对所述N个结构段落通过阅读理解模型进行分析,以确定所述目标字段所对应的答案在所述N个结构段落中对应的开始位置和结束位置以及置信度;
根据所述起始标记符,以及所述目标字段所对应的答案在所述N个结构段落中对应的开始位置和结束位置,确定具有答案的M个结构段落,其中,M为自然数;以及
根据所述目标字段所对应的答案在所述M个结构段落中对应的开始位置和结束位置确定所述目标字段所对应的答案,并根据所述答案构建图谱。


2.如权利要求1所述的图谱的构建方法,其特征在在于,所述根据所述起始标记符,以及所述目标字段所对应的答案在所述N个结构段落中对应的开始位置和结束位置,确定具有答案的M个结构段落,包括:
对所述N个结构段落中每个结构段落,根据所述目标字段所对应的答案在结构段落中对应的开始位置和结束位置,判断所述目标字段所对应的答案是否位于结构段落的所述起始标记符;
若否,则确定结构段落中有答案。


3.如权利要求1所述的图谱的构建方法,其特征在于,所述根据所述目标字段对所述多个结构段落进行筛选,以从所述多个结构段落中选择N个结构段落,包括:
对所述多个结构段落分别进行切词,以生成所述多个结构段落对应的多个分词集合;
根据所述目标字段和所述多个结构段落对应的多个分词集合,计算所述目标字段与所述多个结构段落的文本相似度和/或语义相似度;以及
根据所述目标字段与所述多个结构段落的文本相似度和/或语义相似度对所述多个结构段落进行排序,并从所述多个结构段落中选择N个结构段落。


4.如权利要求1所述的图谱的构建方法,其特征在于,所述根据所述目标字段所对应的答案在所述M个结构段落中对应的开始位置和结束位置确定所述目标字段所对应的答案,并根据所述答案构建图谱,包括:
根据所述目标字段所对应的答案在M个结构段落中对应的开始位置和结束位置,确定在所述M个结构段落中所述目标字段所对应的答案;
在所述M个结构段落中所述目标字段所对应的答案中,选取置信度最高的答案为目标答案;根据所述目标字段和所述目标答案构建所述图谱。


5.如权利要求1所述的图谱的构建方法,其特征在于,所述阅读理解模型为双向注意流BiDAF模型。


6.一种图谱的构建装置,其特征在于,包括:
获取模块,用于获取输入文本,并获取目...

【专利技术属性】
技术研发人员:甘露刘剑卜建辉吴伟佳
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1