【技术实现步骤摘要】
图谱的构建方法、装置、计算机设备和存储介质
本申请涉及信息处理
,尤其涉及一种图谱的构建方法、装置、计算机设备和存储介质。
技术介绍
知识图谱可以应用于许多应用场景,比如基于知识图谱进行信息推荐,或是基于知识图谱进行推理问答等。目前,对于大量存在于非结构化文档的知识无法加以利用。现有从非结构化文档挖掘知识的方法,主要是分为规则挖掘和条件随机场(ConditionalRandomField,简称CRF)模型挖掘两种方法。规则挖掘耗费人力,没有语义泛化导致召回率低,条件随机场CRF模型的对于值是长段描述时效果不好、以及泛化性较差。由此,基于规则挖掘和CFR模型的图谱构建方法,人力成本高、构建的图谱召回率较低。
技术实现思路
本申请提出一种图谱的构建方法、装置、计算机设备和存储介质,用于解决相关技术中基于规则挖掘和CFR模型挖掘的图谱构建方法,存在的人力成本高、构建的图谱召回率较低的问题。本申请一方面实施例提出了一种图谱的构建方法,包括:获取输入文本,并获取目标字段;对所述输入文本进行解析以生成多个结构段落,其中,每个结构段落的第一个字符前具有起始标记符;根据所述目标字段对所述多个结构段落进行筛选,以从所述多个结构段落中选择N个结构段落,其中,N为自然数;对所述N个结构段落通过阅读理解模型进行分析,以确定所述目标字段所对应的答案在所述N个结构段落中对应的开始位置和结束位置以及置信度;根据所述起始标记符,以及所述目标字段所对应的答案在所述N个结 ...
【技术保护点】
1.一种图谱的构建方法,其特征在于,包括:/n获取输入文本,并获取目标字段;/n对所述输入文本进行解析以生成多个结构段落,其中,每个结构段落的第一个字符前具有起始标记符;/n根据所述目标字段对所述多个结构段落进行筛选,以从所述多个结构段落中选择N个结构段落,其中,N为自然数;/n对所述N个结构段落通过阅读理解模型进行分析,以确定所述目标字段所对应的答案在所述N个结构段落中对应的开始位置和结束位置以及置信度;/n根据所述起始标记符,以及所述目标字段所对应的答案在所述N个结构段落中对应的开始位置和结束位置,确定具有答案的M个结构段落,其中,M为自然数;以及/n根据所述目标字段所对应的答案在所述M个结构段落中对应的开始位置和结束位置确定所述目标字段所对应的答案,并根据所述答案构建图谱。/n
【技术特征摘要】
1.一种图谱的构建方法,其特征在于,包括:
获取输入文本,并获取目标字段;
对所述输入文本进行解析以生成多个结构段落,其中,每个结构段落的第一个字符前具有起始标记符;
根据所述目标字段对所述多个结构段落进行筛选,以从所述多个结构段落中选择N个结构段落,其中,N为自然数;
对所述N个结构段落通过阅读理解模型进行分析,以确定所述目标字段所对应的答案在所述N个结构段落中对应的开始位置和结束位置以及置信度;
根据所述起始标记符,以及所述目标字段所对应的答案在所述N个结构段落中对应的开始位置和结束位置,确定具有答案的M个结构段落,其中,M为自然数;以及
根据所述目标字段所对应的答案在所述M个结构段落中对应的开始位置和结束位置确定所述目标字段所对应的答案,并根据所述答案构建图谱。
2.如权利要求1所述的图谱的构建方法,其特征在在于,所述根据所述起始标记符,以及所述目标字段所对应的答案在所述N个结构段落中对应的开始位置和结束位置,确定具有答案的M个结构段落,包括:
对所述N个结构段落中每个结构段落,根据所述目标字段所对应的答案在结构段落中对应的开始位置和结束位置,判断所述目标字段所对应的答案是否位于结构段落的所述起始标记符;
若否,则确定结构段落中有答案。
3.如权利要求1所述的图谱的构建方法,其特征在于,所述根据所述目标字段对所述多个结构段落进行筛选,以从所述多个结构段落中选择N个结构段落,包括:
对所述多个结构段落分别进行切词,以生成所述多个结构段落对应的多个分词集合;
根据所述目标字段和所述多个结构段落对应的多个分词集合,计算所述目标字段与所述多个结构段落的文本相似度和/或语义相似度;以及
根据所述目标字段与所述多个结构段落的文本相似度和/或语义相似度对所述多个结构段落进行排序,并从所述多个结构段落中选择N个结构段落。
4.如权利要求1所述的图谱的构建方法,其特征在于,所述根据所述目标字段所对应的答案在所述M个结构段落中对应的开始位置和结束位置确定所述目标字段所对应的答案,并根据所述答案构建图谱,包括:
根据所述目标字段所对应的答案在M个结构段落中对应的开始位置和结束位置,确定在所述M个结构段落中所述目标字段所对应的答案;
在所述M个结构段落中所述目标字段所对应的答案中,选取置信度最高的答案为目标答案;根据所述目标字段和所述目标答案构建所述图谱。
5.如权利要求1所述的图谱的构建方法,其特征在于,所述阅读理解模型为双向注意流BiDAF模型。
6.一种图谱的构建装置,其特征在于,包括:
获取模块,用于获取输入文本,并获取目...
【专利技术属性】
技术研发人员:甘露,刘剑,卜建辉,吴伟佳,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。