信息提取方法、设备及存储介质技术

技术编号:24169021 阅读:22 留言:0更新日期:2020-05-16 02:20
本申请提供了一种信息提取方法、设备及存储介质,所述方法包括:获取全局节点集和用于提取目标信息的关键词,所述全局节点集中的节点按照网状结构存储,所述全局节点集中的各个节点包含的页面信息组成全局信息;根据所述网状结构,在所述全局节点集中筛选出与所述关键词对应的第一节点集,所述第一节点集中包括的节点为与所述关键词满足预设相关关系,且未出现主题漂移的节点;提取所述第一节点集中每个节点包含的页面信息,得到目标信息。

Information extraction method, equipment and storage medium

【技术实现步骤摘要】
信息提取方法、设备及存储介质
本申请涉及信息处理领域,尤其涉及一种信息提取方法、设备及存储介质。
技术介绍
随着信息的急剧增长,自然语言处理技术已经逐步从统计学方法转向深度学习方法,为处理语言问题提供了先进的解决思路。但深度学习方法必须依赖于大量的文本数据,百科由于其具有的易于获得、文本质量高、涵盖领域广泛的优点,为深度学习的文本数据提供了依据。百科是拥有海量文本的、免费的、由人工编辑而成的各类电子百科全书。从百科中提取文本数据时,由于百科的文本数据量巨大,分类众多,如何从百科的海量信息中提取出合适的文本数据,是使用深度学习方法时亟需解决的一个难题。基于进行深度学习的数据往往只需要其中某一领域相关的文本数据,现有的从百科中提取文本数据的方法是:直接将该领域下包括的有限层的文本数据作为深度学习的文本数据,无法提取到所有相关的文本数据,且提取的文本数据中存在大量的与该领域不相关的文本数据,导致进行深度学习的文本数据不全面且不准确,增加了深度学习处理时长,降低了处理效率和准确度。
技术实现思路
有鉴于此,本申请实施例为解决现有技术中存在的问题而提供一种信息提取方法、设备及存储介质。本申请实施例的技术方案是这样实现的:第一方面,本申请实施例提供一种信息提取方法,包括:获取全局节点集和用于提取目标信息的关键词,所述全局节点集中的节点按照网状结构存储,所述全局节点集中的各个节点包含的页面信息组成全局信息;根据所述网状结构,在所述全局节点集中筛选出与所述关键词对应的第一节点集,所述第一节点集中包括的节点为与所述关键词满足预设相关关系,且未出现主题漂移的节点;提取所述第一节点集中每个节点包含的页面信息,得到目标信息。第二方面,本申请实施例提供一种信息提取装置,包括:获取模块,用于获取全局节点集和用于提取目标信息的关键词,所述全局节点集中的节点按照网状结构存储,所述全局节点集中的各个节点包含的页面信息组成全局信息;筛选模块,用于根据所述网状结构,在所述全局节点集中筛选出与所述关键词对应的第一节点集,所述第一节点集中包括的节点为与所述关键词满足预设相关关系,且未出现主题漂移的节点;提取模块,用于提取所述第一节点集中每个节点包含的页面信息,得到目标信息。第三方面,本申请实施例提供一种信息提取设备,包括:存储器,用于存储可执行指令;处理器,用于执行所述存储器中存储的可执行指令时,实现本申请实施例提供的方法。第四方面,本申请实施例提供一种存储介质,存储有可执行指令,用于引起处理器执行时,实现本申请实施例提供的方法。本申请实施例提供的信息提取方法中,首先获取全局节点集和用于提取目标信息的关键词,根据全局节点集的网状结构存储方式,在所述全局节点集中筛选出与所述关键词对应的第一节点集,所述第一节点集中包括的节点为与所述关键词满足预设相关关系,且未出现主题漂移的节点;然后提取所述第一节点集中每个节点包含的页面信息,得到目标信息。通过筛选得到与关键词对应的第一节点集,该第一节点集中的节点为未出现主题漂移的节点,提高了提取的目标信息的准确率,并且通过是否出现主题漂移确定提取页面信息的节点,不再仅限于有限层的节点,使得提取的目标信息更加全面。附图说明图1为本申请实施例提供的信息提取方法的网络架构示意图;图2是本申请实施例提供的信息提取终端的组成结构示意图;图3为本申请实施例提供的信息提取方法的一种实现流程示意图;图4A为本申请实施例提供的信息提取方法的另一种实现流程示意图;图4B为本申请实施例提供的一种节点的存储结构示意图;图5A为本申请实施例提供的信息提取方法的又一种实现流程示意图;图5B为本申请实施例提供的另一种节点的存储结构示意图;图6为本申请实施例提供的信息提取方法的再一种实现流程示意图;图7为本申请实施例提供的信息提取方法的再一种实现流程示意图。具体实施方式为了使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请作进一步地详细描述,所描述的实施例不应视为对本申请的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。在以下的描述中,所涉及的术语“第一\第二\第三”仅仅是是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的
的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的,不是旨在限制本申请。对本申请实施例进行进一步详细说明之前,对本申请实施例中涉及的名词和术语进行说明,本申请实施例中涉及的名词和术语适用于如下的解释。下面对本专利技术实施例中用到的名称进行介绍。1)本体(Ontology):在计算机科学与信息科学领域,理论上,本体是指一种“形式化的,对于共享概念体系的明确而又详细的说明”。本体提供的是一种共享词表,也就是特定领域之中那些存在着的对象类型或概念及其属性和相互关系;或者说,本体就是一种特殊类型的术语集,具有结构化的特点,且更加适合于在计算机系统之中使用;或者说,本体实际上就是对特定领域之中某套概念及其相互之间关系的形式化表达。本体是人们以自己兴趣领域的知识为素材,运用信息科学的本体论原理而编写出来的作品。本体一般可以用来针对该领域的属性进行推理,亦可用于定义该领域(也就是对该领域进行建模)。2)领域本体(DomainOntology):是对学科概念的一种描述,包括学科中的概念、概念的属性、概念间的关系以及属性和关系的约束。由于知识具有显著的领域特性,所以领域本体可以表示某一特定领域范围内的特定知识。这里的“领域”是根据本体构建者的需求来确立的,它可以是一个学科领域,可以是某几个领域的一种结合,也可以是一个领域中的一个小范围。为了更好地理解本申请实施例,首先对相关技术中的信息提取方法及存在的缺点进行说明。随着信息的急剧增长,自然语言处理技术已经逐步从统计学方法转向深度学习方法,为处理语言问题提供了最先进的解决思路。然而,基于神经网络的深度学习方法依赖于大量的训练文本。百科是拥有海量文本的、免费的、由人工编辑而成的各类电子百科全书,因此具有易于获得、文本质量高、涵盖领域广泛的优点。但百科的文本数量巨大,分类众多,而通常只需要其中某个领域相关的文本数据。因此能够完整而高效的从百科中抽取出和领域有关的文本内容,对进一步的工作有很大的意义。在相关技术中,百科的存储类似于网络拓扑结构,百科中所有节点本文档来自技高网
...

【技术保护点】
1.一种信息提取方法,所述方法包括:/n获取全局节点集和用于提取目标信息的关键词,所述全局节点集中的节点按照网状结构存储,所述全局节点集中的各个节点包含的页面信息组成全局信息;/n根据所述网状结构,在所述全局节点集中筛选出与所述关键词对应的第一节点集,所述第一节点集中包括的节点为与所述关键词满足预设相关关系,且未出现主题漂移的节点;/n提取所述第一节点集中每个节点包含的页面信息,得到目标信息。/n

【技术特征摘要】
1.一种信息提取方法,所述方法包括:
获取全局节点集和用于提取目标信息的关键词,所述全局节点集中的节点按照网状结构存储,所述全局节点集中的各个节点包含的页面信息组成全局信息;
根据所述网状结构,在所述全局节点集中筛选出与所述关键词对应的第一节点集,所述第一节点集中包括的节点为与所述关键词满足预设相关关系,且未出现主题漂移的节点;
提取所述第一节点集中每个节点包含的页面信息,得到目标信息。


2.根据权利要求1所述的方法,所述根据所述网状结构,在所述全局节点集中筛选出与所述关键词对应的第一节点集,包括:
在所述全局节点集中确定所述关键词对应的节点,得到起始节点;
从所述起始节点开始,按照所述网状结构向下遍历,获取所述全局节点集中与所述关键词满足预设相关关系且未出现主题漂移的第一节点;
将所述起始节点和获取到的第一节点确定为第一节点集。


3.根据权利要求2所述的方法,所述从所述起始节点开始,按照所述网状结构向下遍历,获取所述全局节点集中与所述关键词满足预设相关关系且未出现主题漂移的第一节点,包括:
建立当前节点集,所述当前节点集中包括所述起始节点;
在所述全局节点集中获取所述当前节点集中包括的各个节点的所有子节点;
删除所述所有子节点中出现主题漂移的子节点,得到子节点集;
当所述子节点集不为空时,将所述子节点集中的子节点确定为第一节点,并将所述子节点集更新为当前节点集。


4.根据权利要求3所述的方法,所述删除所述所有子节点中出现主题漂移的子节点,得到子节点集,包括:
在所述全局节点集中,获取所述每个子节点的直接父节点,其中,子节点的直接父节点为所述子节点的所有父节点中与所述子节点的相关度最大的父节点;
若当前子节点的直接父节点不属于所述当前节点集,确定所述当前子节点为出现主题漂移的子节点;
从所述所有子节点中删除出现主题漂移的子节点,得到子节点集。


5.根据权利要求4所述的方法,所述...

【专利技术属性】
技术研发人员:张涵初
申请(专利权)人:联想北京有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1