数据抽取方法、装置、计算机设备及可读存储介质制造方法及图纸

技术编号:17779830 阅读:25 留言:0更新日期:2018-04-22 08:24
本发明专利技术涉及一种数据抽取方法、装置、计算机设备及可读存储介质。一种数据抽取方法,包括:将待处理数据进行分割得到数据集;将数据集输入预设神经网络模型得到初始抽取数据以及与初始抽取数据对应的特征标签;根据预设规则模板,从初始抽取数据中抽取对应的目标抽取数据;将目标抽取数据以及与目标抽取数据对应的特征标签关联输出。上述数据抽取方法,在抽取不同格式的数据时,不受抽取规则的限制,将数据集与特征标签的映射关系通过定制的抽取规则进行数据抽取,能够降低抽取不同格式数据时的错误率,抽取效果更好。

【技术实现步骤摘要】
数据抽取方法、装置、计算机设备及可读存储介质
本专利技术涉及一种计算机领域,特别是涉及一种数据抽取方法、装置、计算机设备及可读存储介质。
技术介绍
现代信息技术和存储技术的快速发展以及互联网的迅速蔓延,使得人们在日常生活能够接触到网络上的各种的信息;在大数据时代,人们缺少的并不是信息,而是从海量纷繁复杂的信息中获取有用的、人们所关注的信息;数据抽取技术的优势在于简化了自然语言处理的过程,只关注相关的信息,而忽略无关的内容。传统的数据抽取方法主要是通过规则抽取,即对关注的信息元进行识别和定位,然后根据语言学特征和相关的格式数据定制抽取规则,其定制的规则只能针对特定的某种特定格式的数据,而在面对不同格式的数据时,常常因为信息的分割错误和抽取规则的单一性,造成数据抽取的错误率很高。
技术实现思路
基于此,有必要针对传统数据抽取方法错误率较高的问题,提供一种数据抽取方法、装置、计算机设备及可读存储介质。一种数据抽取方法,包括:将待处理数据进行分割得到数据集;将所述数据集输入预设神经网络模型得到初始抽取数据以及与初始抽取数据对应的特征标签;根据预设规则模板,从所述初始抽取数据中抽取对应的目标抽取数据;将所述目标抽取数据以及与所述目标抽取数据对应的特征标签关联输出。在其中一个实施例中,所述将待处理数据进行分割得到数据集的步骤,包括:根据标点符号将所述待处理数据进行分割得到数据集。在其中一个实施例中,所述将所述数据集输入预设神经网络模型得到初始抽取数据以及与所述初始抽取数据对应的特征标签的步骤,包括:将所述数据集输入预设神经网络模型得到备选标签及与所述备选标签对应的备选数据集;获取所述数据集对应的每个备选标签的概率;选取最大的概率对应的备选标签作为特征标签,与所述特征标签对应的备选数据集作为所述初始抽取数据集。在其中一个实施例中,所述将所述特征标签与所述目标抽取数据关联输出的步骤之后,还包括:在关联输出的所述特征标签与所述目标抽取数据存在错误时,接收针对所述预设规则模板的调整指令;根据所述调整指令,对所述预设规则模板进行调整。在其中一个实施例中,所述方法还包括:根据预处理规则将样本数据进行预处理得到样本集;获取每一样本集所对应的特征标签;将所述样本集和所述特征标签输入至初始神经网络模型中得到预设神经网络模型。在其中一个实施例中,所述方法将所述样本集和所述特征标签输入至初始神经网络模型中得到预设神经网络模型的步骤,包括:将所述样本集分为训练集和验证集;将所述训练集和与所述训练集对应的特征标签输入至初始神经网络模型中得到训练神经网络模型;将所述验证集输入至训练神经网络模型得到验证特征标签;当验证特征标签与所述训练集对应的特征标签不一致时,则通过与所述训练集对应的特征标签修正所述训练神经网络模型得到预设神经网络模型。在其中一个实施例中,所述根据预处理规则将样本数据进行预处理得到样本集的步骤,包括:根据预设分词逻辑将样本进行分词得到单字集;通过预设向量模型以及所述单字集中的字符的数量将所述单字集中的每一个字表示为字向量;根据预设规则将所述单字集中的字表示为字序列;根据所述字向量和所述字序列得到样本集。一种信息抽取装置,包括:分割模块,用于将待处理数据进行分割得到数据集;标注模块,用于将所述数据集输入预设神经网络模型得到初始抽取数据以及与初始抽取数据对应的特征标签;抽取模块,用于根据预设规则模板,从所述初始抽取数据中抽取对应的目标抽取数据;输出模块,用于将所述目标抽取数据以及与所述目标抽取数据对应的特征标签关联输出。一种计算机设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述方法中的步骤。一种可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述方法中的步骤。上述数据抽取方法、装置、计算机设备及可读存储介质,先对待处理数据进行分割,再通过神经网络模型的自助学习能力对分割后的数据集添加特征标签,并通过规则模板来抽取数据集中包含的目标抽取数据,最后输出目标抽取数据与其对应的特征标签。在抽取不同格式的数据时,待抽取数据只要能够被计算机识别出来,即可以通过神经网络模型建立数据集与特征标签的映射关系,而不受抽取规则的限制,再将数据集与特征标签的映射关系通过定制的抽取规则进行数据抽取,能够降低抽取不同格式数据时的错误率,抽取效果更好。附图说明图1为一实施例中数据抽取方法的流程图;图2为图1所示实施例中的步骤S104的流程图;图3为一实施例中的预处理步骤的流程图;图4为图3所示实施例中步骤S302的流程图;图5为图1所示实施例中步骤S104的流程图;图6为一实施例中数据抽取装置的结构示意图;图7为一实施例中的计算机设备的结构示意图。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用于解释本专利技术,并不用于限定本专利技术。在详细说明根据本专利技术的实施例前,应该注意到的是,的实施例主要在于与数据抽取方法、装置、计算机设备及可读存储介质相关的步骤和系统组件的组合。因此,所属系统组件和方法步骤已经在附图中通过常规符号在适当的位置表示出来了,并且只表示出了与理解本专利技术的实施例有关的细节,以免因对于得益于本专利技术的本领域普通技术人员而言显而易见的那些细节模糊了本专利技术的公开内容。在本文中,诸如左和右,上和下,前和后,第一和第二之类的关系术语仅仅用来区分一个实体或动作与另一个实体或动作,而不一定要求或暗示这种实体或动作之间的任何实际的这种关系或顺序。术语“包括”、“包含”或任何其他变体旨在涵盖非排他性的包含,由此使得包括一系列要素的过程、方法、物品或者设备不仅包含这些要素,而且还包含没有明确列出的其他要素,或者为这种过程、方法、物品或者设备所固有的要素。请参见图1,图1提供一实施例中数据抽取方法的流程图,方法包括如下步骤:S102:将待处理数据进行分割得到数据集。其中,待处理数据是要进行数据抽取的目标数据,包括文本数据、PDF、图片等;例如,简历文件。数据集是指可以输入至预设神经网络模型中的数据,其可以为文字集、图片集或文字与图片合集等。具体地,将待处理数据进行数据分割得到数据集,即将目标数据按照预定逻辑进行分割得到要输入预设神经网络模型的数据集。进行数据分割的作用是防止将原始数据一次性输入神经网络模型造成数据拥堵,处理效率低,且在分割的时候可以根据预设规则进行分割,使得分割后的每个数据集载内容上有相互关联,方便神经网络模型进行下一步的数据处理。例如,在一次简历数据抽取中,待抽取简历内容为“李明2000年毕业于清华大学,2001年至今在某公司从事XX工作,该公司曾荣获XX奖励。”,首先将待抽取简历分割为3个数据集,即数据集1:李明2000年毕业于清华大学自动化专业;数据集2:2001年至今在某公司从事XX工作;数据集3:该公司曾荣获XX奖励。S104:将数据集输入预设神经网络模型得到初始抽取数据以及与初始抽取数据对应的特征标签。其中,预设神经网络模型是通过样本训练得到的具有固定处理规则的神经网络模型。初始抽取数据是将步骤S102中分割得到的数据集输入预设神经网络模型得到的数据,特征标签是预设神经网本文档来自技高网...
数据抽取方法、装置、计算机设备及可读存储介质

【技术保护点】
一种数据抽取方法,其特征在于,包括:将待处理数据进行分割得到数据集;将所述数据集输入预设神经网络模型得到初始抽取数据以及与初始抽取数据对应的特征标签;从所述初始抽取数据中抽取与所述预设规则模板对应的目标抽取数据;将所述目标抽取数据以及与所述目标抽取数据对应的特征标签关联输出。

【技术特征摘要】
1.一种数据抽取方法,其特征在于,包括:将待处理数据进行分割得到数据集;将所述数据集输入预设神经网络模型得到初始抽取数据以及与初始抽取数据对应的特征标签;从所述初始抽取数据中抽取与所述预设规则模板对应的目标抽取数据;将所述目标抽取数据以及与所述目标抽取数据对应的特征标签关联输出。2.根据权利要求1所述的方法,其特征在于,所述将待处理数据进行分割得到数据集的步骤,包括:根据标点符号将所述待处理数据进行分割得到数据集。3.根据权利要求1所述的方法,其特征在于,所述将所述数据集输入预设神经网络模型得到初始抽取数据以及与所述初始抽取数据对应的特征标签的步骤,包括:将所述数据集输入预设神经网络模型得到备选数据集以及与备选数据集对应的备选标签;获取所述备选数据集对应的每个备选标签的概率;选取最大的概率对应的备选标签作为特征标签,与所述特征标签对应的备选数据集作为所述初始抽取数据集。4.根据权利要求1所述的方法,其特征在于,所述将所述特征标签与所述目标抽取数据关联输出的步骤之后,还包括:在关联输出的所述特征标签与所述目标抽取数据存在错误时,接收针对所述预设规则模板的调整指令;根据所述调整指令,对所述预设规则模板进行调整。5.根据权利要求1至4任一项所述的方法,其特征在于,所述方法还包括:根据预处理规则将样本数据进行预处理得到样本集;获取每一样本集所对应的特征标签;将所述样本集和所述特征标签输入至初始神经网络模型中得到预设神经网络模型。6.根据权利要求5所述的方法,其特征在于,所述方法将所述样本...

【专利技术属性】
技术研发人员:王昕张剑黄石磊丁芳桂
申请(专利权)人:北京大学深圳研究院深港产学研基地深圳报业集团
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1