数据提取方法、装置、计算机设备和存储介质制造方法及图纸

技术编号:20389672 阅读:31 留言:0更新日期:2019-02-20 02:46
本申请涉及一种基于数据资源的数据提取方法、装置、计算机设备和存储介质。所述方法包括:获取待提取数据,并获取待提取数据中的证据项,根据证据项获取对应的证据项数据,并将证据项数据和预设规则进行比对,当证据项数据包括预设规则所对应的数据时,提取证据项中的文本,对文本进行数据处理,获得分词序列,并根据分词序列生成频繁序列,获取预先设置的样本数据和频繁序列之间的关联指标,并根据关联指标对频繁序列进行筛选,获取符合关联指标的可用频繁序列,利用可用频繁序列从文本中提取与用户需求对应的数据。采用本方法能够避免人工进行数据审查以及人工泛化正则表达式的过程,减少人工操作,节约资源。

【技术实现步骤摘要】
数据提取方法、装置、计算机设备和存储介质
本申请涉及数据处理
,特别是涉及一种数据提取方法、装置、计算机设备和存储介质。
技术介绍
随着数据处理技术的发展,人们在工作或生活中可接触到的各类信息数据等日益增多,而当需要从大量数据中获取到自身所需的数据时,需要对大量数据进行筛选和提取操作,因此出现了利用规则模型从文本中提取数据的方法。传统上通过构建正则表达式的规则模型,并利用正则表达式从文本中提取相应数据,但构建正则表达式过程中需要人工审查大量的样本数据,并从样本数据中提取符合正则表达式的多种规则,从而实现正则表达式的泛化,由于传统方法是通过人工泛化正则表达式,成本大且周期长,因此会浪费大量人力资源。
技术实现思路
基于此,有必要针对上述技术问题,提供一种能够节省人力成本的数据提取方法、装置、计算机设备和存储介质。一种数据提取方法,所述方法包括:获取待提取数据,并获取所述待提取数据中的证据项;根据所述证据项获取对应的证据项数据,并将所述证据项数据和预设规则进行比对;当所述证据项数据包括所述预设规则所对应的数据时,提取所述证据项中的文本;对所述文本进行数据处理,获得分词序列,并根据所述分词序列生成频繁序列;获取预先设置的样本数据和所述频繁序列之间的关联指标,并根据所述关联指标对所述频繁序列进行筛选,获取符合所述关联指标的可用频繁序列;利用所述可用频繁序列从文本中提取与用户需求对应的数据。在其中一个实施例中,在所述获取待提取数据,并获取所述待提取数据中的证据项之前,还包括:从数据库中获取多个样本数据,并获取所述样本数据中的待提取数据;获取所述待提取数据中的样本证据项,利用所述样本证据项生成训练文本数据;利用所述训练文本数据生成多个待提取数据。在其中一个实施例中,所述当根据所述证据项获取对应的证据项数据,并将所述证据项数据和预设规则进行比对,包括:获取预设规则,并利用所述预设规则对所述证据项数据进行初始校验;当通过所述初始校验时,利用所述预设规则对所述证据项数据进行完整性校验;当通过所述完整性校验时,将所述证据项数据和所述预设规则对应的数据进行比对。在其中一个实施例中,所述对所述文本进行数据处理,获得分词序列,并根据所述分词序列生成频繁序列,包括:对所述文本进行预处理,获得预处理后的文本;对所述预处理后的文本进行分词处理,获得分词序列;基于频繁模式增长算法,根据所述分词序列生成频繁序列。在其中一个实施例中,所述基于频繁模式增长算法,根据所述分词序列生成频繁序列包括:获取多个所述分词序列包括的多个证据项,并计算所述证据项在多个所述分词序列中的出现频次;按照所述出现频次将多个所述证据项按照所述出现频次的降序排序,获得所述证据项的排列顺序;新建根节点为空的树,并将多个所述证据项按照所述排列顺序插入所述树中,生成频繁模式增长树;从所述频繁模式树中获取条件模式基,所述条件模式基为以查找证据项为结尾的路径集合;利用所述条件模式基以及所述分词序列中的多个证据项构建条件频繁模式树;重复执行获取所述条件模式基以及构建条件频繁模式树;当所述频繁模式树仅包括同一个证据项时,获取多个条件模式基,并根据多个所述条件模式基生成多个频繁证据项;根据多个所述频繁证据项生成频繁序列。在其中一个实施例中,所述获取预先设置的样本数据和所述频繁序列之间的关联指标,并根据所述关联指标对所述频繁序列进行筛选,获取符合所述关联指标的可用频繁序列,包括:获取预先设置的所述样本数据和所述频繁序列之间的支持度和置信度;提取所述频繁序列中与样本数据之间的支持度符合预先设置的所述支持度的基础频繁序列;提取所述基础频繁序列中与样本数据之间置信度符合预先设置的所述置信度的可用频繁序列。一种数据提取装置,所述装置包括:证据项提取模块,用于获取待提取数据,并获取所述待提取数据中的证据项;比对模块,用于根据所述证据项获取对应的证据项数据,并将所述证据项数据和预设规则进行比对;文本生成模块,用于当所述证据项数据包括所述预设规则所对应的数据时,提取所述证据项中的文本;数据处理模块,用于对所述文本进行数据处理,获得分词序列,并根据所述分词序列生成频繁序列;可用频繁序列生成模块,用于获取预先设置的样本数据和所述频繁序列之间的关联指标,并根据所述关联指标对所述频繁序列进行筛选,获取符合所述关联指标的可用频繁序列;数据提取模块,用于利用所述可用频繁序列从文本中提取与用户需求对应的数据。在其中一个实施例中,所述装置还包括待提取数据生成模块,用于从数据库中获取读个样本数据,并获取所述样本数据中的待提取数据;获取所述待提取数据中的样本证据项,利用所述样本证据项生成训练文本数据;利用所述训练文本数据生成多个待提取数据。一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:获取待提取数据,并获取所述待提取数据中的证据项;根据所述证据项获取对应的证据项数据,并将所述证据项数据和预设规则进行比对;当所述证据项数据包括所述预设规则所对应的数据时,提取所述证据项中的文本;对所述文本进行数据处理,获得分词序列,并根据所述分词序列生成频繁序列;获取预先设置的样本数据和所述频繁序列之间的关联指标,并根据所述关联指标对所述频繁序列进行筛选,获取符合所述关联指标的可用频繁序列;利用所述可用频繁序列从文本中提取与用户需求对应的数据。一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:获取待提取数据,并获取所述待提取数据中的证据项;根据所述证据项获取对应的证据项数据,并将所述证据项数据和预设规则进行比对;当所述证据项数据包括所述预设规则所对应的数据时,提取所述证据项中的文本;对所述文本进行数据处理,获得分词序列,并根据所述分词序列生成频繁序列;获取预先设置的样本数据和所述频繁序列之间的关联指标,并根据所述关联指标对所述频繁序列进行筛选,获取符合所述关联指标的可用频繁序列;利用所述可用频繁序列从文本中提取与用户需求对应的数据。上述数据提取方法、装置、计算机设备和存储介质,通过获取待提取数据,并获取待提取数据中的证据项,根据证据项获取对应的证据项数据,并将证据项数据和预设规则进行比对,当证据项数据包括预设规则所对应的数据时,提取证据项中的文本,对文本进行数据处理,获得分词序列,并根据分词序列生成频繁序列,获取预先设置的样本数据和频繁序列之间的关联指标,并根据关联指标对频繁序列进行筛选,获取符合关联指标的可用频繁序列,利用可用频繁序列从文本中提取与用户需求对应的数据。避免人工进行数据审查以及人工泛化正则表达式的过程,减少人工操作,节约资源。附图说明图1为一个实施例中数据提取方法的应用场景图;图2为一个实施例中数据提取方法的流程示意图;图3为一个实施例中基于频繁模式增长算法,根据所述分词序列生成频繁序列的流程示意图;图4为一个实施例中数据提取装置的结构框图;图5为一个实施例中计算机设备的内部结构图。具体实施方式为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。本申请提供的数据提取方法,可以应用于如图1所示的本文档来自技高网...

【技术保护点】
1.一种数据提取方法,所述方法包括:获取待提取数据,并获取所述待提取数据中的证据项;根据所述证据项获取对应的证据项数据,并将所述证据项数据和预设规则进行比对;当所述证据项数据包括所述预设规则所对应的数据时,提取所述证据项中的文本;对所述文本进行数据处理,获得分词序列,并根据所述分词序列生成频繁序列;获取预先设置的样本数据和所述频繁序列之间的关联指标,并根据所述关联指标对所述频繁序列进行筛选,获取符合所述关联指标的可用频繁序列;利用所述可用频繁序列从文本中提取与用户需求对应的数据。

【技术特征摘要】
1.一种数据提取方法,所述方法包括:获取待提取数据,并获取所述待提取数据中的证据项;根据所述证据项获取对应的证据项数据,并将所述证据项数据和预设规则进行比对;当所述证据项数据包括所述预设规则所对应的数据时,提取所述证据项中的文本;对所述文本进行数据处理,获得分词序列,并根据所述分词序列生成频繁序列;获取预先设置的样本数据和所述频繁序列之间的关联指标,并根据所述关联指标对所述频繁序列进行筛选,获取符合所述关联指标的可用频繁序列;利用所述可用频繁序列从文本中提取与用户需求对应的数据。2.根据权利要求1所述的方法,其特征在于,在所述获取待提取数据,并获取所述待提取数据中的证据项之前,还包括:从数据库中获取多个样本数据,并获取所述样本数据中的待提取数据;获取所述待提取数据中的样本证据项,利用所述样本证据项生成训练文本数据;利用所述训练文本数据生成多个待提取数据。3.根据权利要求1所述的方法,其特征在于,所述当根据所述证据项获取对应的证据项数据,并将所述证据项数据和预设规则进行比对,包括:获取预设规则,并利用所述预设规则对所述证据项数据进行初始校验;当通过所述初始校验时,利用所述预设规则对所述证据项数据进行完整性校验;当通过所述完整性校验时,将所述证据项数据和所述预设规则对应的数据进行比对。4.根据权利要求1至3任意一项所述的方法,其特征在于,所述对所述文本进行数据处理,获得分词序列,并根据所述分词序列生成频繁序列,包括:对所述文本进行预处理,获得预处理后的文本;对所述预处理后的文本进行分词处理,获得分词序列;基于频繁模式增长算法,根据所述分词序列生成频繁序列。5.根据权利要4所述的方法,其特征在于,所述基于频繁模式增长算法,根据所述分词序列生成频繁序列包括:获取多个所述分词序列包括的多个证据项,并计算所述证据项在多个所述分词序列中的出现频次;按照所述出现频次将多个所述证据项按照所述出现频次的降序排序,获得所述证据项的排列顺序;新建根节点为空的树,并将多个所述证据项按照所述排列顺序插入所述树中,生成频繁模式增长树;从所述频繁模式树中获取条件模式基,所述条件模式基为以查找证据项为结尾的路径集合;利用所述...

【专利技术属性】
技术研发人员:叶素兰窦文伟胡义品于修铭汪伟肖京
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1