一种字段提取方法、装置及计算机存储介质制造方法及图纸

技术编号:24353618 阅读:20 留言:0更新日期:2020-06-03 02:06
本申请涉及一种字段提取方法、装置及计算机存储介质,所述方法包括以下步骤:获取待提取文件中的目标文本,得到包含有至少一个目标文本的目标文本集合;利用对应的训练模型和字段规则提取所述目标文件的目标字段,得到包含有至少一个所述目标字段的目标字段集合。本申请,结合了自定义的字段规则和训练模型来实现目标文件中的目标字段的提取,综合了自定义的字段规则的准确度高和训练模型的泛化能力强的优点,不仅提高了目标字段的提取准确度,而且还具有较高的通用性。

A field extraction method, device and computer storage medium

【技术实现步骤摘要】
一种字段提取方法、装置及计算机存储介质
本申请涉及计算机
,具体涉及信息抽取
,尤其涉及一种字段提取方法、装置及计算机存储介质。
技术介绍
文本挖掘主要利用计算机处理技术从文本数据中抽取有价值的信息和知识,在文本挖掘过程中,信息抽取作为一项重要的基本应用技术,通常采用机器学习技术和统计方法从大量文本中提取出所需要的关键词信息,并对提取的关键词信息进行分析。传统的关键词信息提取方法包括基于自定义识别规则和基于训练模型等信息提取方法,其中,基于自定义识别规则的信息提取方法准确率较高,但是构建模型的泛化能力较差,由于规则随着数据量的增加而增加,而且构建识别规则的过程中需要大量的语言学知识,语言不同的情况下一般识别规则也不相同,另外,还需要避免识别规则之间的冲突问题,导致构建识别规则的过程费时费力、可移植性不好,适用于数据量小且规则明确的信息提取;基于训练模型的信息提取方法具有较高的泛化能力,但是准确率较低,而且随着数据量的增加还需进一步提高泛化能力和准确率。有鉴于此,急需一种泛化能力和准确度较高且具有通用性的信息提取方法。
技术实现思路
为了解决上述技术问题或者至少部分地解决上述技术问题,本申请提供了一种字段提取方法、装置及计算机存储介质。有鉴于此,第一方面,本申请提供了一种字段提取方法,所述方法包括以下步骤:获取待提取文件中的目标文本,得到包含有至少一个目标文本的目标文本集合;利用对应的训练模型和字段规则提取所述目标文件的目标字段,得到包含有至少一个所述目标字段的目标字段集合。结合第一方面,在第一方面第一种可能的实施方式中,所述利用对应的训练模型和字段规则提取所述目标文件的目标字段,得到包含有至少一个所述目标字段的目标字段集合,包括以下步骤:利用对应的训练模型提取所述目标文本的至少一个一级子目标字段,得到包含有至少一个所述一级子目标字段的一级子目标字段集合;利用所述字段规则提取所述目标文本中的至少一个二级子目标字段,得到包含有至少一个所述二级子目标字段的二级子目标字段集合;将所述一级子目标字段集合和二级子目标字段集合组合得到所述目标字段集合。结合第一方面,在第一方面第二种可能的实施方式中,所述利用对应的训练模型提取所述目标文本的至少一个一级子目标字段,包括:采用预设标注模式标注所述目标文本集合中的目标文本,得到包含有至少一个标注数据的标注数据集;通过所述标注数据集训练BiLSTM-CRF模型得到对应的训练模型;利用对应的训练模型识别所述目标文本的至少一个命名实体作为所述一级子目标字段。结合第一方面,在第一方面第三种可能的实施方式中,所述利用对应的训练模型提取所述目标文本的至少一个一级子目标字段,包括:采集预设语料作为字向量训练数据;通过预设训练算法训练所述字向量训练数据得到字向量模型;利用所述字向量模型训练所述BiLSTM-CRF模型得到对应的训练模型。结合第一方面,在第一方面第四种可能的实施方式中,所述利用所述字段规则提取所述目标文本中的至少一个二级子目标字段,包括:根据所述目标文本的句法结构和预设字段的映射关系,设置所述字段规则;利用所述字段规则获取所述二级子目标字段。第二方面,本申请提供了一种字段提取装置,所述字段提取装置包括:文本获取单元,配置用于获取待提取文件中的目标文本,得到包含有至少一个目标文本的目标文本集合;字段提取单元,配置用于利用对应的训练模型和字段规则提取所述目标文件的目标字段,得到包含有至少一个所述目标字段的目标字段集合。结合第二方面,在第二方面第一种可能的实施方式中,所述字段提取单元包括:一级子目标字段提取单元,配置用于利用对应的训练模型提取所述目标文本的至少一个一级子目标字段,得到包含有至少一个所述一级子目标字段的一级子目标字段集合;二级子目标字段提取单元,配置用于利用所述字段规则提取所述目标文本中的至少一个二级子目标字段,得到包含有至少一个所述二级子目标字段的二级子目标字段集合;组合单元,配置用于将所述一级子目标字段集合和二级子目标字段集合组合得到所述目标字段集合。结合第二方面,在第二方面第二种可能的实施方式中,所述一级子目标字段提取单元,包括:标注子单元,配置用于采用预设标注模式标注所述目标文本集合中的目标文本,得到包含有至少一个标注数据的标注数据集;第一训练子单元,配置用于通过所述标注数据集训练BiLSTM-CRF模型得到对应的训练模型;识别子单元,配置用于利用对应的训练模型识别所述目标文本的至少一个命名实体作为所述一级子目标字段。结合第二方面,在第二方面第三种可能的实施方式中,所述一级子目标字段提取单元,包括:采集子单元,配置用于采集预设语料作为字向量训练数据;第二训练子单元,配置用于通过预设训练算法训练所述字向量训练数据得到字向量模型;第三训练子单元,配置用于通过所述字向量模型和标注数据集训练所述BiLSTM-CRF模型得到对应的训练模型。第三方面,本申请提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有字段提取程序,所述字段提取程序被处理器执行时实现如第一方面所述的字段提取方法的步骤。本申请实施例提供的上述技术方案与现有技术相比具有如下优点:本申请实施例提供的该方法,结合了自定义的字段规则和训练模型来实现目标文件中的目标字段的提取,综合了自定义的字段规则的准确度高和训练模型的泛化能力强的优点,不仅提高了目标字段的提取准确度,而且还具有较高的通用性。附图说明此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本专利技术的实施例,并与说明书一起用于解释本专利技术的原理。为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1为本申请实施例提供的一种字段提取方法的流程示意图;图2为本申请实施例提供的另一种字段提取方法的流程示意图;图3为本申请实施例提供的另一种字段提取方法的流程示意图;图4为本申请实施例提供的又一种字段提取方法的流程示意图;图5为本申请实施例提供的一种字段提取装置的结构示意图。具体实施方式为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。本申请实施例提供了一种字段提取方法,如图1所示,该方法可以包括以下步骤:S101、获取待提取文件中的目标文本文档来自技高网...

【技术保护点】
1.一种字段提取方法,其特征在于,所述方法包括以下步骤:/n获取待提取文件中的目标文本,得到包含有至少一个目标文本的目标文本集合;/n利用对应的训练模型和字段规则提取所述目标文件的目标字段,得到包含有至少一个所述目标字段的目标字段集合。/n

【技术特征摘要】
1.一种字段提取方法,其特征在于,所述方法包括以下步骤:
获取待提取文件中的目标文本,得到包含有至少一个目标文本的目标文本集合;
利用对应的训练模型和字段规则提取所述目标文件的目标字段,得到包含有至少一个所述目标字段的目标字段集合。


2.根据权利要求1所述的字段提取方法,其特征在于,所述利用对应的训练模型和字段规则提取所述目标文件的目标字段,得到包含有至少一个所述目标字段的目标字段集合,包括以下步骤:
利用对应的训练模型提取所述目标文本的至少一个一级子目标字段,得到包含有至少一个所述一级子目标字段的一级子目标字段集合;
利用所述字段规则提取所述目标文本中的至少一个二级子目标字段,得到包含有至少一个所述二级子目标字段的二级子目标字段集合;
将所述一级子目标字段集合和二级子目标字段集合组合得到所述目标字段集合。


3.根据权利要求2所述的字段提取方法,其特征在于,所述利用对应的训练模型提取所述目标文本的至少一个一级子目标字段,包括:
采用预设标注模式标注所述目标文本集合中的目标文本,得到包含有至少一个标注数据的标注数据集;
通过所述标注数据集训练BiLSTM-CRF模型得到对应的训练模型;
利用对应的训练模型识别所述目标文本的至少一个命名实体作为所述一级子目标字段。


4.根据权利要求3所述的字段提取方法,其特征在于,所述利用对应的训练模型提取所述目标文本的至少一个一级子目标字段,包括:
采集预设语料作为字向量训练数据;
通过预设训练算法训练所述字向量训练数据得到字向量模型;
利用所述字向量模型训练所述BiLSTM-CRF模型得到对应的训练模型。


5.根据权利要求2所述的字段提取方法,其特征在于,所述利用所述字段规则提取所述目标文本中的至少一个二级子目标字段,包括:
根据所述目标文本的句法结构和预设字段的映射关系,设置所述字段规则;
利用所述字段规则获取所述二级子目标字段。

【专利技术属性】
技术研发人员:陈功马雅奇陈明威陈彦宇孙秀丹仲丽君
申请(专利权)人:珠海格力电器股份有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1