一种字段提取方法、装置及计算机存储介质制造方法及图纸

技术编号:24353618 阅读:31 留言:0更新日期:2020-06-03 02:06
本申请涉及一种字段提取方法、装置及计算机存储介质,所述方法包括以下步骤:获取待提取文件中的目标文本,得到包含有至少一个目标文本的目标文本集合;利用对应的训练模型和字段规则提取所述目标文件的目标字段,得到包含有至少一个所述目标字段的目标字段集合。本申请,结合了自定义的字段规则和训练模型来实现目标文件中的目标字段的提取,综合了自定义的字段规则的准确度高和训练模型的泛化能力强的优点,不仅提高了目标字段的提取准确度,而且还具有较高的通用性。

A field extraction method, device and computer storage medium

【技术实现步骤摘要】
一种字段提取方法、装置及计算机存储介质
本申请涉及计算机
,具体涉及信息抽取
,尤其涉及一种字段提取方法、装置及计算机存储介质。
技术介绍
文本挖掘主要利用计算机处理技术从文本数据中抽取有价值的信息和知识,在文本挖掘过程中,信息抽取作为一项重要的基本应用技术,通常采用机器学习技术和统计方法从大量文本中提取出所需要的关键词信息,并对提取的关键词信息进行分析。传统的关键词信息提取方法包括基于自定义识别规则和基于训练模型等信息提取方法,其中,基于自定义识别规则的信息提取方法准确率较高,但是构建模型的泛化能力较差,由于规则随着数据量的增加而增加,而且构建识别规则的过程中需要大量的语言学知识,语言不同的情况下一般识别规则也不相同,另外,还需要避免识别规则之间的冲突问题,导致构建识别规则的过程费时费力、可移植性不好,适用于数据量小且规则明确的信息提取;基于训练模型的信息提取方法具有较高的泛化能力,但是准确率较低,而且随着数据量的增加还需进一步提高泛化能力和准确率。有鉴于此,急需一种泛化能力和准确度较高且具有通用性的信息提取方法。本文档来自技高网...

【技术保护点】
1.一种字段提取方法,其特征在于,所述方法包括以下步骤:/n获取待提取文件中的目标文本,得到包含有至少一个目标文本的目标文本集合;/n利用对应的训练模型和字段规则提取所述目标文件的目标字段,得到包含有至少一个所述目标字段的目标字段集合。/n

【技术特征摘要】
1.一种字段提取方法,其特征在于,所述方法包括以下步骤:
获取待提取文件中的目标文本,得到包含有至少一个目标文本的目标文本集合;
利用对应的训练模型和字段规则提取所述目标文件的目标字段,得到包含有至少一个所述目标字段的目标字段集合。


2.根据权利要求1所述的字段提取方法,其特征在于,所述利用对应的训练模型和字段规则提取所述目标文件的目标字段,得到包含有至少一个所述目标字段的目标字段集合,包括以下步骤:
利用对应的训练模型提取所述目标文本的至少一个一级子目标字段,得到包含有至少一个所述一级子目标字段的一级子目标字段集合;
利用所述字段规则提取所述目标文本中的至少一个二级子目标字段,得到包含有至少一个所述二级子目标字段的二级子目标字段集合;
将所述一级子目标字段集合和二级子目标字段集合组合得到所述目标字段集合。


3.根据权利要求2所述的字段提取方法,其特征在于,所述利用对应的训练模型提取所述目标文本的至少一个一级子目标字段,包括:
采用预设标注模式标注所述目标文本集合中的目标文本,得到包含有至少一个标注数据的标注数据集;
通过所述标注数据集训练BiLSTM-CRF模型得到对应的训练模型;
利用对应的训练模型识别所述目标文本的至少一个命名实体作为所述一级子目标字段。


4.根据权利要求3所述的字段提取方法,其特征在于,所述利用对应的训练模型提取所述目标文本的至少一个一级子目标字段,包括:
采集预设语料作为字向量训练数据;
通过预设训练算法训练所述字向量训练数据得到字向量模型;
利用所述字向量模型训练所述BiLSTM-CRF模型得到对应的训练模型。


5.根据权利要求2所述的字段提取方法,其特征在于,所述利用所述字段规则提取所述目标文本中的至少一个二级子目标字段,包括:
根据所述目标文本的句法结构和预设字段的映射关系,设置所述字段规则;
利用所述字段规则获取所述二级子目标字段。

【专利技术属性】
技术研发人员:陈功马雅奇陈明威陈彦宇孙秀丹仲丽君
申请(专利权)人:珠海格力电器股份有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1