数据抽取方法、装置、计算机设备及可读存储介质制造方法及图纸

技术编号：17779830 阅读：25 留言：0更新日期：2018-04-22 08:24

本发明专利技术涉及一种数据抽取方法、装置、计算机设备及可读存储介质。一种数据抽取方法，包括：将待处理数据进行分割得到数据集；将数据集输入预设神经网络模型得到初始抽取数据以及与初始抽取数据对应的特征标签；根据预设规则模板，从初始抽取数据中抽取对应的目标抽取数据；将目标抽取数据以及与目标抽取数据对应的特征标签关联输出。上述数据抽取方法，在抽取不同格式的数据时，不受抽取规则的限制，将数据集与特征标签的映射关系通过定制的抽取规则进行数据抽取，能够降低抽取不同格式数据时的错误率，抽取效果更好。

全部详细技术资料下载

【技术实现步骤摘要】
数据抽取方法、装置、计算机设备及可读存储介质
本专利技术涉及一种计算机领域，特别是涉及一种数据抽取方法、装置、计算机设备及可读存储介质。
技术介绍
现代信息技术和存储技术的快速发展以及互联网的迅速蔓延，使得人们在日常生活能够接触到网络上的各种的信息；在大数据时代，人们缺少的并不是信息，而是从海量纷繁复杂的信息中获取有用的、人们所关注的信息；数据抽取技术的优势在于简化了自然语言处理的过程，只关注相关的信息，而忽略无关的内容。传统的数据抽取方法主要是通过规则抽取，即对关注的信息元进行识别和定位，然后根据语言学特征和相关的格式数据定制抽取规则，其定制的规则只能针对特定的某种特定格式的数据，而在面对不同格式的数据时，常常因为信息的分割错误和抽取规则的单一性，造成数据抽取的错误率很高。
技术实现思路
基于此，有必要针对传统数据抽取方法错误率较高的问题，提供一种数据抽取方法、装置、计算机设备及可读存储介质。一种数据抽取方法，包括：将待处理数据进行分割得到数据集；将所述数据集输入预设神经网络模型得到初始抽取数据以及与初始抽取数据对应的特征标签；根据预设规则模板，从所述初始抽取数据中抽取对应的目标抽取数据；将所述目标抽取数据以及与所述目标抽取数据对应的特征标签关联输出。在其中一个实施例中，所述将待处理数据进行分割得到数据集的步骤，包括：根据标点符号将所述待处理数据进行分割得到数据集。在其中一个实施例中，所述将所述数据集输入预设神经网络模型得到初始抽取数据以及与所述初始抽取数据对应的特征标签的步骤，包括：将所述数据集输入预设神经网络模型得到备选标签及与所述备选标签对应的备选数据...
数据抽取方法、装置、计算机设备及可读存储介质

【技术保护点】
一种数据抽取方法，其特征在于，包括：将待处理数据进行分割得到数据集；将所述数据集输入预设神经网络模型得到初始抽取数据以及与初始抽取数据对应的特征标签；从所述初始抽取数据中抽取与所述预设规则模板对应的目标抽取数据；将所述目标抽取数据以及与所述目标抽取数据对应的特征标签关联输出。

【技术特征摘要】
1.一种数据抽取方法，其特征在于，包括：将待处理数据进行分割得到数据集；将所述数据集输入预设神经网络模型得到初始抽取数据以及与初始抽取数据对应的特征标签；从所述初始抽取数据中抽取与所述预设规则模板对应的目标抽取数据；将所述目标抽取数据以及与所述目标抽取数据对应的特征标签关联输出。2.根据权利要求1所述的方法，其特征在于，所述将待处理数据进行分割得到数据集的步骤，包括：根据标点符号将所述待处理数据进行分割得到数据集。3.根据权利要求1所述的方法，其特征在于，所述将所述数据集输入预设神经网络模型得到初始抽取数据以及与所述初始抽取数据对应的特征标签的步骤，包括：将所述数据集输入预设神经网络模型得到备选数据集以及与备选数据集对应的备选标签；获取所述备选数据集对应的每个备选标签的概率；选取最大的概率对应的备选标签作为特征标签，与所述特征标签对应的备选数据集作为所述初始抽取数据集。4.根据权利要求1所述的方法，其特征在于，所述将所述特征标签与所述目标抽取数据关联输出的步骤之后，还包括：在关联输出的所述特征标签与所述目标抽取数据存在错误时，接收针对所述预设规则模板的调整指令；根据所述调整指令，对所述预设规则模板进行调整。5.根据权利要求1至4任一项所述的方法，其特征在于，所述方法还包括：根据预处理规则将样本数据进行预处理得到样本集；获取每一样本集所对应的特征标签；将所述样本集和所述特征标签输入至初始神经网络模型中得到预设神经网络模型。6.根据权利要求5所述的方法，其特征在于，所述方法将所述样本...

【专利技术属性】
技术研发人员：王昕，张剑，黄石磊，丁芳桂，
申请(专利权)人：北京大学深圳研究院，深港产学研基地，深圳报业集团，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人