从非结构化数据中提取结构化数据方法及装置制造方法及图纸

技术编号:28871510 阅读:25 留言:0更新日期:2021-06-15 23:04
本申请涉及一种从非结构化数据中提取结构化数据方法及装置,属于计算机技术领域,该方法包括:获取目标文档;对目标文档进行数据切割,得到目标文档中的多个数据片段;将多个数据片段依次输入预先训练的数据分类模型,得到每个数据片段包括的各个分类标签和每个分类标签对应的数据内容;将每种分类标签和对应的数据内容存储至结构化数据库,得到结构化数据;通过表单显示结构化数据;可以解决使用非结构化数据的形式录入数据时,不同人员录入数据的方式不同统一,导致文档录入和评审效率较低的问题;由于可以通过结构数据的形式显示目标文档中的非结构化数据,因此,可以提高文档录入和评审效率,并提高提取非结构化数据的准确性。

【技术实现步骤摘要】
从非结构化数据中提取结构化数据方法及装置
本申请涉及一种从非结构化数据中提取结构化数据方法及装置,属于计算机

技术介绍
当前的政府采购系统为了后续的智能化评标等系列功能,要求采购人将采购需求以结构化录入。目前采购人的采购需求分为货物清单和技术要求等,通常是以word格式的文档呈现。但是,不同的人员录入采购需求的方式可能不同,这就会导致最后呈现的文档格式不统一,导致文档录入和评审效率较低的问题。
技术实现思路
本申请提供了一种从非结构化数据中提取结构化数据方法及装置,可以解决使用非结构化数据的形式录入数据时,不同人员录入数据的方式不同统一,导致文档录入和评审效率较低的问题。本申请提供如下技术方案:第一方面,提供了一种从非结构化数据中提取结构化数据方法,所述方法包括:获取目标文档,所述目标文档包括待提取的非结构化数据;对所述目标文档进行数据切割,得到所述目标文档中的多个数据片段;将所述多个数据片段依次输入预先训练的数据分类模型,得到每个数据片段包括的各个分类标签和每个分类本文档来自技高网...

【技术保护点】
1.一种从非结构化数据中提取结构化数据的方法,其特征在于,所述方法包括:/n获取目标文档,所述目标文档包括待提取的非结构化数据;/n对所述目标文档进行数据切割,得到所述目标文档中的多个数据片段;/n将所述多个数据片段依次输入预先训练的数据分类模型,得到每个数据片段包括的各个分类标签和每个分类标签对应的数据内容;所述数据分类模型预先使用多组训练数据训练得到,每组训练数据包括:多个样本数据片段和每个样本数据片段对应的分类标签标注;/n将每种分类标签和对应的数据内容存储至结构化数据库,得到结构化数据;/n通过表单显示所述结构化数据。/n

【技术特征摘要】
1.一种从非结构化数据中提取结构化数据的方法,其特征在于,所述方法包括:
获取目标文档,所述目标文档包括待提取的非结构化数据;
对所述目标文档进行数据切割,得到所述目标文档中的多个数据片段;
将所述多个数据片段依次输入预先训练的数据分类模型,得到每个数据片段包括的各个分类标签和每个分类标签对应的数据内容;所述数据分类模型预先使用多组训练数据训练得到,每组训练数据包括:多个样本数据片段和每个样本数据片段对应的分类标签标注;
将每种分类标签和对应的数据内容存储至结构化数据库,得到结构化数据;
通过表单显示所述结构化数据。


2.根据权利要求1所述的方法,其特征在于,所述对所述目标文档进行数据切割,得到所述目标文档中的多个数据片段,包括:
通过文件内容提取工具,提取所述目标文档中的文本内容;
按照预设标点符号对所述文本内容进行数据切割,得到所述多个数据片段。


3.根据权利要求1所述的方法,其特征在于,所述分类标签基于所述非结构化数据的数据提取需求确定。


4.根据权利要求3所述的方法,其特征在于,将所述多个数据片段依次输入预先训练的数据分类模型,得到每个数据片段包括的各个分类标签和每个分类标签对应的数据片段之前,还包括:
获取样本文档;
对所述样本文档进行数据切割,得到所述样本文档中的多个样本数据片段;
根据所述数据提取需求对每个样本数据片段进行标注,得到对应的分类标签标注;
将所述样本数据片段输入预设的神经网络模型中,得到模型结果;
基于预设的损失函数、所述模型结果和所述分类标签标注对所述神经网络模...

【专利技术属性】
技术研发人员:陈洲张志恒沈云莫钧涛
申请(专利权)人:国泰新点软件股份有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1