【技术实现步骤摘要】
一种智慧监管黑匣子的非结构化资料汇集处理方法
[0001]本专利技术涉及一种数据汇集领域,尤其涉及一种智慧监管黑匣子的非结构化资料汇集处理方法。
技术介绍
[0002]随着计算机技术和网络技术的发展,目前,各药品生产企业已经在企业内部生产线相关的操作中已采用无纸化的电子化处理模式,包括产品的生产过程资料、内部检验监测资料以及监管单位的抽检和申报动作等。但是在多台不同厂商、不同系统的生产设备间要想让数据统在某一中心则相当困难,需要熟悉不同业务系统数据标准,更需要对已生成的非结构化资料进行准确的解析。
[0003]目前药品生成企业所提供的整个药品生产过程资料多为非结构化数据,非结构化数据是指结构化数据以外的数据,数据结构不固定,无法使用关系数据库存储,只能够以各种类型的文件形式存放,如文档、文本文件、图片、PDF、图像格式等等。且非结构化数据只能通过手工处理,无法通过系统化的方式快速、高效的对非结构化数据进行处理。
[0004]例如,一种在中国专利文献上公开的“面向带有描述信息的海量非结构化数据分布式处理架构”, ...
【技术保护点】
【技术特征摘要】
1.一种智慧监管黑匣子的非结构化资料汇集处理方法,其特征在于,包括以下步骤:S1:根据非结构化的资料文档格式,通过对应的图文识别手段获取文本内容,并在标准模板格式的基础上对识别后的内容修正;S2:将识别并修正后的结构化内容标注对应的模板,并保存到数据库中对应的行列坐标中;S3:根据标记的行列坐标信息,逐个向历史数据库中对应的模板信息进行匹配,保存匹配后文件模板相应坐标对应的标签;S4:根据匹配的情况,匹配到对应标签的坐标信息,修改对应坐标的标签;S5:将标签与坐标对应的文本内容生成结构化的字段并将字段对应的栈值进行标记;S6:完成从无序非结构化文本到结构化字段栏位的转换。2.根据权利要求1所述的一种智慧监管黑匣子的非结构化资料汇集处理方法,其特征在于,所述的非结构化资料文档包括文本文档、Word文档、Excel文档、PDF文档和图片文档;Word文档通过Word API技术对Word文档的内容进行读取,并在程序中按语法要求将转换后的数据写入文本文档中;Excel文档通过Excel API技术读取Excel文档中所有单元格的内容及格式,从而完成从Excel文档到文本文档的转换;...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。