一种应用于试验检测报告有效信息提取的方法技术

技术编号:39417590 阅读:8 留言:0更新日期:2023-11-19 16:07
本发明专利技术公开了一种应用于试验检测报告有效信息提取的方法,包括如下步骤:模型定义,定义有效信息对应的模型;文件监听,采集文件信息并同步与模型相对应的文件信息;解析文件,对文件信息根据定义调用不同解析器进行处理;生成数据块,将解析得到的信息块进行矩阵化得到数据块;数据对象化并映射特征;具备对于多种文件内容进行提取和识别的能力,同时在其基础上可以方便的进行定制化开发满足非常极端场景下特异化文档内容的识别和提取;整体协同设计,针对试验检验报告这种存在约束范围以及内容范围的识别项上,通过辅助特征词库和修订词库以及异常偏差识别等方式,可以提高识别的准确性,便于使用

【技术实现步骤摘要】
一种应用于试验检测报告有效信息提取的方法


[0001]本专利技术涉及检测报告的信息提取
,尤其涉及一种应用于试验检测报告有效信息提取的方法


技术介绍

[0002]试验检测报告:由设备或者其他系统生成的电子或者纸质的信息集合,其上包含了被试验对象一次或者多次的结果数据,数据的格式包含文字

图片等

[0003]工业领域内,企业生产过程存在多样性,无法保障试验报告的模板格式及内容格式统一,同时其产出的试验报告可能也存在无法标准化

具备私有化的数据格式,因此统一进行试验检测报告有效信息提取方法的设计时,必须具备可拓展能力,可通过集成定制的方式来满足信息解析以及提取的需要

但由于试验检测报告的产生速度受到试验过程和现实因素的影响,其解析速度和同步数量规模是无需具备极高的效率,因此不需要追求检测提取的速度而忽视其准确性等的要求

现有技术中的提取技术中,特定的提取方法仅能对有特定特点的信息进行提取,普适性不足;并且难以对原文件进行追踪确认

[0004]例如,一种在中国专利文献上公开的“一种文档多模态信息提取与关联方法”,其公告号:
CN115310423A
,公开了包括多模态信息提取和多模态信息关联,多模态信息提取是基于
python
编程语言,根据不同文档对程序进一步调整适配,提取技术文档中的文字

表格

图片等提取多模态信息数据,多模态信息关联是将提取出的文字

表格

图片等多模态信息数据依据其内在属性建立关联关系进行关联合并,但是该方案没有考虑到对信息提取和映射的关联导致准确性差不易用


技术实现思路

[0005]为了解决现有技术中不易用

扩展性差的问题,本专利技术提供一种应用于试验检测报告有效信息提取的方法,提供一种方便易用的试验管理手段,具备对试验检测结果

试验检测报告进行统一的资料管控的适应能力

[0006]为了实现上述目的,本专利技术提供如下技术方案:一种应用于试验检测报告有效信息提取方法,包括如下步骤:模型定义,定义有效信息对应的模型;文件监听,采集文件信息并同步与模型相对应的文件信息;解析文件,对文件信息根据定义调用不同解析器进行处理;生成数据块,将解析得到的信息块进行矩阵化得到数据块;数据对象化并映射特征

通过定义对应需要进行提取的信息的模型,确定检测报告中有效信息的提取结构,然后通过文件监听将报告映射为对应的提取结构,即通过模型定义和文件检测将待检测报告进行解析前的设置

对于不同类型的文件,可以通过模型定义中的参数进行解析

解析后将检测报告解析为多个信息块,此时信息块为不同类型文件得到的不同类型的信息块,对这些信息块进行格式化得到统一的数据块,再对同一的数据
块进行对象化处理,从而实现不同类型报告的转换

通过映射处理实现特征数据的提取

具备对试验检测结果

试验检测报告进行统一的资料管控的适应能力

[0007]作为优选的,解析文件包括对特定化文件解析和非特定化文件解析,使用关联模型参数对特定化文件解析,使用泛化参数对非特定化文件解析

通过对特定化文件设置特定的解析器,实现对已知类型文件的快速解析;通过泛化参数实现对多种不同类型的文件的解析

使得具备对于多种文件内容进行提取和识别的能力

[0008]作为优选的,所述的非特定化文件解析包括,确定配置的泛化参数,根据不同的泛化参数分别转换不同类型的非特定化文件

通过泛化参数确定非特定化文件的解析参数,并根据不同的泛化参数对不同类型的非特定化文件进行不同步骤的解析,解析结果均为数据块

其中泛化参数预先对不同类型的文件分别设置,并在解析时根据非特定化文件的类型直接确定

使得具备对于多种文件内容进行提取和识别的能力,同时在其基础上可以方便的进行定制化开发满足非常极端场景下特异化文档内容的识别和提取

[0009]作为优选的,所述的模型定义包括,定义文件中的基础信息结构,根据基础信息结构定义解析过程中的参数,确定有效信息的模型

通过定义确定检测报告中有效信息的类型,同时确定有效信息类型对应的解析需要的参数

实现在这一步建立多种类型文件均可适用的检测模型

[0010]作为优选的,所述的文件监听时,对试验检测报告的特征进行检测,根据检测特征确定对应的模型

实现待检测报告的自动化检测

[0011]作为优选的,所述的数据对象化包括,根据模型的定义确定数据块的第二特征,将第二特征作为数据块的主要索引,将该数据块中的特征作为次要索引

对不同类型的文分别获取不同的第二特征,若通过模型的定义无法获取第二特征,则将该文件的检测特征作为主要索引

通过索引使得形成对象化的数据将具备直接被关联的能力

即对提取后的数据根据提取方法确定索引,通过索引对提取后的数据进行标记,便于提取选择数据对象化结果

[0012]作为优选的,所述的映射特征包括,将模型中的文件信息和数据对象化的结果进行关联和转换,数据对象化的结果包括对象数据库

通过将模型中需要的数据字段和解析后产生的对象数据库进行关联和转换,从而实现对特征数据的提取的过程

模型映射处理后其结果即为对应试验检验报告所需的内容

[0013]作为优选的,所述的生成数据块包括,根据特征对信息块进行矩阵化,通过转换过程中的位置相关参数定义矩阵内容

通过对数据块进行矩阵化转换,实现解析内容的格式化处理,实现将解析后得到不同类型不同格式的数据转换为关联其定义的统一格式类型

[0014]本专利技术具有如下优点:(1)具备对于多种文件内容进行提取和识别的能力,同时在其基础上可以方便的进行定制化开发满足非常极端场景下特异化文档内容的识别和提取;(2)整体协同设计,针对试验检验报告这种存在约束范围以及内容范围的识别项上,通过辅助特征词库和修订词库以及异常偏差识别等方式,可以提高识别的准确性,便于使用;(3)可独立使用

易部署

易集成;应采用微服务架构的方式来同外部应用进行信息的同步和交互;具有数据标准化的设计和接口标准化的设计以及实现

附图说明
[0015]下面描述中的附图仅仅是示例性的,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图引伸获得其它本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种应用于试验检测报告有效信息提取的方法,其特征在于,包括如下步骤:模型定义,定义有效信息对应的模型;文件监听,采集文件信息并同步与模型相对应的文件信息;解析文件,对文件信息根据定义调用不同解析器进行处理;生成数据块,将解析得到的信息块进行矩阵化得到数据块;数据对象化并映射特征
。2.
根据权利要求1所述的一种应用于试验检测报告有效信息提取的方法,其特征在于,解析文件包括对特定化文件解析和非特定化文件解析,使用关联模型参数对特定化文件解析,使用泛化参数对非特定化文件解析
。3.
根据权利要求2所述的一种应用于试验检测报告有效信息提取的方法,其特征在于,所述的非特定化文件解析包括,确定配置的泛化参数,根据不同的泛化参数分别转换不同类型的非特定化文件
。4.
根据权利要求1或2或3所述的一种应用于试验检测报告有效信息提取的方法,其特征在于,所述的模型定义包括,定义文件中的基础信息结构,根据基础信息结构定...

【专利技术属性】
技术研发人员:孔伟阳马楠桦温瑞琦
申请(专利权)人:浙江中控技术股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1