一种文件解析方法及装置制造方法及图纸

技术编号:35276091 阅读:25 留言:0更新日期:2022-10-19 10:56
本发明专利技术公开了一种文件解析方法及装置,该方法包括:获取待解析的第一原始文件,并判断第一原始文件是否属于第一预设格式类型;当判断出第一原始文件属于第一预设格式类型时,对第一原始文件进行预处理,得到第一原始文件对应的预设格式文件;提取预设格式文件的特征信息,并对特征信息进行预设字段匹配操作得到目标匹配结果;根据目标匹配结果执行填充操作,将第一原始文件转化成目标文件。可见,本发明专利技术能够提供一种文件解析方法,提高了文件解析的效率,大大降低文件解析过程中的人力成本和时间成本,自动读取文件内容按照预设格式展示、同时可以更新相关信息,大幅降低了信息读取过程中的失误率,缩短了文件专递过程中的时间周期。期。期。

【技术实现步骤摘要】
一种文件解析方法及装置


[0001]本专利技术涉及数据处理
,尤其涉及一种文件解析方法及装置。

技术介绍

[0002]随着信息技术的快速发展,各种系统之间的交互也越来越多。其中,文件作为信息记录的优势载体,系统之间以文件进行交互的方式也越来越多。
[0003]在实际应用中,一般由负责人员通过人工读取的方式将文件进行解析,进而输入到其他系统中。这种文件解析方式繁琐,耗时较长,失误率较高,降低了文件解析的准确度及效率。
[0004]可见,提供一种文件解析方法以提高文件解析的效率显得尤为重要。

技术实现思路

[0005]本专利技术提供了一种文件解析方法及装置,能够提供一种文件解析方法,提高了文件解析的效率,大大降低文件解析过程中的人力成本和时间成本,自动读取文件内容按照预设格式展示、同时可以更新相关信息,大幅降低了信息读取过程中的失误率,缩短了文件专递过程中的时间周期。
[0006]为了解决上述技术问题,本专利技术第一方面公开了一种文件解析方法,所述方法包括:
[0007]获取待解析的第一原始文件,并判断所述第一原始文件是否属于第一预设格式类型;
[0008]当判断出所述第一原始文件属于所述第一预设格式类型时,对所述第一原始文件进行预处理,得到所述第一原始文件对应的预设格式文件;
[0009]提取所述预设格式文件的特征信息,并对所述特征信息进行预设字段匹配操作得到目标匹配结果;
[0010]根据所述目标匹配结果执行填充操作,将所述第一原始文件转化成目标文件。
[0011]作为一种可选的实施方式,在本专利技术第一方面中,所述方法还包括:
[0012]判断预定义文件路径中是否存在可配置文件,其中,所述可配置文件用于获取所述第一预设格式类型以及所述预设字段中的一种或多种组合信息;
[0013]当判断出所述预定义文件路径中存在所述可配置文件时,将所述可配置文件进行解析,以得到所述第一预设格式类型以及所述预设字段中的一种或多种组合信息。
[0014]作为一种可选的实施方式,在本专利技术第一方面中,所述对所述第一原始文件进行预处理,得到所述第一原始文件对应的预设格式文件,包括:
[0015]通过预先确定的系统接口,将所述第一原始文件对应的压缩数据流转化成目标数据流;
[0016]根据所述目标数据流的信息,创建所述目标数据流对应的文本构造器;
[0017]通过所述文本构造器,将所述目标数据流转化成预设格式文件。
[0018]作为一种可选的实施方式,在本专利技术第一方面中,所述提取所述预设格式文件的特征信息,并对所述特征信息进行预设字段匹配操作得到目标匹配结果,包括:
[0019]通过预设的语义解析模型,提取所述预设格式文件中的特征信息,其中所述特征信息包括至少一种子特征信息;
[0020]对于任一所述子特征信息,对该子特征信息进行预设字段匹配操作,得到该子特征信息对应的所有字段匹配结果;
[0021]从所有所述字段匹配结果中筛选出匹配度最高的字段匹配结果作为该子特征信息对应的目标字段匹配结果;
[0022]将所有所述子特征信息对应的所有所述目标字段匹配结果确定为所述特征信息的目标匹配结果。
[0023]作为一种可选的实施方式,在本专利技术第一方面中,所述对于任一所述子特征信息,对该子特征信息进行预设字段匹配操作,得到该子特征信息对应的所有字段匹配结果,包括:
[0024]对于任一所述子特征信息,确定该子特征信息对应的评价维度以及每一所述评价维度对应的权重值,所述评价维度包括领域信息、场景信息、特征信息类型中的一种或多种组合;
[0025]根据预设字段信息,对该特征信息进行字段匹配操作;
[0026]根据所有所述评价维度,计算每一所述子特征信息对应的所有所述预设字段的匹配度信息;
[0027]将所有所述匹配度信息确定为该子特征信息对应的所有字段匹配结果。
[0028]作为一种可选的实施方式,在本专利技术第一方面中,所述根据所述目标匹配结果执行填充操作,将所述第一原始文件转化成目标文件之后,所述方法还包括:
[0029]判断是否接收到所述目标文件对应的展示命令;
[0030]当判断出接收到所述目标文件对应的所述展示命令时,从所述展示命令中解析出展示元素;
[0031]根据所述目标文件以及所述展示元素,从所述目标文件中确定出需要展示的目标展示内容;
[0032]对所述目标展示内容进行展示操作。
[0033]作为一种可选的实施方式,在本专利技术第一方面中,所述根据所述目标匹配结果执行填充操作,将所述第一原始文件转化成目标文件之后,所述方法还包括:
[0034]判断是否接收到第二原始文件,所述第二原始文件用于与所述第一原始文件进行融合以更新所述目标文件的文件;
[0035]当判断出接收到所述第二原始文件时,判断所述第二原始文件与所述第一原始文件是否属于相匹配的格式类型文件;
[0036]当判断结果为是时,对所述第二原始文件执行解析操作,得到所述第二原始文件对应的目标解析文件;
[0037]将所述目标解析文件以及所述目标文件进行内容融合,更新所述目标文件中的内容。
[0038]本专利技术第二方面公开了一种文件解析装置,所述装置包括:
[0039]判断模块,用于获取待解析的第一原始文件,并判断所述第一原始文件是否属于第一预设格式类型;
[0040]预处理模块,用于当判断出所述第一原始文件属于所述第一预设格式类型时,对所述第一原始文件进行预处理,得到所述第一原始文件对应的预设格式文件;
[0041]匹配模块,用于提取所述预设格式文件的特征信息,并对所述特征信息进行预设字段匹配操作得到目标匹配结果;
[0042]转化模块,用于根据所述目标匹配结果执行填充操作,将所述第一原始文件转化成目标文件。
[0043]作为一种可选的实施方式,在本专利技术第二方面中,所述装置还包括:
[0044]配置模块,用于判断预定义文件路径中是否存在可配置文件,其中,所述可配置文件用于获取所述第一预设格式类型以及所述预设字段中的一种或多种组合信息;当判断出所述预定义文件路径中存在所述可配置文件时,将所述可配置文件进行解析,以得到所述第一预设格式类型以及所述预设字段中的一种或多种组合信息。
[0045]作为一种可选的实施方式,在本专利技术第二方面中,所述预处理模块,包括:
[0046]转化子模块,用于通过预先确定的系统接口,将所述第一原始文件对应的压缩数据流转化成目标数据流;
[0047]创建子模块,用于根据所述目标数据流的信息,创建所述目标数据流对应的文本构造器;
[0048]构造子模块,用于通过所述文本构造器,将所述目标数据流转化成预设文件文件。
[0049]作为一种可选的实施方式,在本专利技术第二方面中,所述匹配模块,包括:
[0050]提取子模块,用于通过预设的语义本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文件解析方法,其特征在于,所述方法包括:获取待解析的第一原始文件,并判断所述第一原始文件是否属于第一预设格式类型;当判断出所述第一原始文件属于所述第一预设格式类型时,对所述第一原始文件进行预处理,得到所述第一原始文件对应的预设格式文件;提取所述预设格式文件的特征信息,并对所述特征信息进行预设字段匹配操作得到目标匹配结果;根据所述目标匹配结果执行填充操作,将所述第一原始文件转化成目标文件。2.根据权利要求1所述的文件解析方法,其特征在于,所述方法还包括:判断预定义文件路径中是否存在可配置文件,其中,所述可配置文件用于获取所述第一预设格式类型以及所述预设字段中的一种或多种组合信息;当判断出所述预定义文件路径中存在所述可配置文件时,将所述可配置文件进行解析,以得到所述第一预设格式类型以及所述预设字段中的一种或多种组合信息。3.根据权利要求2所述的文件解析方法,其特征在于,所述对所述第一原始文件进行预处理,得到所述第一原始文件对应的预设格式文件,包括:通过预先确定的系统接口,将所述第一原始文件对应的压缩数据流转化成目标数据流;根据所述目标数据流的信息,创建所述目标数据流对应的文本构造器;通过所述文本构造器,将所述目标数据流转化成预设格式文件。4.根据权利要求2或3所述的文件解析方法,其特征在于,所述提取所述预设格式文件的特征信息,并对所述特征信息进行预设字段匹配操作得到目标匹配结果,包括:通过预设的语义解析模型,提取所述预设格式文件中的特征信息,其中所述特征信息包括至少一种子特征信息;对于任一所述子特征信息,对该子特征信息进行预设字段匹配操作,得到该子特征信息对应的所有字段匹配结果;从所有所述字段匹配结果中筛选出匹配度最高的字段匹配结果作为该子特征信息对应的目标字段匹配结果;将所有所述子特征信息对应的所有所述目标字段匹配结果确定为所述特征信息的目标匹配结果。5.根据权利要求4所述的文件解析方法,其特征在于,所述对于任一所述子特征信息,对该子特征信息进行预设字段匹配操作,得到该子特征信息对应的所有字段匹配结果,包括:对于任一所述子特征信息,确定该子特征信息对应的评价维度以及每一所述评价维度对应的权重值,所述评价维度包括领域信息、场景信息、特征信息类型中的一种或多种组合;根据预设字段信息,对该特征信息...

【专利技术属性】
技术研发人员:李亚松尹旗赵敏全曹梁陈影君
申请(专利权)人:南方电网深圳数字电网研究院有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1