System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及文件解析,尤其涉及一种基于原始文件不出域的文件特征值解析方法和系统。
技术介绍
1、现有的文件特征值解析系统都需要文件拥有者将原文件集中上传到平台上,然后通过平台提供的识别组件来解析并提取该文件的结构化信息,这种模式本质上需要文件的拥有者将文件共享出去,即,原始文件要出域。但是原始文件一旦流出本地,其后续流转和使用就不再受文件拥有方的控制了。
2、由于通过原始文件出域的模式对文件特征值进行解析的方式,极易导致涉密文件被泄露或被滥用,无法保护数据提供方的原始文件资源,因此数据提供方对这种特征值解析共享的参与程度不高,文件利用率很低。在大多数场合下,当文件参与数据产品融合加工和计算分析,并不需要文件的全部内容和信息,而只需要文件中某个字段或特征值。现有的平台或解析工具,无法做到原始文件不出域的前提下提取原文件的一个或几个特征值并将提取的特征值共享出去。
3、因此,如何提供一种更加安全的文件特征值解析方法,成为亟待解决的技术问题。
技术实现思路
1、有鉴于此,为了克服现有技术的不足,本专利技术旨在提供一种基于原始文件不出域的文件特征值解析方法和系统。
2、根据本专利技术的第一方面,提供一种基于原始文件不出域的文件特征值解析方法,包括:
3、通过构建相关联的文件存放目录和解析模型,为待解析文件配置文件数据源;
4、通过在应用场景中执行解析模型,对待解析文件的文件数据源进行预解析;
5、将通过预解析的文件数
6、优选的,本专利技术基于原始文件不出域的文件特征值解析方法中,通过构建相关联的文件存放目录和解析模型,为待解析文件配置文件数据源,包括:
7、通过引用服务器上文件夹的绝对路径,为待解析文件构建对应的文件存放目录;
8、通过在具体应用场景中对数据识别算法进行训练,为待解析文件构建解析模型;
9、通过将待解析文件的业务类型与解析模型的场景类型进行匹配,将解析模型内置在对应的文件存放目录中,获得待解析文件的文件数据源。
10、优选的,本专利技术基于原始文件不出域的文件特征值解析方法中,通过在具体应用场景中对数据识别算法进行训练,为待解析文件构建解析模型,包括:
11、在具体应用场景中采用数据识别算法对待解析文件进行识别,将识别的内容转换为结构化数据;
12、将转换获得的结构化数据与识别的内容进行匹配,当转换获得的结构化数据与识别的内容匹配成功,将数据识别算法作为解析模型。
13、优选的,本专利技术基于原始文件不出域的文件特征值解析方法中,通过在具体应用场景中对数据识别算法进行训练,为待解析文件构建解析模型,还包括:当转换获得的结构化数据与识别的内容匹配失败,通过对匹配失败的识别内容进行重新识别和转换,直至转换获得的结构化数据与识别的内容匹配成功,将经过训练的数据识别算法作为解析模型。
14、优选的,本专利技术基于原始文件不出域的文件特征值解析方法中,通过在应用场景中执行解析模型,对待解析文件的文件数据源进行预解析,包括:将应用场景对应的文件设置在对应的文件存放目录中,通过执行所述文件存放目录中的解析模型,对待解析文件的文件数据源进行预解析。
15、优选的,本专利技术基于原始文件不出域的文件特征值解析方法中,通过执行所述文件存放目录中的解析模型,对待解析文件的文件数据源进行预解析,包括:采用解析模型根据应用场景对应的文件的文件存放目录和文件名称对所述文件进行加载,对加载的文件进行识别和转换,当通过解析模型识别和转化得到的文件内容与文件的实际内容一致,将待解析文件的文件数据源判定为通过预解析。
16、优选的,本专利技术基于原始文件不出域的文件特征值解析方法中,通过执行所述文件存放目录中的解析模型,对待解析文件的文件数据源进行预解析,还包括:当通过解析模型识别和转化得到的文件内容与文件的实际内容不一致,将待解析文件的文件数据源判定为未通过预解析,对未通过预解析的数据源进行修正。
17、优选的,本专利技术基于原始文件不出域的文件特征值解析方法中,将通过预解析的文件数据源封装为特征值接口,通过调用特征值接口对相应的待解析文件进行解析,包括:
18、将通过预解析的文件数据源封装为特征值接口,为所述特征值设置访问权限;
19、根据业务场景类型,将待解析文件设置在对应的文件存放目中,根据访问权限调用特征值接口启动文件存放目中的解析模型;
20、解析模型对文件存放目中的待解析文件进行解析,将解析结果返回至调用方。
21、根据本专利技术的第二方面,提供一种基于原始文件不出域的文件特征值解析系统,包括解析服务端,所述解析服务端用于通过构建相关联的文件存放目录和解析模型,为待解析文件配置文件数据源;通过在应用场景中执行解析模型,对待解析文件的文件数据源进行预解析;将通过预解析的文件数据源封装为特征值接口,通过调用特征值接口对相应的待解析文件进行解析。
22、根据本专利技术的第三方面,提供一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现本专利技术第一方面所述的方法。
23、本专利技术的基于原始文件不出域的文件特征值解析方法和系统,将整个解析过程封装为隐私特征值接口对外提供服务,可以在确保数据提供方原始文件不出域的前提下,将文件特征值动态解析为结构化信息,对外提供api接口调用,参与数据产品融合加工和计算,大大提高了原始文件的利用率,同时也避免了原始文件直接共享带来的安全风险。
本文档来自技高网...【技术保护点】
1.一种基于原始文件不出域的文件特征值解析方法,其特征在于,所述方法包括:
2.根据权利要求1所述的基于原始文件不出域的文件特征值解析方法,其特征在于,通过构建相关联的文件存放目录和解析模型,为待解析文件配置文件数据源,包括:
3.根据权利要求2所述的基于原始文件不出域的文件特征值解析方法,其特征在于,通过在具体应用场景中对数据识别算法进行训练,为待解析文件构建解析模型,包括:
4.根据权利要求2所述的基于原始文件不出域的文件特征值解析方法,其特征在于,通过在具体应用场景中对数据识别算法进行训练,为待解析文件构建解析模型,还包括:
5.根据权利要求1所述的基于原始文件不出域的文件特征值解析方法,其特征在于,通过在应用场景中执行解析模型,对待解析文件的文件数据源进行预解析,包括:
6.根据权利要求5所述的基于原始文件不出域的文件特征值解析方法,其特征在于,通过执行所述文件存放目录中的解析模型,对待解析文件的文件数据源进行预解析,包括:
7.根据权利要求5所述的基于原始文件不出域的文件特征值解析方法,其特征在于,
8.根据权利要求1所述的基于原始文件不出域的文件特征值解析方法,其特征在于,将通过预解析的文件数据源封装为特征值接口,通过调用特征值接口对相应的待解析文件进行解析,包括:
9.一种基于原始文件不出域的文件特征值解析系统,其特征在于,所述系统包括解析服务端,所述解析服务端用于通过构建相关联的文件存放目录和解析模型,为待解析文件配置文件数据源;通过在应用场景中执行解析模型,对待解析文件的文件数据源进行预解析;将通过预解析的文件数据源封装为特征值接口,通过调用特征值接口对相应的待解析文件进行解析。
10.一种计算机设备,其特征在于,所述计算机设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现权利要求1-8中任一项所述方法。
...【技术特征摘要】
1.一种基于原始文件不出域的文件特征值解析方法,其特征在于,所述方法包括:
2.根据权利要求1所述的基于原始文件不出域的文件特征值解析方法,其特征在于,通过构建相关联的文件存放目录和解析模型,为待解析文件配置文件数据源,包括:
3.根据权利要求2所述的基于原始文件不出域的文件特征值解析方法,其特征在于,通过在具体应用场景中对数据识别算法进行训练,为待解析文件构建解析模型,包括:
4.根据权利要求2所述的基于原始文件不出域的文件特征值解析方法,其特征在于,通过在具体应用场景中对数据识别算法进行训练,为待解析文件构建解析模型,还包括:
5.根据权利要求1所述的基于原始文件不出域的文件特征值解析方法,其特征在于,通过在应用场景中执行解析模型,对待解析文件的文件数据源进行预解析,包括:
6.根据权利要求5所述的基于原始文件不出域的文件特征值解析方法,其特征在于,通过执行所述文件存放目录中的解析模型,对待解析文件的文件数据源进行预解析,...
【专利技术属性】
技术研发人员:陆志鹏,国丽,王钺,韩光,郑曦,王晓亮,刘国栋,范国浩,李学兵,
申请(专利权)人:中电数据产业有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。