一种自动识别文件的方法及系统技术方案

技术编号:39568080 阅读:14 留言:0更新日期:2023-12-03 19:19
本发明专利技术涉及文件识别技术,公开了一种自动识别文件的方法及系统,其采用

【技术实现步骤摘要】
一种自动识别文件的方法及系统


[0001]本专利技术涉及文件识别技术,尤其涉及了一种自动识别文件的方法及系统


技术介绍

[0002]在跨境电商国际物流发展成熟的阶段,进出口的申报材料相当的多
(
如:发票

装箱单

预录单

委托协议

危险品

申报要素等
)
,海关对申报材料的准确度和校验方面上要求非常的高,申报材料录入很多公司依然采用人工输入的方式,很多公司处理一个申报材料录入时间大致时间需要再5~
20
分钟不等,而对于企业来说,大量的人员投入成本升高,工作效率低,且无法核对材料内容是否完全正确

[0003]如现有技术
CN201910843816.3
;文件识别方法及介质,所述方法包括:获取目标文件,所述目标文件为异常文件;计算所述目标文件所包含的可执行区段的熵值总和;当所述熵值总和大于预设阈值,且所述目标文件中存在与预设数据库所包含的所有区段标识均不相同的区段标识所标识的区段时,将所述目标文件识别为加壳文件

[0004]现有技术文件其不能很好地对批量不同类型的文件处理,而且其处理方式复杂;工作效率低,无法核对材料内容是否完全正确
。。

技术实现思路

[0005]本专利技术针对现有技术中处理方式复杂;工作效率低,无法核对材料内容是否完全正确的问题,提供了一种自动识别文件的方法及系

[0006]为了解决上述技术问题,本专利技术通过下述技术方案得以解决:
[0007]一种自动识别文件的方法,用于电商物流中,其方法包括:
[0008]步骤1,文件的分类,用户上传文件,并对上传后的文件进行分类;
[0009]步骤2,压缩包的判断,对于分类后的文件判断该文件是否为压缩包文件,当该文件为压缩包文件则进行压缩包文件的解压,并对文件解压进行判断,当解压成功则执行步骤3,否则发送告警信息至用户;否则执行步骤3;
[0010]步骤3,文件瑕疵的判断,对于不是压缩包的文件进行文件瑕疵的判断,当存在文件瑕疵则发送告警信息至用户,否则对于不存在瑕疵的文件进行文件的处理,进行文件的处理;
[0011]步骤4,图片的判断,对于处理后的文件判断该文件是否为图片,当该文件为图片,则进行图片的处理;否则进行文件的抽字抽线处理,并执行步骤5;
[0012]步骤5,
JOSN
格式的数据生成,对于步骤4抽字抽线处理后的文件生成
JOSN
格式的数据;并保存
xml
文件;
[0013]步骤6,文件内容的判断,对步骤
5JOSN
格式的数据文件进行文件内容的判断,当文件内容存在缺失,则发送告警信息至用户;否则将
JOSN
格式的数据文件保存至文件数据库中

[0014]作为优选,文件解压通过哈夫曼编码进行文件的解压

[0015]作为优选,哈夫曼编码对文件解压的过程包括:
[0016]读入压缩后的二进制,根据二进制数据构建哈夫曼树;
[0017]从哈夫曼树的根节点开始,按照路径长度从短到长依次访问每个节点,知道访问到目标字符或遇到结束字符;当访问到目标字符时,记录下路径上的所有节点值,从而得到目标字符的哈夫曼编码;
[0018]并依据哈夫曼编码将目标字符还原成原始数据,并输出还原后的原始数据

[0019]作为优选,文件内容的判断通过哈希算法进行判断;哈希算法将文件的内容计算为哈希值,对比哈希值与文件内容的原始值,当哈希值与原始值一致,则文件的内容为损坏,否则文件的内容损坏

[0020]作为优选,文件的抽字抽线处理包括:
[0021]文件格式的转换,将文件格式转换为
DOM

SAX
的数据结构;
[0022]格式的调整,对于转换后的
DOM

SAX
的数据结构进行格式的调整;
[0023]文件线条及内容的抽取,通过绘制直线的算法进行文件线条的抽取,卷积神经网络
CNN
算法进行文件内容的抽取

[0024]作为优选,绘制直线的算法进行文件线条的抽取包括用
Bresenham
平面上绘制直线的算法,比较两个连续点之间得
x
坐标和
y
坐标得差值,来确定下一个点得位置,抽取出文件中包含的线条

[0025]作为优选,卷积神经网络
CNN
算法包括:
[0026]将文件内容转换成数字矩阵,每个像素点代表一个字符或一个字节,然后进行归一化处理;
[0027]卷积操作,使用卷积核对数字矩阵进行卷积操作,提取出图像的特征;
[0028]池化操作,对卷积后的特征图进行池化操作,减少计算量并保留重要信息;
[0029]全连接层,将池化后的特征图展开成一维向量,然后通过全连接层将特征向量映射到目标类别;
[0030]输出结果,根据全连接层的输出结果,判断文件内容属于哪一类别

[0031]为了解决上述技术问题,本专利技术还提供了一种自动识别文件的系统,其自动识别文件的系统用于实现所述的一种自动识别文件的方法的步骤

[0032]为了解决上述技术问题,本专利技术还提供了一种计算机可读存储介质,其所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现所述的一种自动识别文件的方法的步骤

[0033]为了解决上述技术问题,本专利技术还提供了一种电子设备,其包括:存储器,用于存储计算机程序;处理器,用于执行所述计算机程序时实现所述的一种自动识别文件的方法的步骤

[0034]本专利技术由于采用了以上技术方案,具有显著的技术效果:
[0035]本专利技术提出从压缩包文件到最后输出
JSON
格式的数据内容
+XML
的文件,可用于处理各行业文件,不只是处理进出口的文件,只要是文档和图片类型的都可以把数据抽取出来,形成
JSON
格式的数据,可支持多方数据推送,和数据结构化输出
XML
的文件进行保存,为数据模型的算法提供基础信息

[0036]本专利技术解决文件类型多,比如压缩包
、EXCEL、WORD、PDF、TXT、IMAGE
等文件进行文
件是否损坏和大小是否符合规范,包括内容抽取

乱码判断,线体

字体

文字

坐标定位功能

[0037]本专利技术可支持多行业的文件类型,不限于进出口相关文件

[本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种自动识别文件的方法,用于电商物流中,其方法包括:步骤1,文件的分类,用户上传文件,并对上传后的文件进行分类;步骤2,压缩包的判断,对于分类后的文件判断该文件是否为压缩包文件,当该文件为压缩包文件则进行压缩包文件的解压,并对文件解压进行判断,当解压成功则执行步骤3,否则发送告警信息至用户;否则执行步骤3;步骤3,文件瑕疵的判断,对于不是压缩包的文件进行文件瑕疵的判断,当存在文件瑕疵则发送告警信息至用户,否则对于不存在瑕疵的文件进行文件的处理,进行文件的处理;步骤4,图片的判断,对于处理后的文件判断该文件是否为图片,当该文件为图片,则进行图片的处理;否则进行文件的抽字抽线处理,并执行步骤5;步骤5,
JOSN
格式的数据生成,对于步骤4抽字抽线处理后的文件生成
JOSN
格式的数据;并保存
xml
文件;步骤6,文件内容的判断,对步骤
5JOSN
格式的数据文件进行文件内容的判断,当文件内容存在缺失,则发送告警信息至用户;否则将
JOSN
格式的数据文件保存至文件数据库中
。2.
根据权利要求1所述的一种自动识别文件的方法,其特征在于,文件解压通过哈夫曼编码进行文件的解压
。3.
根据权利要求2所述的一种自动识别文件的方法,其特征在于,哈夫曼编码对文件解压的过程包括:读入压缩后的二进制,根据二进制数据构建哈夫曼树;目标字符的哈夫曼编码的获取,从哈夫曼树的根节点开始,按照路径长度从短到长依次访问每个节点,知道访问到目标字符或遇到结束字符;当访问到目标字符时,记录下路径上的所有节点值,从而得到目标字符的哈夫曼编码;原始数据的还原,依据哈夫曼编码将目标字符还原成原始数据,并输出还原后的原始数据
。4.
根据权利要求1所述的一种自动识别文件的方法,其特征在于,文件内容的判断通过哈希算法进行判断;哈希算法将文件的内容计算为哈希值,对比哈希值与文件内容的原始值,当哈希值与原始值一致,则文件的内容为损坏,否则文件的内容损坏
。5.

【专利技术属性】
技术研发人员:李承影
申请(专利权)人:信号旗智能科技上海有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1