一种自动识别文件的方法及系统技术方案

技术编号：39568080 阅读：14 留言：0更新日期：2023-12-03 19:19

本发明专利技术涉及文件识别技术，公开了一种自动识别文件的方法及系统，其采用

全部详细技术资料下载

【技术实现步骤摘要】
一种自动识别文件的方法及系统

[0001]本专利技术涉及文件识别技术，尤其涉及了一种自动识别文件的方法及系统
。

技术介绍

[0002]在跨境电商国际物流发展成熟的阶段，进出口的申报材料相当的多
(
如：发票
、
装箱单
、
预录单
、
委托协议
、
危险品
、
申报要素等
)
，海关对申报材料的准确度和校验方面上要求非常的高，申报材料录入很多公司依然采用人工输入的方式，很多公司处理一个申报材料录入时间大致时间需要再5～
20
分钟不等，而对于企业来说，大量的人员投入成本升高，工作效率低，且无法核对材料内容是否完全正确
。
[0003]如现有技术
CN201910843816.3
；文件识别方法及介质，所述方法包括：获取目标文件，所述目标文件为异常文件；计算所述目标文件所包含的可执行区段的熵值总和；当所述熵值总和大于预设阈值，且所述目标文件中存在与预设数据库所包含的所有区段标识均不相同的区段标识所标识的区段时，将所述目标文件识别为加壳文件
。
[0004]现有技术文件其不能很好地对批量不同类型的文件处理，而且其处理方式复杂；工作效率低，无法核对材料内容是否完全正确
。。

技术实现思路

[0005]本专利技术针对现有技术中处理方式复杂；工作效率低，无法核对材料内容是否完全正确的问题，提供了一种自动识别文件的方法及系...

【技术保护点】

【技术特征摘要】
1.
一种自动识别文件的方法，用于电商物流中，其方法包括：步骤1，文件的分类，用户上传文件，并对上传后的文件进行分类；步骤2，压缩包的判断，对于分类后的文件判断该文件是否为压缩包文件，当该文件为压缩包文件则进行压缩包文件的解压，并对文件解压进行判断，当解压成功则执行步骤3，否则发送告警信息至用户；否则执行步骤3；步骤3，文件瑕疵的判断，对于不是压缩包的文件进行文件瑕疵的判断，当存在文件瑕疵则发送告警信息至用户，否则对于不存在瑕疵的文件进行文件的处理，进行文件的处理；步骤4，图片的判断，对于处理后的文件判断该文件是否为图片，当该文件为图片，则进行图片的处理；否则进行文件的抽字抽线处理，并执行步骤5；步骤5，
JOSN
格式的数据生成，对于步骤4抽字抽线处理后的文件生成
JOSN
格式的数据；并保存
xml
文件；步骤6，文件内容的判断，对步骤
5JOSN
格式的数据文件进行文件内容的判断，当文件内容存在缺失，则发送告警信息至用户；否则将
JOSN
格式的数据文件保存至文件数据库中
。2.
根据权利要求1所述的一种自动识别文件的方法，其特征在于，文件解压通过哈夫曼编码进行文件的解压
。3.
根据权利要求2所述的一种自动识别文件的方法，其特征在于，哈夫曼编码对文件解压的过程包括：读入压缩后的二进制，根据二进制数据构建哈夫曼树；目标字符的哈夫曼编码的获取，从哈夫曼树的根节点开始，按照路径长度从短到长依次访问每个节点，知道访问到目标字符或遇到结束字符；当访问到目标字符时，记录下路径上的所有节点值，从而得到目标字符的哈夫曼编码；原始数据的还原，依据哈夫曼编码将目标字符还原成原始数据，并输出还原后的原始数据
。4.
根据权利要求1所述的一种自动识别文件的方法，其特征在于，文件内容的判断通过哈希算法进行判断；哈希算法将文件的内容计算为哈希值，对比哈希值与文件内容的原始值，当哈希值与原始值一致，则文件的内容为损坏，否则文件的内容损坏
。5.

【专利技术属性】
技术研发人员：李承影，
申请(专利权)人：信号旗智能科技上海有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人