一种非结构化文件的分割方法及装置制造方法及图纸

技术编号:45854080 阅读:14 留言:0更新日期:2025-07-19 11:13
本发明专利技术公开了一种非结构化文件的分割方法及装置,该方法包括:获取多个非结构化文件;根据各个非结构化文件的文件体积,对非结构化文件进行分类,得到分类结果;基于分类结果,结合各个非结构化文件的文件类型,采用不同的分割策略,对非结构化文件进行分割,得到文件分割结果。通过对非结构化文件进行分类,并针对分类结果结合文件类型采用不同的分割策略,实现对非结构化文件的分割,达到提高非结构化文件存储和检索效率的效果,为后续的非结构化文件分析和价值挖掘提供基础,同时降低非结构化文件管理成本。

【技术实现步骤摘要】

本专利技术属于文件分割的,具体涉及一种非结构化文件的分割方法及装置


技术介绍

1、非结构化数据是数据结构不规则或不完整,没有预定义的数据模型,不方便用数据库二维逻辑表来表现的数据,包括所有格式的办公文档、文本、图片、html、各类报表、图像、音频与视频信息等。非结构化数据其格式非常多样,标准也是多样性的,而且在技术上非结构化信息比结构化信息更难标准化和理解。所以,非结构化数据的存储、检索、发布以及利用需要更加智能化技术来实现,比如,非结构化数据的海量存储、智能检索、知识挖掘、内容保护、信息的增值开发利用等。

2、目前的相关技术在对非结构化大文件分割时,并不会依据非结构化大文件内文件类型进行分割,导致分割效率较低,还可能会将不同文件类型的子文件划分至同一分割文件内,增加在最终组合文件时出现错误的概率。专利cn119513057a本专利技术提供一种非结构化文件并行同步方法及系统,包括利用预训练文件分块模型对目标文件进行智能分块,并生成双层级联索引编号和数据哈希值。然后,根据数据传输优先级模型,通过自适应并行传输通道将数据子块传输至目标端数据库,并本文档来自技高网...

【技术保护点】

1.一种非结构化文件的分割方法,其特征在于,包括:

2.如权利要求1所述的非结构化文件的分割方法,其特征在于,分类结果包括第一文件集、第二文件集和第三文件集中的至少一个;

3.如权利要求2所述的非结构化文件的分割方法,其特征在于,基于分类结果,结合各个非结构化文件的文件类型,匹配对应的分割策略,对非结构化文件进行分割,得到文件分割结果,具体包括:

4.如权利要求3所述的非结构化文件的分割方法,其特征在于,采用自然语言处理策略进行分割,得到文件分割结果,具体包括:

5.如权利要求3所述的非结构化文件的分割方法,其特征在于,基于非结构化文件中的...

【技术特征摘要】

1.一种非结构化文件的分割方法,其特征在于,包括:

2.如权利要求1所述的非结构化文件的分割方法,其特征在于,分类结果包括第一文件集、第二文件集和第三文件集中的至少一个;

3.如权利要求2所述的非结构化文件的分割方法,其特征在于,基于分类结果,结合各个非结构化文件的文件类型,匹配对应的分割策略,对非结构化文件进行分割,得到文件分割结果,具体包括:

4.如权利要求3所述的非结构化文件的分割方法,其特征在于,采用自然语言处理策略进行分割,得到文件分割结果,具体包括:

5.如权利要求3所述的非结构化文件的分割方法,其特征在于,基于非结构化文件中的标点符号对非结构化文件进行拆分,结合得到多个子片段,采用动态规划策略进行分割,得到文件分割结果,具体包括:

6....

【专利技术属性】
技术研发人员:俞春华李金霞杨阳倪娟邱帅
申请(专利权)人:国网江苏招标有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1