【技术实现步骤摘要】
本专利技术属于文件分割的,具体涉及一种非结构化文件的分割方法及装置。
技术介绍
1、非结构化数据是数据结构不规则或不完整,没有预定义的数据模型,不方便用数据库二维逻辑表来表现的数据,包括所有格式的办公文档、文本、图片、html、各类报表、图像、音频与视频信息等。非结构化数据其格式非常多样,标准也是多样性的,而且在技术上非结构化信息比结构化信息更难标准化和理解。所以,非结构化数据的存储、检索、发布以及利用需要更加智能化技术来实现,比如,非结构化数据的海量存储、智能检索、知识挖掘、内容保护、信息的增值开发利用等。
2、目前的相关技术在对非结构化大文件分割时,并不会依据非结构化大文件内文件类型进行分割,导致分割效率较低,还可能会将不同文件类型的子文件划分至同一分割文件内,增加在最终组合文件时出现错误的概率。专利cn119513057a本专利技术提供一种非结构化文件并行同步方法及系统,包括利用预训练文件分块模型对目标文件进行智能分块,并生成双层级联索引编号和数据哈希值。然后,根据数据传输优先级模型,通过自适应并行传输通道将数据子块传
...【技术保护点】
1.一种非结构化文件的分割方法,其特征在于,包括:
2.如权利要求1所述的非结构化文件的分割方法,其特征在于,分类结果包括第一文件集、第二文件集和第三文件集中的至少一个;
3.如权利要求2所述的非结构化文件的分割方法,其特征在于,基于分类结果,结合各个非结构化文件的文件类型,匹配对应的分割策略,对非结构化文件进行分割,得到文件分割结果,具体包括:
4.如权利要求3所述的非结构化文件的分割方法,其特征在于,采用自然语言处理策略进行分割,得到文件分割结果,具体包括:
5.如权利要求3所述的非结构化文件的分割方法,其特征在于,
...【技术特征摘要】
1.一种非结构化文件的分割方法,其特征在于,包括:
2.如权利要求1所述的非结构化文件的分割方法,其特征在于,分类结果包括第一文件集、第二文件集和第三文件集中的至少一个;
3.如权利要求2所述的非结构化文件的分割方法,其特征在于,基于分类结果,结合各个非结构化文件的文件类型,匹配对应的分割策略,对非结构化文件进行分割,得到文件分割结果,具体包括:
4.如权利要求3所述的非结构化文件的分割方法,其特征在于,采用自然语言处理策略进行分割,得到文件分割结果,具体包括:
5.如权利要求3所述的非结构化文件的分割方法,其特征在于,基于非结构化文件中的标点符号对非结构化文件进行拆分,结合得到多个子片段,采用动态规划策略进行分割,得到文件分割结果,具体包括:
6....
【专利技术属性】
技术研发人员:俞春华,李金霞,杨阳,倪娟,邱帅,
申请(专利权)人:国网江苏招标有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。