标记语言文件的文本提取方法、装置、设备和存储介质制造方法及图纸

技术编号:43472109 阅读:11 留言:0更新日期:2024-11-27 13:10
本公开提供了一种标记语言文件的文本提取方法、装置、设置和存储介质,该方法包括:获取待处理标记语言文件以及待处理标记语言文件的文件大小;基于文件大小以及当前系统剩余内存,判断待处理标记语言文件是否为大文件;在判断待处理标记语言文件为大文件的情况下,对待处理标记语言文件进行流式分片内容读取和文本提取,得到组成待处理标记语言文件的各分片内容对应的文本提取结果;将各分片内容对应的文本提取结果以流式分片的方式发送至目标服务器,以使目标服务器对各分片内容对应的文本提取结果进行组合,得到待处理标记语言文件对应的文本文件。通过对大文件进行流式分片处理,可以提高文本信息的提取效率,避免文本信息的提取报错。

【技术实现步骤摘要】

本公开涉及数据处理,尤其涉及一种标记语言文件的文本提取方法、装置、设备和存储介质


技术介绍

1、标记语言文件在各种应用中得到了广泛的使用,如xml文件、html文件等。这些标记语言文件中包含了大量的标记信息和文本信息。在一些场景下,需要将标记语言文件中的文本信息提取出来,得到仅包括文本信息的文本文件。目前,在对标记语言文件中的文本信息进行提取时,通常是将整个标记语言文件作为一个整体进行文本信息的提取,这就导致在标记语言文件比较大时,文本信息的提取效率低且容易出错。


技术实现思路

1、有鉴于此,本公开提出了一种标记语言文件的文本提取方法、装置、设备和存储介质,可以提高文本信息的提取效率,并且可以避免将整个待处理标记语言文件全部加载至内存中所导致的内存外溢,进而可以避免文本信息的提取报错。

2、根据本公开的第一方面,提供了一种标记语言文件的文本提取的方法,包括:

3、获取待处理标记语言文件以及所述待处理标记语言文件的文件大小;

4、基于所述文件大小以及当前系统剩余内存,判断所本文档来自技高网...

【技术保护点】

1.一种标记语言文件的文本提取方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,在对所述待处理标记语言文件进行流式分片内容读取和文本提取,得到组成所述待处理标记语言文件的各分片内容对应的文本提取结果时,包括:

3.根据权利要求2所述的方法,其特征在于,在计算出所述当前时刻分片大小后还,还包括:

4.根据权利要求2所述的方法,其特征在于,在判断所述当前时刻分片大小大于所述当前系统剩余内存时,将执行以下操作:

5.根据权利要求2所述的方法,其特征在于,在对所述当前时刻分片内容中的标记信息进行检测和删除,得到所述当前时刻分片内容...

【技术特征摘要】

1.一种标记语言文件的文本提取方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,在对所述待处理标记语言文件进行流式分片内容读取和文本提取,得到组成所述待处理标记语言文件的各分片内容对应的文本提取结果时,包括:

3.根据权利要求2所述的方法,其特征在于,在计算出所述当前时刻分片大小后还,还包括:

4.根据权利要求2所述的方法,其特征在于,在判断所述当前时刻分片大小大于所述当前系统剩余内存时,将执行以下操作:

5.根据权利要求2所述的方法,其特征在于,在对所述当前时刻分片内容中的标记信息进行检测和删除,得到所述当前时刻分片内容对应的文本提取结果时,包括:

6.根据权利要...

【专利技术属性】
技术研发人员:杨长春苏晨常杰毅
申请(专利权)人:北京正元智晟科技有限公司
类型:发明
国别省市:

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1