【技术实现步骤摘要】
本公开涉及数据处理,尤其涉及一种标记语言文件的文本提取方法、装置、设备和存储介质。
技术介绍
1、标记语言文件在各种应用中得到了广泛的使用,如xml文件、html文件等。这些标记语言文件中包含了大量的标记信息和文本信息。在一些场景下,需要将标记语言文件中的文本信息提取出来,得到仅包括文本信息的文本文件。目前,在对标记语言文件中的文本信息进行提取时,通常是将整个标记语言文件作为一个整体进行文本信息的提取,这就导致在标记语言文件比较大时,文本信息的提取效率低且容易出错。
技术实现思路
1、有鉴于此,本公开提出了一种标记语言文件的文本提取方法、装置、设备和存储介质,可以提高文本信息的提取效率,并且可以避免将整个待处理标记语言文件全部加载至内存中所导致的内存外溢,进而可以避免文本信息的提取报错。
2、根据本公开的第一方面,提供了一种标记语言文件的文本提取的方法,包括:
3、获取待处理标记语言文件以及所述待处理标记语言文件的文件大小;
4、基于所述文件大小以及当前
...【技术保护点】
1.一种标记语言文件的文本提取方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,在对所述待处理标记语言文件进行流式分片内容读取和文本提取,得到组成所述待处理标记语言文件的各分片内容对应的文本提取结果时,包括:
3.根据权利要求2所述的方法,其特征在于,在计算出所述当前时刻分片大小后还,还包括:
4.根据权利要求2所述的方法,其特征在于,在判断所述当前时刻分片大小大于所述当前系统剩余内存时,将执行以下操作:
5.根据权利要求2所述的方法,其特征在于,在对所述当前时刻分片内容中的标记信息进行检测和删除,得到
...【技术特征摘要】
1.一种标记语言文件的文本提取方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,在对所述待处理标记语言文件进行流式分片内容读取和文本提取,得到组成所述待处理标记语言文件的各分片内容对应的文本提取结果时,包括:
3.根据权利要求2所述的方法,其特征在于,在计算出所述当前时刻分片大小后还,还包括:
4.根据权利要求2所述的方法,其特征在于,在判断所述当前时刻分片大小大于所述当前系统剩余内存时,将执行以下操作:
5.根据权利要求2所述的方法,其特征在于,在对所述当前时刻分片内容中的标记信息进行检测和删除,得到所述当前时刻分片内容对应的文本提取结果时,包括:
6.根据权利要...
【专利技术属性】
技术研发人员:杨长春,苏晨,常杰毅,
申请(专利权)人:北京正元智晟科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。