【技术实现步骤摘要】
文档解析方法、装置、设备及存储介质
本申请涉及计算机
,尤其涉及文档解析
,提出一种文档解析方法、装置、设备及存储介质。
技术介绍
目前,各类文档格式在日常工作生活中被广泛使用。文档解析作为一种常见的文档处理方式,能够为文档内容抽取任务完成前置工作。相关技术中,通过ApachePOI工具实现文档解析,在批量解析文档时,该方案的文档解析效率仍有待提高。
技术实现思路
本申请旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本申请提出一种文档解析方法、装置、设备及存储介质,以提高文档解析效率。根据本申请第一方面实施例提出了一种文档解析方法,包括:接收文档解析请求,并根据所述文档解析请求下载对应的文档。将所述文档转换为可扩展标记语言XML文件。对转换后的XML文件进行解析以提取所述XML文件之中的文档内容,并以JS对象简谱JSON格式将提取的所述文档内容存储至数据库。本申请实施例的文档解析方法,通过将文档转换为XML文件,在批量文档解析场景下快速获取文档对应的XML文件,进而对转换后的XML文件进行解析以提取XML文件之中的文档内容,实现了XML文件的高效解析,提高文档解析效率。以JSON格式将提取的文档内容存储至数据库,便于应用于机器学习模型训练。根据本申请第二方面实施例提出了一种文档解析装置,包括:组件容器,所述组件容器包括解析请求接收接口;设置在所述组件容器之中的数据库组件;设置在所述 ...
【技术保护点】
1.一种文档解析方法,其特征在于,包括:/n接收文档解析请求,并根据所述文档解析请求下载对应的文档;/n将所述文档转换为可扩展标记语言XML文件;/n对转换后的XML文件进行解析以提取所述XML文件之中的文档内容,并以JS对象简谱JSON格式将提取的所述文档内容存储至数据库。/n
【技术特征摘要】
1.一种文档解析方法,其特征在于,包括:
接收文档解析请求,并根据所述文档解析请求下载对应的文档;
将所述文档转换为可扩展标记语言XML文件;
对转换后的XML文件进行解析以提取所述XML文件之中的文档内容,并以JS对象简谱JSON格式将提取的所述文档内容存储至数据库。
2.如权利要求1所述的文档解析方法,其特征在于,其中,
所述根据所述文档解析请求下载对应的文档,包括:
通过下载任务队列根据所述文档解析请求下载对应的文档,所述下载任务队列包括多个下载任务,每个所述下载任务调用对应的下载线程获取文档解析请求,并根据所述文档解析请求下载对应的文档;
所述将所述文档转换为可扩展标记语言XML文件,包括:
通过转换任务队列将所述文档转换为XML文件,所述转换任务队列包括多个转换任务,每个所述转换任务调用对应的转换线程将所述下载任务下载的文档转换为XML文件;
所述对转换后的XML文件进行解析以提取所述XML文件之中的文档内容,包括:
通过解析任务队列对所述转换后的XML文件进行解析以提取所述文档内容,所述解析任务队列包括多个解析任务,每个所述解析任务调用对应的转换线程对转换之后的XML文件进行解析。
3.如权利要求2所述的文档解析方法,其特征在于,还包括:
对所述下载任务队列之中的下载任务的状态进行监控;
当所述下载任务完成之后,根据所述下载任务在所述转换任务队列之中新增对应的转换任务。
4.如权利要求2所述的文档解析方法,其特征在于,还包括:
对所述转换任务队列之中的转换任务的状态进行监控;
当所述转换任务完成之后,根据所述转换任务在所述解析任务队列之中新增对应的解析任务。
5.如权利要求1所述的方法,其特征在于,所述文档为Word文档,其中,
所述将所述文档转换为XML文件,包括:
通过Libreoffice转换器将所述文档转换为XML文件;
所述对转换后的XML文件进行解析以提取所述XML文件之中的文档内容,包括:
通过ElementTree解析器对转换后的XML文件进行解析以提取所述XML文件之中的文档内容。
6.如权利要求5所述的方法,其特征在于,通过分布式任务队列管理工具对所述下载任务队列、所述转换任务队列和所述解析任务队列进行管理,其中,所述分布式任务队列管理工具、所述Libreoffice转换器和所述ElementTree解析器加载在Docker容器引擎之中。
7.如权利要求1所述的方法,其特征在于,所述数据库具有互斥锁,当所述互斥锁被当前任务抢占时,所述数据库对其他任务禁止读/写。
8.如权利要求2所述的方法,其特征在于,所述转换任务的数量大于所述下载任务的数量和所述解析任务的数量。
9.一种文档解析装置,其特征在于,包括:
组件容器,所述组件容器包括解析请求接收接口;
设置在所述组件容器之中的数据库组件;
设置在所述组件容器之中的文档下载组件,用于根据所述解析请求接收接口接收的文档解析请...
【专利技术属性】
技术研发人员:张亦鹏,张真,刘明浩,姚荣洁,郭江亮,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。