【技术实现步骤摘要】
文档解析方法、系统、计算机设备及计算机可读存储介质
[0001]本专利技术实施例涉及数据处理
,尤其涉及一种文档解析方法、系统、计算机设备及计算机可读存储介质。
技术介绍
[0002]文本解析是自然语言处理领域的一个重要研究方向。根据文本的长短,可以分为语句解析和文档解析。现有的解析语料库主要是集中在语句层面,例如宾州树库(Penn Treebank)、宾州中文树库、清华中文树库等。但是,专利技术人发现,这些都没有对文档整体结构进行深入地、精确地分析,不能直观的对文档进行查看。
技术实现思路
[0003]有鉴于此,本专利技术实施例的目的是提供一种文档解析方法、系统、计算机设备及计算机可读存储介质,用以解决现有技术中文档解析不够全面以及精确的问题。
[0004]为实现上述目的,本专利技术实施例提供了一种文档解析方法,包括:
[0005]获取待解析文档;
[0006]将所述待解析文档输入至预设的框选识别模型,以得到所述待解析文档对应的带框选标记信息的标题数据与段落数据;
[0 ...
【技术保护点】
【技术特征摘要】
1.一种文档解析方法,其特征在于,包括:获取待解析文档;将所述待解析文档输入至预设的框选识别模型,以得到所述待解析文档对应的带框选标记信息的标题数据与段落数据;获取预设的标注信息;基于所述预设的标注信息对所述带框选标记信息的标题数据与段落数据进行标注,以得到所述待解析文档对应的带目标标注信息的标题数据以及段落数据;根据所述目标标注信息生成所述待解析文档的文档解析树。2.根据权利要求1所述的文档解析方法,其特征在于,所述预设的框选识别模型的训练步骤包括:获取多个样本数据,每个样本数据包括多个样本文档,每个样本文档带有框选标记;将样本数据输入至深度学习模型中,以通过所述深度学习模型识别出每个样本文档中的标题数据以及段落数据;将识别出的标题数据以及段落数据进行框选,得到多个预设标记;计算每个样本文档的框选标记与每个样本文档对应的多个预设标记之间的误差值;当所述误差值小于预设阈值时,则将所述深度学习模型作为框选识别模型。3.根据权利要求1所述的文档解析方法,其特征在于,所述将所述待解析文档输入至预设的框选识别模型,以得到所述待解析文档对应的带框选标记信息的标题数据与段落数据包括:若所述待解析文档包括有文档目录,基于所述框选识别模型识别并框选出所述文档目录对应的标题数据;通过所述文档目录定位出对应的段落数据进行框选,以得到所述待解析文档对应的带框选标记信息的标题数据与段落数据。4.根据权利要求1所述的文档解析方法,其特征在于,所述预设的标注信息包括编号与父标题。5.根据权利要求4所述的文档解析方法,其特征在于,所述根据所述目标标注信息生成所述待解析文档的文档解析树包括:基于所述编号确定所述文档解析树的层级;根据所述父标题将带目标标注信息的各个标题数据以及各个段落数据的编号进行关联,得到所述文档解析树的树结构;将所述目标标注信息填写入所述文档解析树的树结构,以生成所述待解析文档的文档解析树。6.根据权利要求5所述的文档解析方法,其特征在于,所述将所...
【专利技术属性】
技术研发人员:王超,李果夫,张又允,刘剑,
申请(专利权)人:平安科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。