【技术实现步骤摘要】
文档的解析方法及装置、存储介质和处理器
[0001]本专利技术涉及信息处理
,具体而言,涉及一种文档的解析方法及装置、存储介质和处理器。
技术介绍
[0002]企业文书的种类繁多,同时存储介质多样,大量的文书信息也在各类智能化应用中时常需要被分析使用,以创造更高的价值,然而,目前在需要将电子或纸质的文档数据化时,大多采用人工方式处理,对文档的解析效率低。
[0003]针对上述的问题,目前尚未提出有效的解决方案。
技术实现思路
[0004]本专利技术实施例提供了一种文档的解析方法及装置、存储介质和处理器,以至少解决相关技术中对文档的解析效率低的技术问题。
[0005]根据本专利技术实施例的一个方面,提供了一种文档的解析方法,包括:获取待解析的文档;对所述文档进行解析,得到文档表示;对所述文档表示通过自然语言处理,生成所述文档对应的层级化结构树;将所述层级化结构树转换为目标表示形式的解析结果,并输出所述解析结果。
[0006]进一步地,所述文档的类型为以下任意之一:Word、Excel、PDF、扫描件、图片、照片。
[0007]进一步地,在输出所述解析结果之后,所述方法还包括:基于所述解析结果,生成目标版本的解析内容;将所述目标版本的解析内容推送至目标对象。
[0008]进一步地,对所述文档表示通过自然语言处理的处理方式包括以下至少之一:文本分类、版面分析、标题提取。
[0009]进一步地,对所述文档进行解析的同时识别所述文档中的富文本信息,其中,所述 ...
【技术保护点】
【技术特征摘要】
1.一种文档的解析方法,其特征在于,包括:获取待解析的文档;对所述文档进行解析,得到文档表示;对所述文档表示通过自然语言处理,生成所述文档对应的层级化结构树;将所述层级化结构树转换为目标表示形式的解析结果,并输出所述解析结果。2.根据权利要求1所述的解析方法,其特征在于,所述文档的类型为以下任意之一:Word、Excel、PDF、扫描件、图片、照片。3.根据权利要求1所述的解析方法,其特征在于,在输出所述解析结果之后,所述方法还包括:基于所述解析结果,生成目标版本的解析内容;将所述目标版本的解析内容推送至目标对象。4.根据权利要求1所述的解析方法,其特征在于,对所述文档表示通过自然语言处理的处理方式包括以下至少之一:文本分类、版面分析、标题提取。5.根据权利要求1所述的解析方法,其特征在于,对所述文档进行解析的同时识别所述文档中的富文本信息,其中,所述富文本信息中至少包括:字体信息、对齐信息、表格、图片。6.根据权利要求1所述的解析方法,其特征在于,所述文档为以下任意之一:专利文件、裁判文书、合同文件、聊天记录。7.根据权利要求1所述的解析方法,其特征在于,在输出所述解析结果之后,所述方法还包括:接收查询指令,其中,所述查询指令中携带有查询信息,所述查询指令为文字指令或语音指令;响应所述查询指令,从所述解析结果中获取与所述查询信息相匹配的目标信息;显示所述目标信息。8.一种合同文件的处理方法,其特征在于,包括:获取待解析的合同文件;对所述合同文件进行处理,生成所述合同文件对应的层级化结构树;将所述层级化结构树转换为目标表示形式的解析结果,并输出所述解析结果。9.根据权利要求8所述的处理方法,其特征在于,在输出所述解析结果之后,所述方法还包括:分析所述解析结果,以从所述解析结果中确定抽取内容;对所述抽取内容进行分析,并对所述抽取内容中的目标内容进行标识,其中,所述目标内容至少包括:内容归类和条款序号;输出标识后的目标内容。10.根据权利要求9所述的处理方法,其特征在于,在输出标识后的目标内容之前,所述方法还包括:检测是否接收到编辑指令;若接收到编辑指令,响应所述编辑指令对所述抽取内容中的条款进行调整。11.根据权利要求10所述的处理方法,其特征在于,所述方法还包括:确定所述合同文件中各个结构的内容对应的审批对象;
将各个结构的内容传输至对应的审批对象;获取审批对象的审批结果。12.根据权利要求11所述的处理方法,其特征在于,将各个结构的内容传输至对应的审批对象包括:将各个结构的内容中与对应的审批对象相关的内容采用预设标注方式进行标注,其中,所述预设标注方式为以下之一:高亮、加粗、字体放大、改变字体;将标注后的内容传输至对应的审批对象。13.根据权利要求11所述的处理方法,其特征在于,在获取审批对象的审批结果之后,所述方法还包括:确定所述合同文件中各个结构的内容涉及的履约事项;基于所述履约事项生成履约计划;确定与所述履约计划相关的目标对象;将所述履约计划传输至与所述履约计划相关的目标对象。14.根据权利要求11所述的处理方法,其特征在于,在获取审批对象的审批结果之后,所述方法还包括:确定所述合同文件中各个结构的内容涉及的履约风险;基于所述履约风险生成风险管控计划;确定所述风险管控计划中涉及的目标对象;将所述风险管控计划传输至所述风险管控计划中涉及的目标对象。15.根据权利要求14所述的处理方法,其特征在于,在确定所述合同文件中各个结构的内容涉及的履约风险之后,所述方法还包括:基于所述履约风险对所述合同文件中各个结构的内容添加风险标签,其中,所述风险标签用于进行风险提醒。16.一种文档的解析方法,其特征在于,包括:获取待解析的文档;对所述文档进行处理,生成所述文档对应的结构树;基于所述结构树对所述文档进行拆分,得到多个信息片段,其中,每个信息片段中至少包括文档片段和所述文档片段的关键信息;对每个信息片段提取关键词,并将提取到的关键词、关键词对应的信息片段和所述文档存入搜索引擎。17.根据权利要求16所述的解析方法,其特征在于,所述方法还包括:若检测到用户输入的搜索词,基于所述搜索词与所述搜索引擎中关键词进行匹配,确定与所述搜索词相匹配的目标关键词;返回与所述目标关键词对应的信息片段。18.根据权利要求17所述的解析方法,其特征在于,在基于所述结构树对所述文档进行拆分,得到多个信息片段之后,所述方法还包括:将每个信息片段转换为对应的图片;将转换后的图片存入非关系型数据库;返回与所述目标关键词对...
【专利技术属性】
技术研发人员:蔡天慧,刘敏,康积华,孙宇飞,金龙,黄鹏,宋华青,李波,
申请(专利权)人:阿里巴巴集团控股有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。