文档的解析方法及装置、存储介质和处理器制造方法及图纸

技术编号:33641181 阅读:18 留言:0更新日期:2022-06-02 20:16
本发明专利技术公开了一种文档的解析方法及装置、存储介质和处理器。其中,该方法包括:获取待解析的文档;对文档进行解析,得到文档表示;对文档表示通过自然语言处理,生成文档对应的层级化结构树;将层级化结构树转换为目标表示形式的解析结果,并输出解析结果。本发明专利技术解决了相关技术中对文档的解析效率低的技术问题。关技术中对文档的解析效率低的技术问题。关技术中对文档的解析效率低的技术问题。

【技术实现步骤摘要】
文档的解析方法及装置、存储介质和处理器


[0001]本专利技术涉及信息处理
,具体而言,涉及一种文档的解析方法及装置、存储介质和处理器。

技术介绍

[0002]企业文书的种类繁多,同时存储介质多样,大量的文书信息也在各类智能化应用中时常需要被分析使用,以创造更高的价值,然而,目前在需要将电子或纸质的文档数据化时,大多采用人工方式处理,对文档的解析效率低。
[0003]针对上述的问题,目前尚未提出有效的解决方案。

技术实现思路

[0004]本专利技术实施例提供了一种文档的解析方法及装置、存储介质和处理器,以至少解决相关技术中对文档的解析效率低的技术问题。
[0005]根据本专利技术实施例的一个方面,提供了一种文档的解析方法,包括:获取待解析的文档;对所述文档进行解析,得到文档表示;对所述文档表示通过自然语言处理,生成所述文档对应的层级化结构树;将所述层级化结构树转换为目标表示形式的解析结果,并输出所述解析结果。
[0006]进一步地,所述文档的类型为以下任意之一:Word、Excel、PDF、扫描件、图片、照片。
[0007]进一步地,在输出所述解析结果之后,所述方法还包括:基于所述解析结果,生成目标版本的解析内容;将所述目标版本的解析内容推送至目标对象。
[0008]进一步地,对所述文档表示通过自然语言处理的处理方式包括以下至少之一:文本分类、版面分析、标题提取。
[0009]进一步地,对所述文档进行解析的同时识别所述文档中的富文本信息,其中,所述富文本信息中至少包括:字体信息、对齐信息、表格、图片。
[0010]进一步地,所述文档为以下任意之一:专利文件、裁判文书、合同文件、聊天记录。
[0011]进一步地,在输出所述解析结果之后,所述方法还包括:接收查询指令,其中,所述查询指令中携带有查询信息,所述查询指令为文字指令或语音指令;响应所述查询指令,从所述解析结果中获取与所述查询信息相匹配的目标信息;显示所述目标信息。
[0012]根据本专利技术实施例的一个方面,提供了一种合同文件的处理方法,包括:获取待解析的合同文件;对所述合同文件进行处理,生成所述合同文件对应的层级化结构树;将所述层级化结构树转换为目标表示形式的解析结果,并输出所述解析结果。
[0013]进一步地,在输出所述解析结果之后,所述方法还包括:分析所述解析结果,以从所述解析结果中确定抽取内容;对所述抽取内容进行分析,并对所述抽取内容中的目标内容进行标识,其中,所述目标内容至少包括:内容归类和条款序号;输出标识后的目标内容。
[0014]进一步地,在输出标识后的目标内容之前,所述方法还包括:检测是否接收到编辑
指令;若接收到编辑指令,响应所述编辑指令对所述抽取内容中的条款进行调整。
[0015]进一步地,所述方法还包括:确定所述合同文件中各个结构的内容对应的审批对象;将各个结构的内容传输至对应的审批对象;获取审批对象的审批结果。
[0016]进一步地,将各个结构的内容传输至对应的审批对象包括:将各个结构的内容中与对应的审批对象相关的内容采用预设标注方式进行标注,其中,所述预设标注方式为以下之一:高亮、加粗、字体放大、改变字体;将标注后的内容传输至对应的审批对象。
[0017]进一步地,在获取审批对象的审批结果之后,所述方法还包括:确定所述合同文件中各个结构的内容涉及的履约事项;基于所述履约事项生成履约计划;确定与所述履约计划相关的目标对象;将所述履约计划传输至与所述履约计划相关的目标对象。
[0018]进一步地,在获取审批对象的审批结果之后,所述方法还包括:确定所述合同文件中各个结构的内容涉及的履约风险;基于所述履约风险生成风险管控计划;确定所述风险管控计划中涉及的目标对象;将所述风险管控计划传输至所述风险管控计划中涉及的目标对象。
[0019]进一步地,在确定所述合同文件中各个结构的内容涉及的履约风险之后,所述方法还包括:基于所述履约风险对所述合同文件中各个结构的内容添加风险标签,其中,所述风险标签用于进行风险提醒。
[0020]根据本专利技术实施例的一个方面,提供了一种文档的解析方法,包括:获取待解析的文档;对所述文档进行处理,生成所述文档对应的结构树;基于所述结构树对所述文档进行拆分,得到多个信息片段,其中,每个信息片段中至少包括文档片段和所述文档片段的关键信息;对每个信息片段提取关键词,并将提取到的关键词、关键词对应的信息片段和所述文档存入搜索引擎。
[0021]进一步地,所述方法还包括:若检测到用户输入的搜索词,基于所述搜索词与所述搜索引擎中关键词进行匹配,确定与所述搜索词相匹配的目标关键词;返回与所述目标关键词对应的信息片段。
[0022]进一步地,在基于所述结构树对所述文档进行拆分,得到多个信息片段之后,所述方法还包括:将每个信息片段转换为对应的图片;将转换后的图片存入非关系型数据库;返回与所述目标关键词对应的信息片段还包括:从所述非关系型数据库中提取与所述信息片段对应的图片,在返回所述目标关键词对应的信息片段的同时返回所述信息片段对应的图片。
[0023]根据本专利技术实施例的一个方面,提供了一种文档的解析方法,包括:接收客户端上传的待解析的文档以及所述客户端发送的服务调用请求;响应所述服务调用请求,在服务器中对所述文档进行解析,得到文档表示;对所述文档表示通过自然语言处理,生成所述文档对应的层级化结构树;将所述层级化结构树转换为目标表示形式的解析结果;返回所述解析结果至客户端。
[0024]根据本专利技术实施例的一个方面,提供了一种文档调阅方法,包括:接收文档调阅指令,其中,所述文档调阅指令用于指示对目标文档集合进行分析,所述目标文档集合中的文档类别相同,或者文档类别和文档的子类别均相同,所述文档类别包括专利文档、裁判文书、合同文档、聊天记录;根据所述目标文档集合中每个文档的解析结果以及所述文档调阅指令,得到文档分析结果,其中,所述解析结果由上述任意一项所述的方法对所述目标文档
集合中的文档进行解析获得;以目标展示形式,展示所述分析结果。
[0025]根据本专利技术实施例的一个方面,提供了一种文档的解析装置,包括:第一获取单元,用于获取待解析的文档;第一解析单元,用于对所述文档进行解析,得到文档表示;第一生成单元,用于对所述文档表示通过自然语言处理,生成所述文档对应的层级化结构树;第一处理单元,用于将所述层级化结构树转换为目标表示形式的解析结果,并输出所述解析结果。
[0026]根据本专利技术实施例的一个方面,提供了一种合同文件的解析装置,包括:第三获取单元,用于获取待解析的合同文件;第三生成单元,用于对所述合同文件进行处理,生成所述合同文件对应的层级化结构树;第一输出单元,用于将所述层级化结构树转换为目标表示形式的解析结果,并输出所述解析结果。
[0027]根据本专利技术实施例的一个方面,提供了一种文档的解析装置,包括:第五获取单元,用于获取待解析的文档;第七生成单元,用于对所述本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文档的解析方法,其特征在于,包括:获取待解析的文档;对所述文档进行解析,得到文档表示;对所述文档表示通过自然语言处理,生成所述文档对应的层级化结构树;将所述层级化结构树转换为目标表示形式的解析结果,并输出所述解析结果。2.根据权利要求1所述的解析方法,其特征在于,所述文档的类型为以下任意之一:Word、Excel、PDF、扫描件、图片、照片。3.根据权利要求1所述的解析方法,其特征在于,在输出所述解析结果之后,所述方法还包括:基于所述解析结果,生成目标版本的解析内容;将所述目标版本的解析内容推送至目标对象。4.根据权利要求1所述的解析方法,其特征在于,对所述文档表示通过自然语言处理的处理方式包括以下至少之一:文本分类、版面分析、标题提取。5.根据权利要求1所述的解析方法,其特征在于,对所述文档进行解析的同时识别所述文档中的富文本信息,其中,所述富文本信息中至少包括:字体信息、对齐信息、表格、图片。6.根据权利要求1所述的解析方法,其特征在于,所述文档为以下任意之一:专利文件、裁判文书、合同文件、聊天记录。7.根据权利要求1所述的解析方法,其特征在于,在输出所述解析结果之后,所述方法还包括:接收查询指令,其中,所述查询指令中携带有查询信息,所述查询指令为文字指令或语音指令;响应所述查询指令,从所述解析结果中获取与所述查询信息相匹配的目标信息;显示所述目标信息。8.一种合同文件的处理方法,其特征在于,包括:获取待解析的合同文件;对所述合同文件进行处理,生成所述合同文件对应的层级化结构树;将所述层级化结构树转换为目标表示形式的解析结果,并输出所述解析结果。9.根据权利要求8所述的处理方法,其特征在于,在输出所述解析结果之后,所述方法还包括:分析所述解析结果,以从所述解析结果中确定抽取内容;对所述抽取内容进行分析,并对所述抽取内容中的目标内容进行标识,其中,所述目标内容至少包括:内容归类和条款序号;输出标识后的目标内容。10.根据权利要求9所述的处理方法,其特征在于,在输出标识后的目标内容之前,所述方法还包括:检测是否接收到编辑指令;若接收到编辑指令,响应所述编辑指令对所述抽取内容中的条款进行调整。11.根据权利要求10所述的处理方法,其特征在于,所述方法还包括:确定所述合同文件中各个结构的内容对应的审批对象;
将各个结构的内容传输至对应的审批对象;获取审批对象的审批结果。12.根据权利要求11所述的处理方法,其特征在于,将各个结构的内容传输至对应的审批对象包括:将各个结构的内容中与对应的审批对象相关的内容采用预设标注方式进行标注,其中,所述预设标注方式为以下之一:高亮、加粗、字体放大、改变字体;将标注后的内容传输至对应的审批对象。13.根据权利要求11所述的处理方法,其特征在于,在获取审批对象的审批结果之后,所述方法还包括:确定所述合同文件中各个结构的内容涉及的履约事项;基于所述履约事项生成履约计划;确定与所述履约计划相关的目标对象;将所述履约计划传输至与所述履约计划相关的目标对象。14.根据权利要求11所述的处理方法,其特征在于,在获取审批对象的审批结果之后,所述方法还包括:确定所述合同文件中各个结构的内容涉及的履约风险;基于所述履约风险生成风险管控计划;确定所述风险管控计划中涉及的目标对象;将所述风险管控计划传输至所述风险管控计划中涉及的目标对象。15.根据权利要求14所述的处理方法,其特征在于,在确定所述合同文件中各个结构的内容涉及的履约风险之后,所述方法还包括:基于所述履约风险对所述合同文件中各个结构的内容添加风险标签,其中,所述风险标签用于进行风险提醒。16.一种文档的解析方法,其特征在于,包括:获取待解析的文档;对所述文档进行处理,生成所述文档对应的结构树;基于所述结构树对所述文档进行拆分,得到多个信息片段,其中,每个信息片段中至少包括文档片段和所述文档片段的关键信息;对每个信息片段提取关键词,并将提取到的关键词、关键词对应的信息片段和所述文档存入搜索引擎。17.根据权利要求16所述的解析方法,其特征在于,所述方法还包括:若检测到用户输入的搜索词,基于所述搜索词与所述搜索引擎中关键词进行匹配,确定与所述搜索词相匹配的目标关键词;返回与所述目标关键词对应的信息片段。18.根据权利要求17所述的解析方法,其特征在于,在基于所述结构树对所述文档进行拆分,得到多个信息片段之后,所述方法还包括:将每个信息片段转换为对应的图片;将转换后的图片存入非关系型数据库;返回与所述目标关键词对...

【专利技术属性】
技术研发人员:蔡天慧刘敏康积华孙宇飞金龙黄鹏宋华青李波
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1