一种文档解析方法及装置制造方法及图纸

技术编号:39441879 阅读:41 留言:0更新日期:2023-11-19 16:24
本申请公开了一种文档解析方法及装置,涉及人工智能技术领域。其中,该方法包括:对待解析的文档进行文字提取,得到文档中文字的信息,文字的信息包括文字的内容和文字的位置信息;根据文字的位置信息对文字进行聚类,得到多个文字块;根据文字块内文字的信息,确定文字块的信息,文字块的信息包括文字块的内容和文字块的位置信息;根据文字块的内容和/或文字块的位置信息,对多个文字块进行排序,得到排序结果;根据文字块的内容和排序结果,生成文档解析结果。本申请的文档解析方法,即使对于分栏、分块的内容,也可以实现对文字的准确排序,进而提高了解析出的内容的质量,以及基于解析出的内容获取的问答和摘要结果的准确性。性。性。

【技术实现步骤摘要】
一种文档解析方法及装置


[0001]本申请涉及人工智能
,尤其涉及一种文档解析方法及装置。

技术介绍

[0002]随着科技的发展,企业或个人在日常工作中会产生大量的数据,而这些数据大多以非结构化文本即文档的形式存在。人们往往需要从这些文档中获取问题的答案或文档的摘要,这就需要对文档进行解析。文档解析,即解析出文档中的文字内容,并按照顺序解析成一篇完整有序的内容。
[0003]相关技术中,仅能解析出文档中文字的内容,而对于文字的顺序则按照行排列。对于分栏、分块的内容,按照行排列时,由于在同一水平线上不同栏或块内容之间存在相互交叉排列,这种方式会导致对文字的排序不够准确,进而使得解析出的内容质量较差,进而影响到问答和摘要结果的准确性。

技术实现思路

[0004]本申请实施例的目的是提供一种文档解析方法及装置,以解决相关技术中对文字的排序不够准确,进而使得解析出的内容质量较差,进而影响到问答和摘要结果的准确性问题。
[0005]为了实现上述技术方案,本申请实施例是这样实现的:第一方面,本申请实施例提供一种文档解析本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种文档解析方法,其特征在于,包括:对待解析的文档进行文字提取,得到所述文档中文字的信息,所述文字的信息包括所述文字的内容和所述文字的位置信息;根据所述文字的位置信息对所述文字进行聚类,得到多个文字块;根据所述文字块内所述文字的信息,确定所述文字块的信息,所述文字块的信息包括所述文字块的内容和所述文字块的位置信息;根据所述文字块的内容和/或所述文字块的位置信息,对所述多个文字块进行排序,得到排序结果;根据所述文字块的内容和所述排序结果,生成文档解析结果。2.根据权利要求1所述的文档解析方法,其特征在于,根据所述文字块的内容对所述多个文字块进行排序,得到所述排序结果,包括:根据所述文字块的内容,采用排序模型对所述多个文字块进行排序,得到所述排序结果。3.根据权利要求2所述的文档解析方法,其特征在于,所述排序模型为上下句判断模型,所述根据所述文字块的内容,采用排序模型对所述多个文字块进行排序,得到所述排序结果,包括:将两个所述文字块的内容输入至所述上下句判断模型中,得到两个所述文字块的内容是否连续的判断结果和所述判断结果对应的得分;其中,两个所述文字块的内容中作为上句的文字块为最近一次排序的文字块,两个所述文字块的内容中作为下句的文字块为任一未排序的文字块,所述上下句判断模型中的嵌入层根据所述两个所述文字块的内容生成输入向量,所述上下句判断模型中的神经网络层根据所述输入向量生成输出向量,所述上下句判断模型中的输出层根据所述输出向量生成所述判断结果和所述得分;将所述得分最高的未排序的文字块确定为当前最先顺序的文字块;其中,所述多个文字块中不存在已排序的文字块,则将位置最靠上的文字块确定为当前最先顺序的文字块。4.根据权利要求2所述的文档解析方法,其特征在于,所述排序模型为文字排序模型,所述根据所述文字块的内容,采用排序模型对所述多个文字块进行排序,得到所述排序结果,包括:将所述多个文字块的内容输入至所述文字排序模型中,得到所述排序结果;其中,所述文字排序模型中的嵌入层根据所述多个文字块的内容生成输入向量,所述文字排序模型中的神经网络层根据所述输入向量生成输出向量,所述文字排序模型中的输出层根据所述输出向量生成所述排序结果。5.根据权利要求1所述的文档解析方法,其特征在于,根据所述文字块的位置信息对所述多个文字块进行排序,得到所述排序结果,包括:根据所述文字块的位置信息,按照预设排序规则,对所述多个文字块进行排序,得到所述排序结果;所述预设排序规则包括:对于纵向位置不同的文字块,位置靠上的文字块排序靠前,以及,对于纵向位置相同的文字块,位置靠左的文字块排序靠前。6.根据权利要求5所述的文档解析方法,其特征在于,所述文字块的位置信息包括所述文字块对应的第一矩形区域的位置信息,所述第一矩形区域的位置信息包括所述第一矩形
区域的横坐标最小值L、横坐标最大值R、纵坐标最小值U和纵坐标最大值B;所述根据所述文字块的位置信息,按照预设排序规则,对所述多个文字块进行排序,得到所述排序结果,包括:将未排序的多个所述文字块中,L最小的所述文字块确定为最左文字块;将未排序的多个所述文字块中,U最小的所述文字块确定为最上文字块;在所述最左文字块和所述最上文字块中,确定当前最先顺序的文字块。7.根据权利要求6所述的文档解析方法,其特征在于,所述在所述最左文字块和所述最上文字块中,确定当前最先顺序的文字块,包括:所述最左文字块和所述最上文字块为同一个文字块,则将所述最上文字块确定为当前最先顺序的文字块;所述最左文字块和所述最上文字块为不同的文字块,则基于最近一次排序的文字块的位置信息,在所述最左文字块和所述最上文字块中,确定当前最先顺序的文字块。8.根据权利要求7所述的文档解析方法,其特征在于,所述基于最近一次排序的文字块的位置信息,在所述最左文字块和所述最上文字块中,确定当前最先顺序的文字块,包括:所述最上文字块的U等于或者大于所述最近一次排序的文字块的B,则将所述最上文字块确定为当前最先顺序的文字块;所述最上文字块的U小...

【专利技术属性】
技术研发人员:罗华刚付淳川张杰于皓李犇崔明飞王展贾敬伍
申请(专利权)人:北京中关村科金技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1