基于机器学习的段落识别方法、装置、计算机设备和介质制造方法及图纸

技术编号:29403607 阅读:24 留言:0更新日期:2021-07-23 22:41
本申请涉及人工智能领域,实现对由不可编辑文档转换得到的可编辑文档中的错误分段自动进行识别与合并,提高可编辑文档的可用性。涉及一种基于机器学习的段落识别方法、装置、计算机设备和介质,该方法包括:获取待进行合并的上下文数据,以及获取上下文数据对应的图像数据;将图像数据输入目标检测模型中进行特征提取,获得图像数据的图像特征向量,以及将上下文数据输入词向量模型中进行向量化,获得文字特征向量;将图像特征向量与文字特征向量输入段落预测模型中进行段落预测,获得上下文数据的段落预测结果;根据段落预测结果,对上下文数据中的属于同一段落的文字进行合并。此外,本申请还涉及区块链技术,上下文数据可存储于区块链中。

【技术实现步骤摘要】
基于机器学习的段落识别方法、装置、计算机设备和介质
本申请涉及人工智能领域,尤其涉及一种基于机器学习的段落识别方法、装置、计算机设备和介质。
技术介绍
PDF文档是一种可携带文档格式的文档,使用十分便捷。但在实际应用中,由于PDF文档是不可编辑文档,用户存在将PDF文档转换成可编辑的WORD文档的需求。现有的文档转换方法主要是将PDF文档分成不同的区块,识别不同区块中的文字、图片以及表格等信息,最后将所有区块对应的信息进行合并从而达到保留格式的目的。但是PDF文档中的原有段落,在转换后的WORD文档中出现错误分段,与原有段落不对应,导致WORD文档的可用性较低。因此在将不可编辑文档转换成可编辑文档后,如何提高可编辑文档的可用性成为亟需解决的问题。
技术实现思路
本申请提供了一种基于机器学习的段落识别方法、装置、计算机设备和介质,通过对上下文数据以及上下文数据对应的图像数据进行特征提取,将得到的图像特征向量与文字特征向量输入段落预测模型中融合后进行段落预测,实现对由不可编辑文档转换得到的可编辑文档中的错误分段自动进行识本文档来自技高网...

【技术保护点】
1.一种基于机器学习的段落识别方法,其特征在于,包括:/n获取待进行合并的上下文数据,以及获取所述上下文数据对应的图像数据,所述上下文数据为所述图像数据对应的文字;/n将所述图像数据输入目标检测模型中进行特征提取,获得所述图像数据对应的图像特征向量,以及将所述上下文数据输入词向量模型中进行向量化,获得所述上下文数据对应的文字特征向量;/n将所述图像特征向量与所述文字特征向量输入段落预测模型中进行段落预测,获得所述上下文数据对应的段落预测结果;/n根据所述段落预测结果,对所述上下文数据中的属于同一段落的文字进行合并。/n

【技术特征摘要】
1.一种基于机器学习的段落识别方法,其特征在于,包括:
获取待进行合并的上下文数据,以及获取所述上下文数据对应的图像数据,所述上下文数据为所述图像数据对应的文字;
将所述图像数据输入目标检测模型中进行特征提取,获得所述图像数据对应的图像特征向量,以及将所述上下文数据输入词向量模型中进行向量化,获得所述上下文数据对应的文字特征向量;
将所述图像特征向量与所述文字特征向量输入段落预测模型中进行段落预测,获得所述上下文数据对应的段落预测结果;
根据所述段落预测结果,对所述上下文数据中的属于同一段落的文字进行合并。


2.根据权利要求1所述的基于机器学习的段落识别方法,其特征在于,所述目标检测模型至少包括区域生成网络层和特征提取层;所述将所述图像数据输入目标检测模型中进行特征提取,获得所述图像数据对应的图像特征向量,包括:
基于所述区域生成网络层,对所述图像数据中的各行文字添加候选框,并依次将每两个相邻行确定为第一目标行与第二目标行;
基于所述特征提取层,确定所述第一目标行中的最后一个候选框对应的第一位置特征向量,以及确定所述第二目标行中的第一个候选框对应的第二位置特征向量;
根据所述第一位置特征向量与所述第二位置特征向量,确定所述图像特征向量。


3.根据权利要求1所述的基于机器学习的段落识别方法,其特征在于,所述将所述图像特征向量与所述文字特征向量输入段落预测模型中进行段落预测之前,还包括:
分别对所述图像特征向量与所述文字特征向量进行预处理,获得目标图像特征向量与目标文字特征向量,其中,所述预处理包括权重值分配、残差连接以及归一化;
所述将所述图像特征向量与所述文字特征向量输入段落预测模型中进行段落预测,包括:
将所述目标图像特征向量与所述目标文字特征向量输入所述段落预测模型中进行段落预测。


4.根据权利要求3所述的基于机器学习的段落识别方法,其特征在于,所述段落预测模型包括交叉注意层、融合层、自注意力权重层、全连接层以及输出层;
所述将所述目标图像特征向量与所述目标文字特征向量输入段落预测模型中进行段落预测,包括:
将所述目标图像特征向量与所述目标文字特征向量输入所述交叉注意层进行语义相关性计算,获得所述目标文字特征向量对应的语义相关矩阵;
将所述目标文字特征向量与所述语义相关矩阵输入所述融合层,获得所述目标文字特征向量对应的特征融合向量;
将所述特征融合向量输入所述自注意力权重层进行权重值分配,获得目标特征融合向量;
将所述目标特征融合向量依次输入所述全连接层与所述输出层,获得所述段落预测结果。

【专利技术属性】
技术研发人员:吴天博王健宗
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1