【技术实现步骤摘要】
针对表格文本的深度学习特征提取分类方法及装置
[0001]本专利技术涉及计算机应用
,具体涉及一种针对表格文本的深度学习特征提取分类方法和装置。另外,还涉及一种电子设备及处理器可读存储介质。
技术介绍
[0002]近年来,随着计算机技术的快速发展,借助互联网实现的业务处理越来越多,如何保障相关业务文本的特征提取及分类效率是当前面临的主要问题。在人工智能领域,自然语言处理随着大规模注意力机制网络的专利技术,已经达到了新的能力高度。文本特征提取是自然语言处理的一项基础任务,也是应用最广的领域。然而,通常情况下的特征提取任务聚焦在连续的短句、长文章等文本形式。对于一些特定领域来说,文本的形式可以是表单、表格等形式,这些特殊形式的文本特征提取和分类的需求也越来越高。
[0003]目前利用深度学习对表格形式的文本文件做特征提取和分类的方法主要分为两种途径。第一种是,将表格文件的文本内容提取出来,直接拼接成普通的连续文本,使用一般的文本分类算法对其进行训练和分类。例如CN112100387B,其重点在于针对普通连续文本采用 ...
【技术保护点】
【技术特征摘要】
1.一种针对表格文本的深度学习特征提取分类方法,其特征在于,包括:将表格文本输入到自然语言特征提取网络模型中对所述表格文本的每个单元格内容进行特征提取,得到对应的内容特征向量;根据所述表格文本所包含单元格的相对位置和大小信息,对所述内容特征向量进行处理,得到表格语义结构特征矩阵;将所述表格语义结构特征矩阵输入到卷积神经网络模型中对全局矩阵进行特征提取,得到对应语义信息和结构信息的目标特征向量;将所述目标特征向量输入到分类网络模型中,得到所述分类网络模型输出的分类结果。2.根据权利要求1所述的针对表格文本的深度学习特征提取分类方法,其特征在于,根据所述表格文本所包含单元格的相对位置和大小信息,对所述内容特征向量进行处理,得到表格语义结构特征矩阵,具体包括:根据所述表格文本所包含单元格的大小信息,对所述内容特征向量做形状变换,将所述内容特征向量转换成大小与每个单元格的大小相对应的内容特征矩阵;根据所述表格文本所包含单元格的相对位置,对所述内容特征矩阵进行排布,得到表格语义结构特征矩阵。3.根据权利要求1所述的针对表格文本的深度学习特征提取分类方法,其特征在于,所述自然语言特征提取网络模型、所述卷积神经网络模型以及所述分类网络模型是分别基于样本文本、所述样本文本对应的分类推断结果以及真实结果训练得到的。4.根据权利要求3所述的针对表格文本的深度学习特征提取分类方法,其特征在于,还包括:在训练过程中,利用预设的最小化损失函数确定所述分类推断结果与所述真实结果的损失反馈参数调整信息,并通过所述分类网络模型、所述卷积神经网络模型、所述自然语言特征提取网络模型依次梯度回传所述损失反馈参数调整信息,以实现调整网络模型参数。5.根据权利要求3所述的针对表格文本的深度学习特征提取分类方法,其特征在于,所述卷积神经网络模型用于基于对所述样本文本中相邻位置单元格之间的关联信息进行特征提取得到的表示特征,对所述表格文本进行特征提取,并输出相应的包含语义信息和结构信息的目标特征向...
【专利技术属性】
技术研发人员:刘佳琳,
申请(专利权)人:中移系统集成有限公司中国移动通信集团有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。