表格处理方法、装置、设备和介质制造方法及图纸

技术编号:40321946 阅读:25 留言:0更新日期:2024-02-09 14:17
本发明专利技术的实施例提供了一种表格处理方法、装置、设备和介质,涉及数据处理技术领域,方法包括:对待处理表格进行预处理,分别得到待处理表格中各单元格的单元格信息,调度单元格类型识别器,针对待处理表格中的每个单元格,基于该单元格的单元格信息进行单元格分类,得到待处理表格中各单元格的单元格分类结果,进而基于各单元格分类结果,进行待处理表格的信息提取,提取的信息中包括表征各单元格与全局信息之间关联关系的结构信息。从而提高表格处理的可靠性。

【技术实现步骤摘要】

本专利技术涉及数据处理,具体而言,涉及一种表格处理方法、装置、设备和介质


技术介绍

1、自然语言处理技术的发展使得从文本中提取结构化信息变得更为便捷,相对于纯文本而言,表格有更多特征可供利用,由于在实际应用场景中,表格包含的信息较为复杂,对于表格中各种不同的待提取信息,现有技术的识别粒度往往无法准确的完成不同维度下信息的提取,表格处理的可靠性有待提升。


技术实现思路

1、本专利技术的目的之一包括,例如,提供了一种表格处理方法、装置、设备和介质,以至少部分地提高表格处理的可靠性。

2、本专利技术的实施例可以这样实现:

3、第一方面,本专利技术提供一种表格处理方法,包括:

4、对待处理表格进行预处理,分别得到所述待处理表格中各单元格的单元格信息;

5、调度单元格类型识别器,针对所述待处理表格中的每个单元格,基于该单元格的单元格信息进行单元格分类,得到所述待处理表格中各单元格的单元格分类结果;其中,所述单元格类型识别器经具备全局信息对应标签的训练数据训练获得,所述全本文档来自技高网...

【技术保护点】

1.一种表格处理方法,其特征在于,包括:

2.根据权利要求1所述的表格处理方法,其特征在于,所述对待处理表格进行预处理,分别得到所述待处理表格中各单元格的单元格信息,包括:

3.根据权利要求2所述的表格处理方法,其特征在于,所述基于该单元格的单元格信息进行单元格分类,得到所述待处理表格中各单元格的单元格分类结果,包括:

4.根据权利要求3所述的表格处理方法,其特征在于,所述基于单元格对象的语义属性,得到所述单元格对象的语义嵌入,包括:

5.根据权利要求4所述的表格处理方法,其特征在于,所述方法还包括训练所述语义嵌入模型的步骤,该步骤包括:<...

【技术特征摘要】

1.一种表格处理方法,其特征在于,包括:

2.根据权利要求1所述的表格处理方法,其特征在于,所述对待处理表格进行预处理,分别得到所述待处理表格中各单元格的单元格信息,包括:

3.根据权利要求2所述的表格处理方法,其特征在于,所述基于该单元格的单元格信息进行单元格分类,得到所述待处理表格中各单元格的单元格分类结果,包括:

4.根据权利要求3所述的表格处理方法,其特征在于,所述基于单元格对象的语义属性,得到所述单元格对象的语义嵌入,包括:

5.根据权利要求4所述的表格处理方法,其特征在于,所述方法还包括训练所述语义嵌入模型的步骤,该步骤包括:

6.根据权利要求3所述的表格处理方法,其特征在于,所述基于单元格对象的风格属性,得到所述单元格对象的风格嵌入,包括:

7.根据权利要求6所述的表...

【专利技术属性】
技术研发人员:林雅孙勇杨威顾文斌丁雪纯朱浩
申请(专利权)人:上海恒生聚源数据服务有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1