【技术实现步骤摘要】
一种表格处理方法和系统
[0001]本说明书涉及数据处理领域,特别涉及一种表格处理方法和系统。
技术介绍
[0002]表格可以以结构化方式存储各种信息(如公司的财务数据等)。用户可以通过一些限制条件或者自然语言描述查询条件等去抽取表格中用户需要的信息。但是,当存在多个或者大量表格时,通过上述方法用户无法短时间内精确定位需要的表格,且对表格内需要的信息进行抽取的效率也较低。
[0003]因此,希望提供一种表格处理方法和系统,能够准确地定位需要的表格,提高表格抽取的效率。
技术实现思路
[0004]本说明书实施例之一提供一种表格处理方法,所述表格处理方法包括:获取待处理表格;基于表头检测模型对所述待处理表格进行处理,确定所述待处理表格的行表头和/或列表头;基于表头分类模型对所述行表头进行处理,确定所述待处理表格中列的分类结果,和/或基于表头分类模型对所述列表头进行处理,确定所述待处理表格中行的分类结果;基于所述待处理表格中列和/或行的分类结果对所述待处理表格进行抽取,确定第一抽取结果。
[0005]本说明书实施例之一提供一种表格处理系统,所述表格处理系统包括:获取模块,用于获取待处理表格;第一确定模块,用于基于表头检测模型对所述待处理表格中至少一行和/或至少一列进行处理,确定所述待处理表格中的行表头和/或列表头;第二确定模块,用于基于表头分类模型对所述行表头进行处理,确定所述待处理表格中列的分类结果,和/或基于表头分类模型对所述列表头进行处理,确定所述待处理表格中行的分类结果;抽取模块,用 ...
【技术保护点】
【技术特征摘要】
1.一种表格处理方法,其特征在于,所述方法包括:获取待处理表格;基于表头检测模型对所述待处理表格进行处理,确定所述待处理表格的行表头和/或列表头;基于表头分类模型对所述行表头进行处理,确定所述待处理表格中列的分类结果,和/或基于表头分类模型对所述列表头进行处理,确定所述待处理表格中行的分类结果;基于所述待处理表格中列和/或行的分类结果对所述待处理表格进行抽取,确定第一抽取结果。2.如权利要求1所述的方法,其特征在于,所述方法还包括:基于文本分类模型对所述待处理表格中单元格的文本进行处理,确定所述单元格的文本中词的类型;基于所述单元格的文本中词的类型对所述待处理表格进行抽取,确定第二抽取结果。3.如权利要求1所述的方法,其特征在于,所述获取待处理表格包括:获取初始表格及其标题;基于表格分类模型对所述初始表格及其标题中的文本进行处理,确定所述初始表格的分类结果;当所述初始表格的分类结果满足第一预设条件时,基于所述初始表格确定为所述待处理表格。4.如权利要求1所述的方法,其特征在于,所述表头检测模型包括行表头检测模型和列表头检测模型,所述基于表头检测模型对所述待处理表格进行处理,确定所述待处理表格的行表头和/或列表头包括:基于所述行表头检测模型对所述待处理表格中的行进行处理,确定所述待处理表格的所述行表头;和/或基于所述列表头检测模型对所述待处理表格中的列进行处理,确定所述待处理表格的所述列表头。5.如权利要求4所述的方法,所述基于所述行表头检测模型对所述待处理表格中的行进行处理,确定所述待处理表格的行表头,包括:基于行拼接规则,对所述待处理表格中行的单元格进行拼接,得到第一拼接结果;基于所述行表头检测模型对所述第一拼接结果进行处理,确定所述待处理表格的所述行表头;所述基于所述列表头检测模型,确定所述待处理表格的列表头,包括:基于列拼接规则,对所述待处理表格中的列的单元格进行拼接,得到第二拼接结果;基于所述列表头检测模型对所述第二拼接结果进行处理,确定所述待处理表格的所述列表头。6.如权利要求5所述的方法,其特征在于,所述表头检测模型包括依次连接的特征嵌入层、第一序列层、第一融合层、第二序列层和第一分类层,其中:所述特征嵌入层用于基于所述待处理表格中单元格的拼接结果,确定所述待处理表格中单元格的第一特征向量;所述第一序列层用于基于所述待处理表格中单元格的第一特征向量,确定所述待处理
表格中单元格的第二特征向量;所述第一融合层用于基于所述待处理表格中单元格的第二特征向量,确定所述待处理表格中行或列的第三特征向量;所述第二序列层用于基于所述待处理表格中行的第三特征向量,确定所述待处理表格中行的第四特征向量,或基于所述待处理表格中列的第三特征向量,确定所述待处理表格中列的第四特征向量;所述第一分类层用于基于所述待处理表格中行的第四特征向量,确定所述待处理表格的所述行表头,或基于所述待处理表格中列的第四特征向量,确定所述待处理表格的所述列表头。7.如权利要求6所述的方法,其特征在于,所述第一特征包括所述待处理表格中单元格的位置特征和文本特征。8.如权利要求1所述的方法,其特征在于,所述表头分类模型包括行表头分类模型和列表头分类模型,所述基于表头分类模型对所述行表头和/或所述列表头进行处理,...
【专利技术属性】
技术研发人员:徐阿龙,陶志伟,
申请(专利权)人:浙江核新同花顺网络信息股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。