【技术实现步骤摘要】
数据处理方法、段落文本确定方法、装置及电子设备
[0001]本公开涉及人工智能领域,尤其涉及自然语言处理、智能搜索等领域,更具体地,本公开提供了一种数据处理方法、段落文本确定方法、数据处理装置、段落文本确定装置、电子设备、存储介质以及计算机程序产品。
技术介绍
[0002]随着智能文档技术的发展,对文档中表格的理解受到了越来越多的关注。表格理解的目的之一是从表格中确定表头和表体,以及确定表头与表体的对应关系。
技术实现思路
[0003]本公开提供了一种数据处理方法、段落文本确定方法、数据处理装置、段落文本确定装置、电子设备、存储介质以及计算机程序产品。
[0004]根据本公开的一方面,提供了一种数据处理方法,包括:确定待处理表格中的多个文本信息和与所述多个文本信息对应的多个位置信息;根据所述多个位置信息,从所述多个文本信息中确定多个参考数据集,每个参考数据集包括第一参考数据和与所述第一参考数据相关联的至少一个第二参考数据;以及根据所述多个文本信息和/或所述多个参考数据集,确定第一目标数据和与所述第一目 ...
【技术保护点】
【技术特征摘要】
1.一种数据处理方法,包括:确定待处理表格中的多个文本信息和与所述多个文本信息对应的多个位置信息;根据所述多个位置信息,从所述多个文本信息中确定多个参考数据集,每个参考数据集包括第一参考数据和与所述第一参考数据相关联的至少一个第二参考数据;以及根据所述多个文本信息和/或所述多个参考数据集,确定第一目标数据和与所述第一目标数据相关联的至少一个第二目标数据。2.根据权利要求1所述的方法,其中,所述根据所述多个文本信息和/或所述多个参考数据集,确定第一目标数据和与所述第一目标数据相关联的至少一个第二目标数据包括:根据所述多个文本信息的字符长度和所述多个参考数据集的字符长度之间的大小关系,确定所述第一目标数据和所述第二目标数据。3.根据权利要求2所述的方法,其中,所述根据所述多个文本信息的字符长度和所述多个参考数据集的字符长度之间的大小关系,确定所述第一目标数据和所述第二目标数据包括:在确定所述多个文本信息的字符长度大于所述多个参考数据集的字符长度的情况下,从所述多个文本信息中确定所述第一目标数据和所述至少一个第二目标数据;以及在确定所述多个文本信息的字符长度等于所述多个参考数据集的字符长度的情况下,将所述第一参考数据确定为所述第一目标数据,将所述至少一个第二参考数据确定为所述至少一个第二目标数据。4.根据权利要求2所述的方法,还包括:对所述多个文本信息和所述多个参考数据集进行去重,分别得到多个去重后文本信息和多个去重后参考数据集;其中,所述根据所述多个文本信息的字符长度和所述多个参考数据集的字符长度之间的大小关系,确定所述第一目标数据和所述第二目标数据包括:根据所述多个去重后文本信息的字符长度和所述多个去重后参考数据集的字符长度之间的大小关系,确定所述第一目标数据和所述第二目标数据。5.根据权利要求1所述的方法,其中,所述确定待处理表格中的多个文本信息和与所述多个文本信息对应的多个位置信息包括:确定所述待处理表格中多个单元格中的每个单元格的位置信息,得到所述多个位置信息;以及确定位于所述每个单元格内部的文本信息,得到多个文本信息。6.根据权利要求1至5中任意一项所述的方法,其中,根据所述多个位置信息,从所述多个文本信息中确定多个参考数据集包括:根据所述多个位置信息,确定所述多个文本信息中的任意两个相邻文本信息之间的相似度,得到多个相似度;以及针对所述多个文本信息中确定位于同一行或同一列的若干个文本信息,将相似度大于等于相似度闽值的所述任意两个相邻文本信息,分别确定为所述至少一个第二参考数据;和将相似度小于所述相似度阈值的所述任意两个文本信息中的一个文本信息,确定为所述第一参考数据。
7.一种段落文本确定方法,包括:获取第一目标数据和至少一个第二目标数据;以及对所述第一目标数据和所述至少一个第二目标数据进行处理,得到段落文本;其中,所述第一目标数据和所述第二目标数据是根据权利要求1至6中任意一项所述的方法得到的。8.一种数据处理装置,包括:第一确定模块,用于确定待处理表格中的多个文本信息和与所述多个文本信息对应的多个位置信息;参考数据集确定模块,用于根据所述多个位置信息,从所述多个文本信息中确定多个参考数据集,每...
【专利技术属性】
技术研发人员:刘禾子,刘坤,丁鑫哲,刘凯,李婷婷,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。