【技术实现步骤摘要】
基于知识图谱的数据处理方法、装置、电子设备和介质
[0001]本申请涉及计算机
,尤其涉及自然语言处理、知识图谱等人工智能领域,具体涉及基于知识图谱的数据处理方法、装置、电子设备和存储介质。
技术介绍
[0002]文档中包含的复杂表格的信息抽取和挖掘是信息检索领域中的常见的难题。基于文档的实体抽取、文档分类、知识生产、检索、推荐、问答等通常依赖于多源文档信息的抽取,而表格作为文档中一种常见的数据归纳格式,行列合并关系多样,且内容和样式互相绑定,单纯抽取表格值域,会丢失布局信息,影响非结构化内容理解的准确性。
[0003]因此,如何提高表格抽取内容的完整性是亟待解决的问题。
技术实现思路
[0004]本申请提供了一种基于知识图谱的数据处理方法、装置、电子设备和存储介质。
[0005]根据本申请的一方面,提供了一种基于知识图谱的数据处理方法,包括:
[0006]获取待处理表格及对应的表名;
[0007]对所述表格进行识别,以获取所述表格中每个单元格内容;
[0008]根据每个所述单元格内容与预设表格词库中分词之间的匹配度,确定每个所述单元格内容对应的行属性和列属性;
[0009]根据所述表名、每个所述单元格内容对应的行属性和列属性,确定所述表格对应的四元组列表,其中,所述四元组列表中每个四元组包括所述表名、行属性、列属性及对应的属性值。
[0010]根据本申请的另一方面,提供了一种基于知识图谱的数据处理装置包括:
[0011]获取模块, ...
【技术保护点】
【技术特征摘要】
1.一种基于知识图谱的数据处理方法,包括:获取待处理表格及对应的表名;对所述表格进行识别,以获取所述表格中每个单元格内容;根据每个所述单元格内容与预设表格词库中分词之间的匹配度,确定每个所述单元格内容对应的行属性和列属性;根据所述表名、每个所述单元格内容对应的行属性和列属性,确定所述表格对应的四元组列表,其中,所述四元组列表中每个四元组包括所述表名、行属性、列属性及对应的属性值。2.如权利要求1所述的方法,其中,所述根据每个所述单元格内容与预设表格词库中分词之间的匹配度,确定每个所述单元格内容对应的行属性和列属性,包括:根据每个所述单元格内容与预设表格词库中分词之间的匹配度,确定所述表格中包含的各个行属性及列属性;根据所述表格中包含的各个行属性和列属性、及每个所述单元格内容所在的行和列,确定每个所述单元格内容对应的行属性和列属性。3.如权利要求2所述的方法,其中,所述根据每个所述单元格内容与预设表格词库中分词之间的匹配度,确定所述表格中包含的各个行属性及列属性,包括:根据所述表格中每列包括的各第一单元格内容与所述表格词库中分词之间的匹配度,确定每个所述第一单元格内容的类型;在所述各第一单元格内容的类型均为属性的情况下,确定每个所述第一单元格内容为行属性;根据所述待处理表格中每行包括的各第二单元格内容与所述表格词库中分词之间的匹配度,确定每个所述第二单元格内容的类型;在所述各第二单元格内容的类型均为属性的情况下,确定每个所述第一单元格内容为列属性。4.如权利要求3所述的方法,其中,所述根据所述表格中每列包括的各第一单元格内容与所述表格词库中分词之间的匹配度,确定每个所述第一单元格内容的类型,包括:在每个所述第一单元格内容与任一分词间的匹配度大于阈值的情况下,确定每个所述第一单元格内容的类型为属性;在每个所述第一单元格内容与每个分词间的匹配度均小于或等于阈值的情况下,确定每个所述第一单元格内容的类型为属性值。5.如权利要求3所述的方法,其中,在所述确定每个所述第一单元格内容的类型之后,还包括:在任一第一单元格内容的类型为属性值、且其余第一单元格内容的类型为属性的情况下,将所述任一第一单元格内容的类型更新为行属性。6.如权利要求4或5所述的方法,其中,所述根据所述表格中包含的各个行属性和列属性、及每个所述单元格内容所在的行和列,确定每个所述单元格内容对应的行属性和列属性,包括:以每个所述属性值为起点,获取与每个所述属性值的行位置相同的行属性,及与每个所述属性值的列位置相同的列属性。
7.如权利要求2所述的方法,其中,所述根据所述表格中包含的各个行属性和列属性、及每个所述单元格内容所在的行和列,确定每个所述单元格内容对应的行属性和列属性,包括:以层级最高的每个第一列属性为起点,获取与每个所述第一列属性同列的第三单元格内容;在所述第三单元格内容为列属性的情况下,获取与所述第三单元格内容同列的第四单元格内容;在所述第四单元格内容为属性值的情况下,获取与所述第四单元格内容的行位置相同的行属性。8.如权利要求1
‑
5任一所述的方法,其中,所述获取待处理表格及对应的表名,包括:对待解析文档进行解析,获取所述表格;根据所述待解析文档中所述表格的上下文信息,确定所述表格对应的表名。9.一种基于知识图谱的数据处理装置,包括:获取模块,用于获取待处理表格及对应的表名;识别模块,用于对所述表格进行识别,以获取所述表格中每个单元格内容...
【专利技术属性】
技术研发人员:顾楠希,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。