基于知识图谱的数据处理方法、装置、电子设备和介质制造方法及图纸

技术编号:30823661 阅读:9 留言:0更新日期:2021-11-18 12:13
本申请公开了基于知识图谱的数据处理方法、装置、电子设备和介质,涉及计算机技术领域,尤其涉及自然语言处理、知识图谱等人工智能领域。方案为:获取待处理表格及对应的表名;对表格进行识别,以获取表格中每个单元格内容;根据每个单元格内容与预设表格词库中分词之间的匹配度,确定每个单元格内容对应的行属性和列属性;根据表名、每个单元格内容对应的行属性和列属性,确定表格对应的四元组列表。由此,用四元组概括表格的布局信息,保留表格的行列关系,使表格上下文信息更加完整。使表格上下文信息更加完整。使表格上下文信息更加完整。

【技术实现步骤摘要】
基于知识图谱的数据处理方法、装置、电子设备和介质


[0001]本申请涉及计算机
,尤其涉及自然语言处理、知识图谱等人工智能领域,具体涉及基于知识图谱的数据处理方法、装置、电子设备和存储介质。

技术介绍

[0002]文档中包含的复杂表格的信息抽取和挖掘是信息检索领域中的常见的难题。基于文档的实体抽取、文档分类、知识生产、检索、推荐、问答等通常依赖于多源文档信息的抽取,而表格作为文档中一种常见的数据归纳格式,行列合并关系多样,且内容和样式互相绑定,单纯抽取表格值域,会丢失布局信息,影响非结构化内容理解的准确性。
[0003]因此,如何提高表格抽取内容的完整性是亟待解决的问题。

技术实现思路

[0004]本申请提供了一种基于知识图谱的数据处理方法、装置、电子设备和存储介质。
[0005]根据本申请的一方面,提供了一种基于知识图谱的数据处理方法,包括:
[0006]获取待处理表格及对应的表名;
[0007]对所述表格进行识别,以获取所述表格中每个单元格内容;
[0008]根据每个所述单元格内容与预设表格词库中分词之间的匹配度,确定每个所述单元格内容对应的行属性和列属性;
[0009]根据所述表名、每个所述单元格内容对应的行属性和列属性,确定所述表格对应的四元组列表,其中,所述四元组列表中每个四元组包括所述表名、行属性、列属性及对应的属性值。
[0010]根据本申请的另一方面,提供了一种基于知识图谱的数据处理装置包括:
[0011]获取模块,用于获取待处理表格及对应的表名;
[0012]识别模块,用于对所述表格进行识别,以获取所述表格中每个单元格内容;
[0013]第一确定模块,用于根据每个所述单元格内容与预设表格词库中分词之间的匹配度,确定每个所述单元格内容对应的行属性和列属性;
[0014]第二确定模块,用于根据所述表名、每个所述单元格内容对应的行属性和列属性,确定所述表格对应的四元组列表,其中,所述四元组列表中每个四元组包括所述表名、行属性、列属性及对应的属性值。
[0015]根据本申请的另一方面,提供了一种电子设备,包括:
[0016]至少一个处理器;以及
[0017]与所述至少一个处理器通信连接的存储器;其中,
[0018]所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述实施例所述的方法。
[0019]根据本申请的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据上述实施例所述的方法。
[0020]根据本申请的另一方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据上述实施例所述的方法。
[0021]应当理解,本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征,也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0022]附图用于更好地理解本方案,不构成对本申请的限定。其中:
[0023]图1为本申请实施例提供的一种基于知识图谱的数据处理方法的流程示意图;
[0024]图2为本申请实施例提供的另一种基于知识图谱的数据处理方法的流程示意图;
[0025]图3为本申请实施例提供的另一种基于知识图谱的数据处理方法的流程示意图;
[0026]图4为本申请实施例提供的另一种基于知识图谱的数据处理方法的流程示意图;
[0027]图5为本申请实施例提供的一种文档处理过程示意图;
[0028]图6为本申请实施例提供的一种基于知识图谱的数据处理装置的结构示意图;
[0029]图7是用来实现本申请实施例的基于知识图谱的数据处理方法的电子设备的框图。
具体实施方式
[0030]以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0031]下面参考附图描述本申请实施例的基于知识图谱的数据处理方法、装置、电子设备和存储介质。
[0032]人工智能是研究使用计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科,既有硬件层面的
也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术;人工智能软件技术包括计算机视觉技术、语音识别技术、自然语言处理技术以及深度学习、大数据处理技术、知识图谱技术等几大方向。
[0033]NLP(Natural Language Processing,自然语言处理)是计算机科学领域与人工智能领域中的一个重要方向,NLP研究的内容包括但不限于如下分支领域:文本分类、信息抽取、自动摘要、智能问答、话题推荐、机器翻译、主题词识别、知识库构建、深度文本表示、命名实体识别、文本生成、文本分析(词法、句法、语法等)、语音识别与合成等。
[0034]图1为本申请实施例提供的一种基于知识图谱的数据处理方法的流程示意图。
[0035]本申请实施例的基于知识图谱的数据处理方法,可由本申请实施例提供的基于知识图谱的数据处理装置执行,该装置可配置于电子设备中,通过获取表格对应的四元组列表,利用四元组概括表格的布局信息,保留表格的行列关系,从而使得表格上下文信息更加完整。
[0036]如图1所示,该基于知识图谱的数据处理方法,包括:
[0037]步骤101,获取待处理表格及对应的表名。
[0038]本申请中,用户可以输入待处理表格及对应的表名,由此获取待处理表格和表名。或者,也可以对待处理文档进行解析,抽取文档中的表格,并根据文档中表格的上下文信息,确定表格的表名。
[0039]在实际应用中,文档中表格的上方或下方通常会注明表格的名称,比如“表1今年2月份每天的平均气温”。
[0040]若文档中没有注明表格的名称,可以根据表格在文档中的位置,获取表格上方的段落或下方的段落,根据获取的段落内容,确定表格的表名。
[0041]比如,可以从获取的段落中抽取关键词,基于关键词确定表格的表名。或者,也可以将表格下方段落的第一句话,作为表格表名。或者,也可以从获取的段落中确定分词“表格”的位置,根据该分词所在语句,确定表格名。
[0042]本申请中,可以通过对文档进行解析,获取表格,并根据表格在文档中的上下文信息,确定表格的表名,由此可以对文档中的表格进行处理,也可以使得表格与表名一一对应。
[0043]步骤102,对表格进行识别,以获取表格中每个单元格内容。
[0044]在获取待处理表格及对应的表名后,可以本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于知识图谱的数据处理方法,包括:获取待处理表格及对应的表名;对所述表格进行识别,以获取所述表格中每个单元格内容;根据每个所述单元格内容与预设表格词库中分词之间的匹配度,确定每个所述单元格内容对应的行属性和列属性;根据所述表名、每个所述单元格内容对应的行属性和列属性,确定所述表格对应的四元组列表,其中,所述四元组列表中每个四元组包括所述表名、行属性、列属性及对应的属性值。2.如权利要求1所述的方法,其中,所述根据每个所述单元格内容与预设表格词库中分词之间的匹配度,确定每个所述单元格内容对应的行属性和列属性,包括:根据每个所述单元格内容与预设表格词库中分词之间的匹配度,确定所述表格中包含的各个行属性及列属性;根据所述表格中包含的各个行属性和列属性、及每个所述单元格内容所在的行和列,确定每个所述单元格内容对应的行属性和列属性。3.如权利要求2所述的方法,其中,所述根据每个所述单元格内容与预设表格词库中分词之间的匹配度,确定所述表格中包含的各个行属性及列属性,包括:根据所述表格中每列包括的各第一单元格内容与所述表格词库中分词之间的匹配度,确定每个所述第一单元格内容的类型;在所述各第一单元格内容的类型均为属性的情况下,确定每个所述第一单元格内容为行属性;根据所述待处理表格中每行包括的各第二单元格内容与所述表格词库中分词之间的匹配度,确定每个所述第二单元格内容的类型;在所述各第二单元格内容的类型均为属性的情况下,确定每个所述第一单元格内容为列属性。4.如权利要求3所述的方法,其中,所述根据所述表格中每列包括的各第一单元格内容与所述表格词库中分词之间的匹配度,确定每个所述第一单元格内容的类型,包括:在每个所述第一单元格内容与任一分词间的匹配度大于阈值的情况下,确定每个所述第一单元格内容的类型为属性;在每个所述第一单元格内容与每个分词间的匹配度均小于或等于阈值的情况下,确定每个所述第一单元格内容的类型为属性值。5.如权利要求3所述的方法,其中,在所述确定每个所述第一单元格内容的类型之后,还包括:在任一第一单元格内容的类型为属性值、且其余第一单元格内容的类型为属性的情况下,将所述任一第一单元格内容的类型更新为行属性。6.如权利要求4或5所述的方法,其中,所述根据所述表格中包含的各个行属性和列属性、及每个所述单元格内容所在的行和列,确定每个所述单元格内容对应的行属性和列属性,包括:以每个所述属性值为起点,获取与每个所述属性值的行位置相同的行属性,及与每个所述属性值的列位置相同的列属性。
7.如权利要求2所述的方法,其中,所述根据所述表格中包含的各个行属性和列属性、及每个所述单元格内容所在的行和列,确定每个所述单元格内容对应的行属性和列属性,包括:以层级最高的每个第一列属性为起点,获取与每个所述第一列属性同列的第三单元格内容;在所述第三单元格内容为列属性的情况下,获取与所述第三单元格内容同列的第四单元格内容;在所述第四单元格内容为属性值的情况下,获取与所述第四单元格内容的行位置相同的行属性。8.如权利要求1

5任一所述的方法,其中,所述获取待处理表格及对应的表名,包括:对待解析文档进行解析,获取所述表格;根据所述待解析文档中所述表格的上下文信息,确定所述表格对应的表名。9.一种基于知识图谱的数据处理装置,包括:获取模块,用于获取待处理表格及对应的表名;识别模块,用于对所述表格进行识别,以获取所述表格中每个单元格内容...

【专利技术属性】
技术研发人员:顾楠希
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1