一种信息提取方法、装置、设备及存储介质制造方法及图纸

技术编号:39939726 阅读:26 留言:0更新日期:2024-01-08 22:28
本申请实施例提供一种信息提取方法、装置、设备及存储介质,涉及计算机技术领域,包括:从待抽取表格的文本内容中,确定与三元组标识信息匹配的匹配文本,以及所述匹配文本在所述待抽取表格中的位置信息;基于所述匹配文本在所述待抽取表格中的位置信息,确定所述待抽取表格的表格样式;基于所述待抽取表格的表格样式,以及所述匹配文本在所述待抽取表格中的位置信息,从所述待抽取表格中提取组合文本;通过信息提取模型,基于所述三元组标识信息和所述组合文本,确定至少一个目标三元组内容。本申请实施例实现了自动化地且更精细化地信息抽取,大大降低了人工成本,有效提高了信息提取的提取效率。

【技术实现步骤摘要】

本申请实施例涉及计算机,尤其涉及一种信息提取方法、装置、设备及存储介质


技术介绍

1、知识图谱将知识以三元组的形式表示,是一种以图的形式展现的知识库,知识图谱技术目前已经在各个领域得到了广泛的应用。知识图谱的数据来源主要包括数据库、文本和表格等,其中,表格数据通常是结构化或者半结构化数据,是知识图谱数据的重要来源。

2、相关技术下,表格信息提取的方法主要包括以下几种:第一,人工配置规则提取,即通过业务专家观察表格,若表格数量较少,则直接由业务专家对表格信息进行标注和抽取,若表格数量较多,则需要业务专家先配置一系列的规则后,再进行表格信息提取,所以该种方法需要消耗较高的人工成本,且表格信息提取的效率低。第二,特定格式表格信息抽取,即采用人工预处理的方式将表格转换为特定格式的表格,然后从表格中抽取数据,该种方法由于依赖人工干预,所以针对表格信息较多或者格式多样的情况并不适用,表格信息抽取效率低。

3、因此,如何减少表格信息抽取过程的人工干预,降低人工成本,有效提高表格信息提取的提取效率是相关技术下亟待解决的技术问题


本文档来自技高网...

【技术保护点】

1.一种信息提取方法,其特征在于,包括:

2.如权利要求1所述的方法,其特征在于,所述从待抽取表格的文本内容中,确定与三元组标识信息匹配的匹配文本,以及所述匹配文本在所述待抽取表格中的位置信息之前,还包括:

3.如权利要求1所述的方法,其特征在于,所述三元组标识信息包括:第一实体标识和第二实体标识;

4.如权利要求3所述的方法,其特征在于,所述与三元组标识信息匹配的匹配文本在所述待抽取表格中的位置信息包括:第一实体标识的匹配文本对应的第一单元格坐标,以及第二实体标识的匹配文本对应的第二单元格坐标;

5.如权利要求1所述的方法,其特征在于,所...

【技术特征摘要】

1.一种信息提取方法,其特征在于,包括:

2.如权利要求1所述的方法,其特征在于,所述从待抽取表格的文本内容中,确定与三元组标识信息匹配的匹配文本,以及所述匹配文本在所述待抽取表格中的位置信息之前,还包括:

3.如权利要求1所述的方法,其特征在于,所述三元组标识信息包括:第一实体标识和第二实体标识;

4.如权利要求3所述的方法,其特征在于,所述与三元组标识信息匹配的匹配文本在所述待抽取表格中的位置信息包括:第一实体标识的匹配文本对应的第一单元格坐标,以及第二实体标识的匹配文本对应的第二单元格坐标;

5.如权利要求1所述的方法,其特征在于,所述基于所述待抽取表格的表格样式,以及所述匹配文本在所述待抽取表格中的位置信息,从所述待抽取表格中提取组合文本,包括:

6.如权利要求1所述的方法,其特征在于,所述通过信息提取模型,基于所述三元组标识...

【专利技术属性】
技术研发人员:曾城史立学朱明英刘崇日梁若琳
申请(专利权)人:中国电信股份有限公司技术创新中心
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1