基于深度学习的文本信息提取方法、装置、设备及介质制造方法及图纸

技术编号：40503487 阅读：7 留言：0更新日期：2024-03-01 13:17

本申请涉及深度学习技术领域，公开了一种文本信息提取方法、装置、设备及介质。其中方法包括：基于训练好的混合标签预测模型，对待处理文本进行混合标签预测，得到待处理文本中各个字符对应的混合标签预测结果；根据混合标签预测结果，从待处理文本中提取目标文本信息，目标文本信息中包括由多个字符构成的结构化实体，结构化实体为存在实体关系的实体。本申请的文本信息提取方法，可以从待处理文本中提取结构化实体，而提取出的结构化实体已经携带有实体关系，无需再进行实体关系的提取。通过单个模型任务既能抽取实体，也能判断抽取实体之间的关系，避免了后续的关系判断，实现了端到端的信息提取，是一种简单且高效的信息提取方案。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及深度学习，尤其涉及一种基于深度学习的文本信息提取方法、装置、电子设备以及存储介质。

技术介绍

1、随着深度学习算法的飞速发展，光学字符识别(optical characterrecognition，简称ocr)技术被广泛应用到纸质文档信息抽取或图像中的文本信息抽取。特别是保险领域，自动化信息抽取技术已成为保险理赔过程中重要的组成部分，通过对文档或图像的ocr识别得到其中的文本信息，便于进行信息的自动化录入，极大地提高了核保理赔作业人员的工作效率。

2、命名实体识别(named entity recognition，简称ner)是nlp中一项非常基础的任务，被广泛应用到信息提取、问答系统、句法分析、机器翻译等众多nlp任务。命名实体一般指的是文本中具有特定意义或者指代性强的实体，在保险领域中投保人姓名、投保时间、疾病名称等都可以被认为是实体。在需要获取结构化实体信息的场景中，结合实体关系进行实体抽取(如key-value信息抽取)能够极大提高信息提取任务的效率。目前，结合实体关系进行实体抽取的方法大多方案复杂，因此如何提出一种简单高效的信息提取方法成为亟待解决的问题。

技术实现思路

1、基于此，有必要针对上述技术问题，提供一种基于深度学习的文本信息提取方法、装置及电子设备，以简单高效进行文本信息提取。

2、一种基于深度学习的文本信息提取方法，包括：

3、基于训练好的混合标签预测模型，对待处理文本进行混合标签预测，得到待处理文本中各个字符对应的混合标签预测结果；

4、根据混合标签预测结果，从待处理文本中提取目标文本信息，目标文本信息中包括由多个字符构成的结构化实体，结构化实体为存在实体关系的实体。

5、在本申请实施例中，混合标签中包括第一字段和第二字段，第一字段用于标记实体关系，第二字段用于标记实体。

6、在本申请实施例中，基于训练好的混合标签预测模型，对待处理文本进行混合标签预测，得到待处理文本中各个字符对应的混合标签预测结果，包括：确定待处理文本中各个字符对应的坐标；将字符和字符对应的坐标输入训练好的混合标签预测模型，进行混合标签预测，得到字符对应的混合标签预测结果。

7、在本申请实施例中，根据混合标签预测结果，从待处理文本中提取目标文本信息，目标文本信息中包括由多个字符构成的结构化实体，包括：根据预测的混合标签中的第一字段，提取存在实体关系的目标字符串序列；根据预测的混合标签中的第二字段，从目标字符串序列中提取结构化实体。

8、在本申请实施例中，实体关系为键值关系，结构化实体为存在键值关系的键值对实体；根据预测的混合标签中的第一字段，提取存在实体关系的目标字符串序列，包括：若第一字段标记的实体关系为键值关系，则将预测的混合标签标记为第一预设值，否则，将预测的混合标签标记为第二预设值，得到待处理文本对应的第一预测标签解码序列，其中第一预设值和第二预设值根据最大字串和的运算规则设置；利用最大字串和算法，对第一预测标签解码序列进行处理，确定每个存在键值关系的字符串对应的起始位置和结束位置，并提取存在键值关系的字符串作为目标字符串序列。

9、在本申请实施例中，根据预测的混合标签中的第二字段，从目标字符串序列中提取结构化实体，包括：若第二字段标记的实体为键值对中的关键字实体，则将预测的混合标签标记为第一预设值，否则，将预测的混合标签标记为第二预设值，得到目标字符串序列对应的第二预测标签解码序列；以及利用最大字串和算法，对第二预测标签解码序列进行处理，确定关键字实体对应的起始位置和结束位置，并提取关键字实体；若第二字段标记的实体为键值对中的值实体，则将预测的混合标签标记为第一预设值，否则，将预测的混合标签标记为第二预设值，得到目标字符串序列对应的第三预测标签解码序列；以及利用最大字串和算法，对第三预测标签解码序列进行处理，确定值实体对应的起始位置和结束位置，并提取值实体。

10、在本申请实施例中，混合标签预测模型通过如下方式训练：获取带有混合标签的文本序列作为训练样本；基于训练样本，训练混合标签预测模型。

11、一种基于深度学习的文本信息提取装置，包括：

12、预测模块，用于基于训练好的混合标签预测模型，对待处理文本进行混合标签预测，得到待处理文本中各个字符对应的混合标签预测结果；

13、提取模块，用于根据混合标签预测结果，从待处理文本中提取目标文本信息，目标文本信息中包括由多个字符构成的结构化实体，结构化实体为存在实体关系的实体。

14、在本申请实施例中，混合标签中包括第一字段和第二字段，第一字段用于标记实体关系，第二字段用于标记实体。

15、在本申请实施例中，预测模块进一步用于：确定待处理文本中各个字符对应的坐标；将字符和字符对应的坐标输入训练好的混合标签预测模型，进行混合标签预测，得到字符对应的混合标签预测结果。

16、在本申请实施例中，提取模块进一步用于：根据预测的混合标签中的第一字段，提取存在实体关系的目标字符串序列；根据预测的混合标签中的第二字段，从目标字符串序列中提取结构化实体。

17、在本申请实施例中，实体关系为键值关系，结构化实体为存在键值关系的键值对实体；提取模块进一步用于：若第一字段标记的实体关系为键值关系，则将预测的混合标签标记为第一预设值，否则，将预测的混合标签标记为第二预设值，得到待处理文本对应的第一预测标签解码序列，其中第一预设值和第二预设值根据最大字串和的运算规则设置；利用最大字串和算法，对第一预测标签解码序列进行处理，确定每个存在键值关系的字符串对应的起始位置和结束位置，并提取存在键值关系的字符串作为目标字符串序列。

18、在本申请实施例中，提取模块进一步用于：若第二字段标记的实体为键值对中的关键字实体，则将预测的混合标签标记为第一预设值，否则，将预测的混合标签标记为第二预设值，得到目标字符串序列对应的第二预测标签解码序列；以及利用最大字串和算法，对第二预测标签解码序列进行处理，确定关键字实体对应的起始位置和结束位置，并提取关键字实体；若第二字段标记的实体为键值对中的值实体，则将预测的混合标签标记为第一预设值，否则，将预测的混合标签标记为第二预设值，得到目标字符串序列对应的第三预测标签解码序列；以及利用最大字串和算法，对第三预测标签解码序列进行处理，确定值实体对应的起始位置和结束位置，并提取值实体。

19、在本申请实施例中，文本信息提取装置还包括：

20、获取模块，用于获取带有混合标签的文本序列作为训练样本；

21、训练模块，用于基于训练样本，训练混合标签预测模型。

22、一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时，实现如上述基于深度学习的文本信息提取方法的步骤。

23、一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述本文档来自技高网...

【技术保护点】

1.一种基于深度学习的文本信息提取方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述混合标签中包括第一字段和第二字段，所述第一字段用于标记实体关系，所述第二字段用于标记实体。

3.根据权利要求1所述的方法，其特征在于，所述基于训练好的混合标签预测模型，对待处理文本进行混合标签预测，得到所述待处理文本中各个字符对应的混合标签预测结果，包括：

4.根据权利要求2所述的方法，其特征在于，所述根据所述混合标签预测结果，从所述待处理文本中提取目标文本信息，所述目标文本信息中包括由多个所述字符构成的结构化实体，包括：

5.根据权利要求4所述的方法，其特征在于，所述实体关系为键值关系，所述结构化实体为存在键值关系的键值对实体；所述根据预测的混合标签中的第一字段，提取存在实体关系的目标字符串序列，包括：

6.根据权利要求5所述的方法，其特征在于，所述根据预测的混合标签中的第二字段，从所述目标字符串序列中提取结构化实体，包括：

7.根据权利要求2所述的方法，其特征在于，所述混合标签预测模型通过如下方式训练：

8.一种基于深度学习的文本信息提取装置，其特征在于，包括：

9.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时，实现如权利要求1-7任一项所述基于深度学习的文本信息提取方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-7中任一项所述基于深度学习的文本信息提取方法的步骤。

...

【技术特征摘要】

1.一种基于深度学习的文本信息提取方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述混合标签中包括第一字段和第二字段，所述第一字段用于标记实体关系，所述第二字段用于标记实体。

5.根据权利要求4所述的方法，其特征在于，所述实体关系为键值关系，所述结构化实体为存在键值关系的键值对实体；所述根据预测的混合标签中的第一字段，提...

【专利技术属性】
技术研发人员：董永飞，
申请(专利权)人：中国平安人寿保险股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人