一种基于生成式预训练语言模型的医疗事件抽取方法技术

技术编号：40280192 阅读：4 留言：0更新日期：2024-02-07 20:35

本发明专利技术公开了基于生成式预训练语言模型的医疗事件抽取方法及装置，该方法包括：获取目标医疗文本；给定要抽取医疗事件的所有医疗事件类型；定义各类型的医疗事件要抽取的对应元素；利用事件类型判别模型，判定所述目标医疗文本中所涉及到的事件类型，其中所述事件类型判别模型为经过领域适配和事件类型判别任务精调的生成式预训练语言模型；根据所述事件类型，利用事件抽取模型抽取所述目标医疗文本的事件对应的元素，其中所述事件抽取模型为经过领域适配和事件元素抽取任务精调的生成式预训练语言模型。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于医疗领域的自然语言处理，尤其涉及一种基于生成式预训练语言模型的医疗事件抽取方法。

技术介绍

1、事件抽取是从自然语言文本中提取出具有语义信息的事件的过程，是自然语言处理(nlp)领域中的一个重要问题。事件抽取旨在从一篇文本中自动检测和提取出与预定义的事件类型相关的事件和实体。事件抽取能够识别出自然语言文本中所描述的谓词及其相应的论元，即事件的参与者、属性、时间等，并将其转换为结构化的数据格式。

2、当前医疗领域常用的事件抽取技术多为基于规则或基于特征的方式。由于医疗领域的数据复杂多样，多为非结构化的数据，依靠传统方法进行事件抽取往往存在准确率低以及标注成本较高等缺陷。而生成式预训练语言模型具有自动学习能力，能够通过大量数据自动学习语言模式和规律，无需进行复杂的特征工程和手动调参。对于新的数据和领域，生成式预训练语言模型具有更强的泛化能力，能够更好地适应多样的应用场景。且生成式预训练语言模型在训练的过程中采用了更丰富的语料库和更复杂的模型结构，可以有效提高模型效果。因此，本专利技术提出一种基于生成式大模型的医疗领域事件抽取方法，旨在改善当前技术的局限性。

技术实现思路

1、针对现有技术标注成本高、抽取准确率低的问题，本申请实施例的目的是提供一种基于生成式预训练语言模型的医疗事件抽取方法。

2、根据本申请实施例的第一方面，提供一种基于生成式预训练语言模型的医疗事件抽取方法，包括：

3、获取目标医疗文本；

4、给定要抽取医疗事件的所有医疗事件类型；

5、定义各类型的医疗事件要抽取的对应元素；

6、利用事件类型判别模型，判定所述目标医疗文本中所涉及到的事件类型，其中所述事件类型判别模型为经过领域适配和事件类型判别任务精调的生成式预训练语言模型；

7、根据所述事件类型，利用事件抽取模型抽取所述目标医疗文本的事件对应的元素，其中所述事件抽取模型为经过领域适配和事件元素抽取任务精调的生成式预训练语言模型。

8、进一步地，所述医疗事件类型指的是患者从进入医院到离开医院所经历的事件的类型，包括患者入院事件、患者用药事件、患者化验事件、患者转入icu事件、患者出院事件。

9、进一步地，采用gpt作为所述事件类型判别模型。

10、进一步地，利用事件类型判别模型，判定所述目标医疗文本中所涉及到的事件类型，包括：

11、对生成式预训练语言模型进行医疗领域适配；

12、在预定的任务数据集上进行单一功能任务的语言模型预训练，以进行事件类型判别任务精调；

13、构建用于进行医疗事件类型判别的事件类型判别模型的提示词模板prompt1；

14、根据所述提示词模板prompt1，生成包含所有医疗事件类型和目标医疗文本的提示词并输入到所述事件类型判别模型中，得到所述目标医疗文本所涉及到的事件类型。

15、进一步地，对生成式预训练语言模型进行医疗领域适配，具体为：将医疗领域文本经过分词转换为单词索引，利用所述单词索引对所述生成式预训练语言模型进行预训练，其中所述医疗领域文本包括脱敏后的病人病例记录、医学数据库的期刊文章、会议论文、医学各学科教材、新闻资讯。

16、进一步地，所述预定的任务数据集格式与所述提示词模板prompt1一致。

17、进一步地，根据所述事件类型，利用事件抽取模型抽取所述目标医疗文本的事件对应的元素，包括：

18、对生成式预训练语言模型进行医疗领域适配；

19、在预定的任务数据集上进行单一功能任务的语言模型预训练，以进行事件元素抽取任务精调；

20、构建用于进行医疗事件抽取的事件抽取模型的提示词模板prompt2；

21、根据所述提示词模板prompt2，生成包含所述目标医疗文本及其涉及的事件对应所要抽取的元素并输入到事件抽取模型中，得到所述目标医疗文本所涉及到的事件元素。

22、根据本申请实施例的第二方面，提供一种基于生成式预训练语言模型的医疗事件抽取装置，包括：

23、获取模块，用于获取目标医疗文本；

24、类型给定模块，用于给定要抽取医疗事件的所有医疗事件类型；

25、元素定义模块，用于定义各类型的医疗事件要抽取的对应元素；

26、事件类型判别模块，用于利用事件类型判别模型，判定所述目标医疗文本中所涉及到的事件类型，其中所述事件类型判别模型为经过领域适配和事件类型判别任务精调的生成式预训练语言模型；

27、事件抽取模块，用于根据所述事件类型，利用事件抽取模型抽取所述目标医疗文本的事件对应的元素，其中所述事件抽取模型为经过领域适配和事件元素抽取任务精调的生成式预训练语言模型。

28、根据本申请实施例的第三方面，提供一种电子设备，包括：

29、一个或多个处理器；

30、存储器，用于存储一个或多个程序；

31、当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如第一方面所述的方法。

32、根据本申请实施例的第四方面，提供一种计算机可读存储介质，其上存储有计算机指令，该指令被处理器执行时实现如第一方面所述方法的步骤。

33、本申请的实施例提供的技术方案可以包括以下有益效果：

34、由上述实施例可知，本申请利用了大型预训练语言模型的强大表达能力，使得模型能够自动地学习医疗领域的语言规律和特点，并能够适应各种事件类型的抽取。同时，本专利技术能够高效地实现事件抽取，降低了人工标注和数据清理的成本，提高了实验效率。在实际应用中，本专利技术具有广泛的应用前景，可应用于医疗领域的自动化分类、知识图谱的构建、实体识别、关系抽取、事件抽取等任务，为医疗领域的研究和实践提供了更为高效、准确和可靠的方法和工具。

35、应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

本文档来自技高网...

【技术保护点】

1.一种基于生成式预训练语言模型的医疗事件抽取方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述医疗事件类型指的是患者从进入医院到离开医院所经历的事件的类型，包括患者入院事件、患者用药事件、患者化验事件、患者转入ICU事件、患者出院事件。

3.根据权利要求1所述的方法，其特征在于，采用GPT作为所述事件类型判别模型。

4.根据权利要求1所述的方法，其特征在于，利用事件类型判别模型，判定所述目标医疗文本中所涉及到的事件类型，包括：

5.根据权利要求4所述的方法，其特征在于，对生成式预训练语言模型进行医疗领域适配，具体为：将医疗领域文本经过分词转换为单词索引，利用所述单词索引对所述生成式预训练语言模型进行预训练，其中所述医疗领域文本包括脱敏后的病人病例记录、医学数据库的期刊文章、会议论文、医学各学科教材、新闻资讯。

6.根据权利要求4所述的方法，其特征在于，所述预定的任务数据集格式与所述提示词模板Prompt1一致。

7.根据权利要求1所述的方法，其特征在于，根据所述事件类型，利用事件抽取模

8.一种基于生成式预训练语言模型的医疗事件抽取装置，其特征在于，包括：

9.一种电子设备，其特征在于，包括：

10.一种计算机可读存储介质，其上存储有计算机指令，其特征在于，该指令被处理器执行时实现如权利要求1-7中任一项所述方法的步骤。

...

【技术特征摘要】

1.一种基于生成式预训练语言模型的医疗事件抽取方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述医疗事件类型指的是患者从进入医院到离开医院所经历的事件的类型，包括患者入院事件、患者用药事件、患者化验事件、患者转入icu事件、患者出院事件。

3.根据权利要求1所述的方法，其特征在于，采用gpt作为所述事件类型判别模型。

4.根据权利要求1所述的方法，其特征在于，利用事件类型判别模型，判定所述目标医疗文本中所涉及到的事件类型，包括：

5.根据权利要求4所述的方法，其特征在于，对生成式预训练语言模型进行医疗领域适配，具体为：将医疗领域文本经过分词转换为单词索引，利用所述单词索引对所述生成...

【专利技术属性】
技术研发人员：梁兴政，刘智，李楠，王成，
申请(专利权)人：之江实验室，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人