一种基于提示学习的医学文本分类方法及装置制造方法及图纸

技术编号:39427216 阅读:32 留言:0更新日期:2023-11-19 16:13
本发明专利技术提供一种基于提示学习的医学文本分类方法及装置。所述方法包括:基于事件先验信息和知识先验信息从原始医学文本中获取用于一级分类的提示信息,所述一级分类包括科室类别;对原始医学文本进行过滤,并将过滤后的文本与所述提示信息进行整合后输入到大语言生成模型;计算大语言生成模型输出的结果序列与所述一级分类下的每个表示疾病类别的二级分类标签的相似度,将所述相似度的最大值对应的标签类别作为所述大语言生成模型输出的二级类别。本发明专利技术能够实现基于科室类别的一级分类,还能实现一级分类下基于疾病类别的二级分类,更加符合医学领域的普遍认知,使分类结果更加规范化;同时分类标签可以不固定,能够有效实现开放域的多级文本分类。效实现开放域的多级文本分类。效实现开放域的多级文本分类。

【技术实现步骤摘要】
一种基于提示学习的医学文本分类方法及装置


[0001]本专利技术属于文本处理
,具体涉及一种基于提示学习的医学文本分类方法及装置。

技术介绍

[0002]对具有特殊信息和领域知识的医学文本进行分类,一直具有很大的挑战性,子句之间可能因为专业名词、医学经验、对比转折等叙事方式而存在文本类别上的模糊与冲突,造成模型对该文本整体进行文本分类时的困难。长期以来,国内外研究机构提出了各种用于文本分类的深度学习模型,但受制于模型分析能力和硬件运行速度的制约,小模型无法提供更精确的结果,大模型则具有较大的部署难度。近年来,随着大语言模型的迅速发展,知识迁移、微调和提示学习等自然语言处理新范式的提出,让小模型可以轻松借助大语言模型的海量参数提供方便快捷的文本分类产品和服务。
[0003]现有基于模板化提示学习的医学文本分类方法,一般是将初始输入文本和提示内容拼接后,馈入模板生成编码器,进而将提示内容跟随初始输入文本在该编码器模型中同时进行更新。然后将更新后的模板参数提取出来,与未经过更新的初始输入文本拼接后,馈入大型预训练语言模型,借助大型预训练本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于提示学习的医学文本分类方法,其特征在于,包括以下步骤:基于事件先验信息和知识先验信息从原始医学文本中获取用于一级分类的提示信息,所述一级分类包括科室类别;对原始医学文本进行过滤,并将过滤后的文本与所述提示信息进行整合后输入到大语言生成模型;计算大语言生成模型输出的结果序列与所述一级分类下的每个表示疾病类别的二级分类标签的相似度,将所述相似度的最大值对应的标签类别作为所述大语言生成模型输出的二级类别。2.根据权利要求1所述的基于提示学习的医学文本分类方法,其特征在于,获取所述提示信息的方法包括:将原始医学文本输入至医学事件特征提取模型,获得结构化的事件提示信息A;将原始医学文本输入至医学知识特征提取模型,获得结构化的知识提示信息B;将A、B整合后输出至提示模板生成模块,获得用于一级分类的提示信息。3.根据权利要求2所述的基于提示学习的医学文本分类方法,其特征在于,所述医学事件特征提取模型为预训练的RoBERTa模型,利用由公开的医学信息组成的数据集进行微调训练。4.根据权利要求2所述的基于提示学习的医学文本分类方法,其特征在于,所述医学知识特征提取模型为预训练的BioBERT模型,利用由公开的医学知识图谱数据组成的数据集进行微调训练。5.根据权利要求2所述的基于提示学习的医学文本分类方法,其特征在于,所述提示模板生成模块由4层相同的网络构成,每层网络采用Transformer解码器去掉第二个注意力层结构。6.根据权利要求1所述的基于提示学习的医学文本分类方法,其特征在于,原始医学文本通过输入一个文本过滤器进行过滤;所述文本过滤器为一个采用ConvNeXt Tiny网络的二分类器,通过对医学文本进行句子级别的人工数据标注,将每句话标注为有效句子或无效句子,实现对文本过滤器的训练。7.根据权利要求1所述的基于提示学习的医学文...

【专利技术属性】
技术研发人员:俞洪宋姗姗吴子丰俞益洲李一鸣乔昕
申请(专利权)人:杭州深睿博联科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1