【技术实现步骤摘要】
本专利技术属于计算机应用,涉及一种基于知识蒸馏和上下文屏蔽窗口的命名实体识别方法。
技术介绍
1、生物医学信息学已经应用于生物医学和临床数据分析的许多领域,其中命名实体识别(ner)技术被广泛应用于医学文本分析中,将句子中提到的命名实体分类到一些预定义的类别中,如疾病、症状等。命名实体识别是自然语言处理(nlp)的基础任务,通常作为信息提取工具嵌入到临床决策和医疗问题回答系统等许多后续任务中。因此,ner模型对生物医学和临床文本分析至关重要,提供更深层次的文本理解和分析能力,为智能医疗应用提供重要支持。
2、鉴于其重要性,学者们对认知深度的研究主要集中在两个方向。一个有效的方向是通过使用更复杂的模型体系结构来提高ner的性能,例如bert、roberta、gpt3和其他基于transformer体系结构的预先训练的模型。这些模型通过注意机制来理解和注意句子中不同成分的重要性,并分析语境的内容,这对认知者任务至关重要。然而,该方向的一个重要缺陷是它对环境的要求很高,而高昂的计算成本限制了它对不同医疗场景的可扩展性和适应性。另一
...【技术保护点】
1.一种基于知识蒸馏和上下文屏蔽窗口的命名实体识别方法,其特征在于:该方法具体包括以下步骤:
2.如权利要求1所述一种基于知识蒸馏和上下文屏蔽窗口的命名实体识别方法,其特征在于:使用两个大小不同的Roberta预训练模型分别作为教师模型和学生模型。
3.如权利要求1或2所述一种基于知识蒸馏和上下文屏蔽窗口的命名实体识别方法,其特征在于:所述教师模型采用roberta_zh_large_pytorch预训练模型,学生模型采用hfl/chinese-roberta-wwm-ext预训练模型。
4.如权利要求1所述一种基于知识蒸馏和上下文
...【技术特征摘要】
1.一种基于知识蒸馏和上下文屏蔽窗口的命名实体识别方法,其特征在于:该方法具体包括以下步骤:
2.如权利要求1所述一种基于知识蒸馏和上下文屏蔽窗口的命名实体识别方法,其特征在于:使用两个大小不同的roberta预训练模型分别作为教师模型和学生模型。
3.如权利要求1或2所述一种基于知识蒸馏和上下文屏蔽窗口的命名实体识别方法,其特征在于:所述教师模型采用roberta_zh_large_pytorch预训练模型,学生模型采用hfl/chinese-roberta-wwm-ext预训练模型。
4.如权利要求1所述一种基于知识蒸馏和上下文屏蔽窗口的命名实体识别方法,其特征在于:设置句子最大长度阈值,当输入模型的句子长度超过句子...
【专利技术属性】
技术研发人员:张蕾,纪好,张丽娟,翟正伟,万健,黄杰,陈芳妮,王海江,徐文建,
申请(专利权)人:浙江科技学院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。