【技术实现步骤摘要】
医疗文本分类方法、装置、电子设备及存储介质
[0001]本公开涉及一种医疗文本分类方法、装置、电子设备以及可读存储介质。
技术介绍
[0002]文本分类的相关技术已经取得了很大进展,但是在医疗领域中,文本分类任务与普通场景下的文本分类任务有一定区别,主要表现为两点,一是医疗领域专业性较强,含有大量的医学专业名称,二是类别不均衡的问题,类别不均衡导致模型在学习过程中严重倾向于多数类,无法学习到少数类别的特征。预训练语言模型BERT经过大量词汇训练集的训练,学习到大量语言、句法、语义信息,如何将BERT通过微调技术迁移到医疗行业应用领域,以解决医疗文本领域的语言术语特性带来的问题以及类别不均衡问题,使医疗文本分类重点研究方向。
技术实现思路
[0003]为了解决上述技术问题中的至少一个,本公开提供一种医疗文本分类方法、装置、电子设备及可读存储介质。
[0004]根据本公开的一个方面,提供一种医疗文本分类方法,包括:
[0005]将待分类文本通过词向量映射,生成词向量;
[0006]将所述词 ...
【技术保护点】
【技术特征摘要】
1.一种医疗文本分类方法,其特征在于,包括:将待分类文本通过词向量映射,生成词向量;将所述词向量输入文本卷积神经网络进行特征提取,生成特征向量;以及将所述特征向量通过分类器进行分类,生成待分类文本的类别。2.根据权利要求1所述的医疗文本分类方法,其特征在于,将待分类文本通过词向量映射,生成词向量,包括:将待分类文本输入医疗语言模型,生成词向量。3.根据权利要求2所述的医疗文本分类方法,其特征在于,所述医疗语言模型的构建方法包括:通过基础语言模型的权重初始化医疗语言模型的权重;以及将带掩码的训练语料输入医疗语言模型并训练模型。4.根据权利要求3所述的医疗文本分类方法,其特征在于,所述带掩码的训练语料包括:随机对训练语料中的一句话遮盖或替换其中部分文字后形成训练语料,所述遮盖或替换的文字通过上下文的理解进行预测。5.根据权利要求1所述的医疗文本分类方法,其特征在于,将所述词向量输入文本卷积神经网络进行特征提取,生成特征向量,包括:将词向量输入输入层,词向量表示为其中,X
i
表示句中第i个字的k维向量,符号表示拼接运算,X
1:n
为...
【专利技术属性】
技术研发人员:张萌,周玉,
申请(专利权)人:北京中科凡语科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。