【技术实现步骤摘要】
基于TextCNN的医疗文本特征提取方法及装置
[0001]本公开涉及一种基于TextCNN的医疗文本特征提取方法、装置、电子设备以及可读存储介质。
技术介绍
[0002]文本分类的相关技术已经取得了很大进展,但是在医疗领域中,文本分类任务与普通场景下的文本分类任务有一定区别,一是医疗领域专业性较强,含有大量的医学专业名称,二是医疗领域中的文本存在类别不均衡的问题,类别不均衡导致模型在学习过程中严重倾向于多数类,无法学习到少数类别的特征。而文本特征特征提取会影响文本分类效果,医疗文本由于其领域特殊性,医疗文本的特征提取同样会影响医疗文本分类效果。
技术实现思路
[0003]为了解决上述技术问题中的至少一个,本公开提供一种基于TextCNN的医疗文本特征提取方法、装置、电子设备及可读存储介质。
[0004]根据本公开的一个方面,提供一种基于TextCNN的医疗文本特征提取方法,包括:
[0005]将医疗文本转化为向量;
[0006]将医疗文本转化的向量输入TextCNN输入层,经Text ...
【技术保护点】
【技术特征摘要】
1.一种基于TextCNN的医疗文本特征提取方法,其特征在于,包括:将医疗文本转化为向量;将医疗文本转化的向量输入TextCNN输入层,经TextCNN输入层处理后输出至TextCNN卷积层;TextCNN卷积层对输入层的输出结果进行卷积操作,得到文本特征,并将文本特征输出至池化层;以及TextCNN池化层提取文本特征中的最大值,以获得医疗文本特征。2.根据权利要求1所述的基于TextCNN的医疗文本特征提取方法,其特征在于,将医疗文本转化为向量,包括:将包含n个字的文本拆分为n个字;对于各个字,用k维向量表示,其中,k表示大于1的自然数;以及将表示各个字的k维向量表示拼接,拼接后的向量为表示文本的向量,所述表示文本的向量为n*k维矩阵。3.根据权利要求1所述的基于TextCNN的医疗文本特征提取方法,其特征在于,所述卷积层的卷积核为多个一维卷积核。4.根据权利要求1所述的基于TextCNN的医疗文本特征提取方法,其特征在于,所述卷积层的卷积操作的公式为c
i
=f(w
·
x
i:i+h
‑1+b),其中Ci表示卷积操作后的特征矩阵,f为非线性函数,为卷积核,b为偏置项,X
i:i+h
‑1为卷积层输出特征。5.一种医疗文本特征提取装置,其特征在于,包括:文本向量转化模块,将医疗文本转化为向量;卷积模块,将医疗文本转化的向量输入TextCNN输入层,...
【专利技术属性】
技术研发人员:张萌,周玉,
申请(专利权)人:北京中科凡语科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。