医疗文本分类方法、装置、电子设备及存储介质制造方法及图纸

技术编号:32224659 阅读:23 留言:0更新日期:2022-02-09 17:29
本公开提供了一种医疗文本分类方法,包括:将待分类文本表示为医疗实体关系模型;利用图神经网络生成医疗实体关系模型中的实体的实体表征,实体表征包含上下文信息;将实体表征进行池化,生成待分类文本的向量表示;以及通过KNN算法对向量表示的待分类文本进行分类,生成待分类文本的类别。本公开还提供了一种医疗文本分类装置、电子设备以及可读存储介质。质。质。

【技术实现步骤摘要】
医疗文本分类方法、装置、电子设备及存储介质


[0001]本公开涉及一种医疗文本分类方法、装置、电子设备以及可读存储介质,属于文本分类


技术介绍

[0002]文本分类的相关技术已经取得了很大进展,但是在医疗领域中,文本分类任务与普通场景下的文本分类任务有一定区别,主要表现为医疗领域专业性较强,含有大量的医学专业名称,并且医学文本的语言特征与普通文本也有较大差异。对应的,基于医疗文本提取医疗实体及实体关系图,进而基于医疗实体及实体关系进行医疗文本分类,对于医疗文本分类的准确性有较大影响。医疗领域中的文本分类任务除了特有的专业性挑战外,还有类别不均衡的问题,是困扰医疗文本分类准确性的关键,类别不均衡导致模型在学习过程中严重倾向于多数类,无法学习到少数类别的特征。因此,如何基于医疗实体及医疗实体关系,解决医疗文本领域的语言术语特性带来的问题以及类别不均衡问题,是提高医疗文本分类性能的关键所在。

技术实现思路

[0003]为了解决上述技术问题中的至少一个,本公开提供一种医疗文本分类方法、装置、电子设备及可读存储介质。
[本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种医疗文本分类方法,其特征在于,包括:将待分类文本表示为医疗实体关系模型;利用图神经网络生成医疗实体关系模型中的实体的实体表征,所述实体表征包含上下文信息;将所述实体表征进行池化,生成待分类文本的向量表示;以及通过KNN算法对向量表示的待分类文本进行分类,生成待分类文本的类别。2.根据权利要求1所述的医疗文本分类方法,其特征在于,所述医疗实体关系模型,包括:医疗属性节点、治疗属性节点、检查属性节点、症状属性节点以及实体节点,所述实体节点与实体节点对应的属性节点连接。3.根据权利要求1所述的医疗文本分类方法,其特征在于,所述将待分类文本表示为医疗实体关系模型,包括:提取待分类文本包含的实体;确定所述实体的属性类型;以及将所述实体与属性类型建立关联关系。4.根据权利要求1所述的医疗文本分类方法,其特征在于,利用图神经网络生成医疗实体关系模型中的实体表征,包括:令G={V,E,LV,TV,LE}表示文本构建成的有向图,V表示所有节点的集合,每个节点v都用一个节点类别tv和节点标签lv表示,xv表示节点v的特征,E为边集合,每个边e=(yi,vi)有一个边标签Le关联节点关系解释说明,对集合中的每个节点V都用节点类别和节点标签表示;对每一个节点v进行上下文表示hv,通过多次迭代后获得,每一次迭代操作通过聚合和合并操作进行。5.根据权利要求1所述的医疗文本分类方法,其特征在于,通过KNN算法对向量表示的待分类文本分类,包括通过cos

whitening方法计算向量之间的相似度,所述cos

whitening方法通过将待分类文本向量变换后再进行KNN分类,所述变换将待分类文本向量的均值变换为0,协方差矩阵变换为单位矩阵,假设有M个文本向量,每个待分类文本向量xi表示为x<...

【专利技术属性】
技术研发人员:张萌周玉
申请(专利权)人:北京中科凡语科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1