一种儿童医疗文本数据分类方法技术

技术编号：42955874 阅读：32 留言：0更新日期：2024-10-11 16:13

本发明专利技术公开了一种儿童医疗文本数据分类方法，包括：(1)获取儿童医疗文本数据，标注得到层级多标签文本；(2)处理得到医疗文本、正样本标签文本、负样本标签文本，构建三元组数据集；(3)构建三塔模型，三塔模型包括三个编码器模块、一个标签召回模块和一个标签排序模块；(4)基于三元组数据集训练三塔模型；(5)使用训练完的三塔模型，分别对层级多标签文本中的父类标签文本和子类标签文本进行处理，将得到特征向量保存至离线特征向量库中；(6)针对待预测儿童医疗文本，使用三塔模型进行处理，再结合离线特征向量库，预测获取相似度高于阈值的top‑k预测标签。本发明专利技术可以大大提高儿童医疗文本到标签的匹配效率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于医疗数据处理分类领域，尤其是涉及一种儿童医疗文本数据分类方法。

技术介绍

1、儿童医疗数据分类分级是根据医疗数据的特征、敏感性、价值等因素，将医疗数据划分为不同类别和等级，以便对医疗数据进行有效的管理。在医疗场景中医疗文本数据具有数据量庞大，数据异构繁杂，具有多层级类别的特点，将医疗数据划分为不同的类别，对于提高医疗数据的安全性，促进医疗数据的有效利用，实现医疗数据资产化都有重要意义。

2、多标签文本分类旨在从预定义的候选标签集合中选择一个或多个文本对应的类别，是自已语言处理的一项基础任务，层级的标签是以预定的层级结构存储，目前的多标签分类方法中仍存在结合多个模型对一个数据集进行训练和预测，在训练模型以及推理过程中标签排序时静态采样负样本，这种方法会消耗大量的计算资源，同时由于静态采样负样本使得模型在标签排序时只关注少量的负样本标签，使得模型难以收敛。

3、公开号为cn111403028a的中国专利文献公开了一种医疗文本方法及装置、储存介质，电子设备，根据医学特征属性针对待分类医疗文本的注意力值对待...

【技术保护点】

1.一种儿童医疗文本数据分类方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的儿童医疗文本数据分类方法，其特征在于，步骤(3)中，所述的编码器模块包括基于transformer的Bert编码层、矩阵分解部分和池化层；

3.根据权利要求2所述的儿童医疗文本数据分类方法，其特征在于，Bert编码层的每一层均包含一个encoder单元，每个encoder单元由多头注意力机制模块、前馈层、跨层标准化层叠加构成；

4.根据权利要求1所述的儿童医疗文本数据分类方法，其特征在于，步骤(3)中，标签召回模块包括第一相似度度量模块和动态样本采样模块；

...

【技术特征摘要】

1.一种儿童医疗文本数据分类方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的儿童医疗文本数据分类方法，其特征在于，步骤(3)中，所述的编码器模块包括基于transformer的bert编码层、矩阵分解部分和池化层；

3.根据权利要求2所述的儿童医疗文本数据分类方法，其特征在于，bert编码层的每一层均包含一个encoder单元，每个encoder单元由多头注意力机制模块、前馈层、跨层标准化层叠加构成；

4.根据权利要求1所述的儿童医疗文本数据分类方法，其特征在于，步骤(3)中，标签召回模块包...

【专利技术属性】
技术研发人员：李竞，齐国强，俞刚，花明峰，姚文博，
申请(专利权)人：浙江大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人