文本分类方法、装置、电子设备及计算机可读存储介质制造方法及图纸

技术编号:38813114 阅读:23 留言:0更新日期:2023-09-15 19:52
本发明专利技术涉及医疗科技领域的人工智能技术,揭露一种基于比对学习及标签信息的文本分类方法,包括:利用预构建的文本分类模型将训练文本集中的每个训练文本转换为文本向量,及将每个训练文本对应的文本标签转换为标签向量,计算训练文本的文本向量与对应的文本标签的标签向量之间的第一损失值,计算标签向量之间的第二损失值,融合第一损失值及第二损失值,得到综合损失值,利用综合损失值调整预构建的文本分类模型的参数,直到综合损失值满足预设的训练条件时,利用训练好的文本分类模型对待分类文本进行分类。本发明专利技术还提出一种基于比对学习及标签信息的文本分类装置、电子设备及计算机可读存储介质。本发明专利技术可以提升医疗文本分类的准确性。类的准确性。类的准确性。

【技术实现步骤摘要】
文本分类方法、装置、电子设备及计算机可读存储介质


[0001]本专利技术涉及医疗科技领域的人工智能技术,尤其涉及一种基于比对学习及标签信息的文本分类方法、装置、电子设备及计算机可读存储介质。

技术介绍

[0002]随着深度学习技术的持续发展,深度学习技术在智慧医疗领域得到了广大的发展,尤其是在基于医疗文本信息的医疗分类场景中得到广泛的应用。例如,基于患者的症状描述、疾病历史信息等进行疾病诊断分类,基于医学文献、病历信息对病患进行分类以协助医生诊断和治疗决策。
[0003]在上述基于医疗文本进行分类的应用中,基于深度学习的方法可以自动地学习文本的特征表示,具有较高的准确率和泛化能力,在文本分类的应用场景中,较多地会引入分类标签信息,例如,肾脏、肺叶等病灶分类标签信息,呼吸科、心血管科等科室分类标签信息等。标签信息较多被作为分类索引而使用,往往忽略了分类标签本身的文本信息,以及多个分类标签之间的差异和分类标签与分类文本之间差异,因此,传统的基于标签的深度学习的文本分类的准确性有待进一步的提升。

技术实现思路
/>[0004]本专本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于比对学习及标签信息的文本分类方法,其特征在于,所述方法包括:获取预先标注好文本标签的训练文本集,利用预构建的文本分类模型依次将所述训练文本集中的每个训练文本转换为文本向量,及将每个所述训练文本对应的文本标签转换为标签向量;依次计算每个所述训练文本的文本向量与所述训练文本对应的文本标签的标签向量之间的第一损失值,并计算每个所述标签向量之间的第二损失值,融合所述第一损失值及所述第二损失值,得到综合损失值;利用所述综合损失值调整所述预构建的文本分类模型的参数,并对参数调整后的文本分类模型进行迭代训练,直到所述综合损失值满足预设的训练条件时,得到训练好的文本分类模型及每个所述文本标签最近的标签向量;获取待分类文本,利用所述训练好的文本分类模型根据每个所述文本标签最近的标签向量对所述待分类文本进行分类。2.如权利要求1所述的基于比对学习及标签信息的文本分类方法,其特征在于,所述利用预构建的文本分类模型依次将所述训练文本集中的每个训练文本转换为文本向量,包括:将所述训练文本集中的每个训练文本进行分词处理,得到每个所述训练文本对应的分词集;从所述分词集中逐个选取其中一个分词作为目标分词,统计所述目标分词和所述目标分词的相邻分词在所述目标分词的预设邻域范围内共同出现的共现次数;利用每个所述分词对应的共现次数构建共现矩阵;利用所述预构建的文本分类模型分别将每个所述训练文本对应的分词转换为词向量,将所述词向量拼接为向量矩阵;利用所述共现矩阵和所述向量矩阵进行乘积运算,得到每个所述训练文本对应的文本向量。3.如权利要求1所述的基于比对学习及标签信息的文本分类方法,其特征在于,所述依次计算每个所述训练文本的文本向量与所述训练文本对应的文本标签的标签向量之间的第一损失值,包括:利用如下第一损失函数计算计算每个所述训练文本的文本向量与所述训练文本对应的文本标签的标签向量之间的第一损失值:其中,Loss1表示所述第一损失值,h
i
表示所述训练文本集中第i个文本的文本向量,l
i
表示所述第i个文本对应的文本标签的标签向量,sim(h
i
,l
i
)表示h
i
与l
i
之间的余弦相似度,l
j
表示第j个文本对应的文本标签的标签向量,N表示所述预设的文本标签集中的文本标签的个数,sim(h
i
,l
i
)表示h
i
与l
j
之间的余弦相似度,τ为温度系数。4.如权利要求1所述的基于比对学习及标签信息的文本分类方法,其特征在于,所述计算每个所述标签向量之间的第二损失值,包括:利用如下第二损失函数计算每个所述标签向量之间的第二损失值:
其中,Loss2表示所述第二损失值,i和j分别表示所述预设的文本标签集中第i个文本标签和第j个文本标签,且i不等于j,l
...

【专利技术属性】
技术研发人员:刘羲马英宁舒畅陈又新
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1