一种医疗专业名词分类模型训练方法、分类方法及装置制造方法及图纸

技术编号:37724133 阅读:15 留言:0更新日期:2023-06-02 00:26
本发明专利技术公开了一种医疗专业名词分类模型训练方法、分类方法及装置。所述医疗专业名词分类模型训练方法包括:获取数据库中各医疗专业名词及预先确定的医疗专业名词对应的类型标签,作为第一类型标签;将各医疗专业名词输入至使用孪生网络训练好的文本向量化模型进行特征提取,得到各医疗专业名词对应的特征向量,作为第一特征向量;根据各医疗专业名词对应的第一特征向量和第一类型标签生成训练样本,并将训练样本输入至预搭建的分类模型进行训练,将训练得到的模型作为第一医疗专业名词分类模型。本发明专利技术能够提高对医疗专业名词进行分类的效率和准确率。分类的效率和准确率。分类的效率和准确率。

【技术实现步骤摘要】
一种医疗专业名词分类模型训练方法、分类方法及装置


[0001]本专利技术涉及医保风控领域,特别涉及一种医疗专业名词分类模型训练方法、分类方法及装置。

技术介绍

[0002]医疗专业名词是医保风控数据中的重要线索来源,标准化处理的医疗专业名词提升了数据的价值。
[0003]在医疗专业名词标准化的过程中,包含对原始医保数据涉及到的医疗专业名词进行提取和分类的步骤。对于分类的步骤来说,由于不同数据来源的复杂性和差异性,导致原始医保数据对部分同一医疗专业名词可能划归于不同的细化分类之中,现有技术中主要依靠人工校对的方式对医疗专业名词进行分类得到这种细化分类,人工处理的方式容易将医疗专业名词进行错误的分类,效率较低且准确率不高,并且,对于医疗专业名词的标准化处理过程如果直接使用原始医保数据的类型,由于类型种类太多,也会拉低医疗专业名词的标准化整体效率。
[0004]基于此,如何实现高效地将医疗专业名词准确分类是一项亟待解决的问题,并且对实现医疗专业名词标准化和医疗资源共享具有十分重要的意义。

技术实现思路

[0005]本专利技术的专利技术人发现,现有技术中,依赖手工校对和手工补充的方式很难高效地对非标准医疗专业名词或者标准医疗专业名词进行分类,并且消耗大量人力,效率低。
[0006]鉴于上述问题,专利技术人提出了本专利技术以便提供一种克服上述问题或者至少部分地解决上述问题的一种医疗专业名词分类模型训练方法、分类方法及装置。
[0007]第一方面,本专利技术实施例提供一种医疗专业名词分类模型训练方法,包括:获取数据库中各医疗专业名词及预先确定的医疗专业名词对应的类型标签,作为第一类型标签;将所述各医疗专业名词输入至使用孪生网络训练好的文本向量化模型进行特征提取,得到所述各医疗专业名词对应的特征向量,作为第一特征向量;根据所述各医疗专业名词对应的所述第一特征向量和所述第一类型标签生成训练样本,并将所述训练样本输入至预搭建的分类模型进行训练,将训练得到的模型作为第一医疗专业名词分类模型。
[0008]在一个实施例中,所述分类模型为XGBoost模型或者随机森林模型。
[0009]在一个实施例中,所述孪生网络为SBERT模型。
[0010]第二方面,本专利技术实施例提供一种医疗专业名词分类的方法,包括:获取待分类的医疗专业名词;将所述待分类的医疗专业名词送入至使用孪生网络训练好的文本向量化模型进行特征提取,得到所述待分类的医疗专业名词对应的特征向量,作为第二特征向量;
将所述第二特征向量输入至第一医疗专业名词分类模型进行分类识别,得到第二类型标签,将所述第二类型标签作为所述待分类的医疗专业名词的类型结果;其中,所述第二类型标签用于表征所述待分类的医疗专业名词所属的类型信息;所述第一医疗专业名词分类模型是通过如前所述的医疗专业名词分类模型训练方法得到的。
[0011]在一个实施例中,还包括:获取原始数据中所述待分类的医疗专业名词对应的类型信息,作为原始类型信息;则相应地,在所述得到第二类型标签的步骤之后,还包括:判断所述第二类型标签表征的类型信息,与所述原始类型信息是否一致;若不一致,则将原始类型标签与所述第二特征向量进行向量拼接,得到拼接向量;其中,所述原始类型标签为所述原始类型信息对应的类型标签;将所述拼接向量输入至第二医疗专业名词分类模型进行分类识别,得到第三类型标签,将所述第三类型标签作为所述待分类的医疗专业名词的类型结果;其中,所述第二医疗专业名词分类模型是根据医疗专业名词和对应的类型信息组合后作为样本训练得到的。
[0012]在一个实施例中,在所述判断所述第二类型标签表征的类型信息,与所述原始类型信息是否一致之前,还包括:若所述原始类型信息与所述第二类型标签表征的类型信息对应的分类规则不同,根据预先建立的原始类型信息与第二类型标签之间的映射关系,确定所述原始类型信息映射后对应的类型信息,作为第四类型标签;则相应地,所述判断所述第二类型标签表征的类型信息,与所述原始类型信息是否一致,具体为:判断所述第四类型标签表征的类型信息,与所述原始类型信息映射后对应的类型信息是否一致。
[0013]第三方面,本专利技术实施例提供一种医疗专业名词分类模型训练装置,包括:第一获取模块:用于获取数据库中各医疗专业名词及预先确定的所述医疗专业名词对应的类型标签,作为第一类型标签;第一特征提取模块:用于将所述各医疗专业名词输入至使用孪生网络训练好的文本向量化模型进行特征提取,得到所述各医疗专业名词对应的特征向量,作为第一特征向量;训练模块:用于根据所述各医疗专业名词对应的所述第一特征向量和所述第一类型标签生成训练样本,并将所述训练样本输入至预搭建的分类模型进行训练,将训练得到的模型作为第一医疗专业名词分类模型。
[0014]第四方面,本专利技术实施例提供一种医疗专业名词分类的装置,包括:第二获取模块,用于获取待分类的医疗专业名词;第二特征提取模块,用于将所述待分类的医疗专业名词送入至使用孪生网络训练好的文本向量化模型进行特征提取,得到所述待分类的医疗专业名词对应的特征向量,作为第二特征向量;分类模块,用于将所述第二特征向量输入至第一医疗专业名词分类模型进行分类识别,得到第二类型标签,将所述第二类型标签作为所述待分类的医疗专业名词的类型结
果;其中,所述第二类型标签用于表征所述待分类的医疗专业名词所属的类型信息;所述第一医疗专业名词分类模型是通过如前所述的医疗专业名词分类模型训练方法得到的。
[0015]第五方面,本专利技术实施例提供一种计算机存储介质,计算机存储介质中存储有计算机可执行指令,所述计算机可执行指令被处理器执行时实现如前所述的医疗专业名词分类模型训练方法或如前所述的医疗专业名词分类的方法。
[0016]第六方面,本专利技术实施例提供一种电子设备,存储器、处理器及存储于存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如前所述的医疗专业名词分类模型训练方法或如前所述的医疗专业名词分类的方法。
[0017]本专利技术实施例提供的上述技术方案的有益效果至少包括:本专利技术实施例提供的医疗专业名词分类模型训练方法,包含对医疗专业名词的特征提取和分类的两个步骤,将提取出的各医疗专业名词以及与各医疗专业名词对应的第一类型标签,通过使用孪生网络训练好的文本向量化模型对各医疗专业名词进行向量提取,得到与各医疗专业名词对应的第一特征向量,相比现有技术中的向量提取的方式,由于采用孪生网络训练好的文本向量化模型进行向量提取,能够获得语义上有意义的文本向量,并且通过孪生网络训练好的文本向量化模型使用余弦相似度或曼哈顿距离等进行比较,从而找到语义相似的文本,可使得提取的特征向量能够更好地表征原有信息(医疗专业名词),并更好地学习特征向量与对应的类别之间的匹配关系,保证训练得到第一医疗专业名词分类模型更准确,克服了现有技术中使用人工方式对医疗专业名词进行分类带来的效率低下和准确不高的问题,提高了对医疗专业名词进行分类的效率和准确率,为后续医疗专业名词的标准化处理过程,提供了一个较好的数据本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种医疗专业名词分类模型训练方法,其特征在于,包括:获取数据库中各医疗专业名词及预先确定的医疗专业名词对应的类型标签,作为第一类型标签;将所述各医疗专业名词输入至使用孪生网络训练好的文本向量化模型进行特征提取,得到所述各医疗专业名词对应的特征向量,作为第一特征向量;根据所述各医疗专业名词对应的所述第一特征向量和所述第一类型标签生成训练样本,并将所述训练样本输入至预搭建的分类模型进行训练,将训练得到的模型作为第一医疗专业名词分类模型。2.如权利要求1所述的方法,其特征在于,所述分类模型为XGBoost模型或者随机森林模型。3.如权利要求1所述的方法,其特征在于,所述孪生网络为SBERT模型。4.一种医疗专业名词分类的方法,其特征在于,包括:获取待分类的医疗专业名词;将所述待分类的医疗专业名词送入至使用孪生网络训练好的文本向量化模型进行特征提取,得到所述待分类的医疗专业名词对应的特征向量,作为第二特征向量;将所述第二特征向量输入至第一医疗专业名词分类模型进行分类识别,得到第二类型标签,将所述第二类型标签作为所述待分类的医疗专业名词的类型结果;其中,所述第二类型标签用于表征所述待分类的医疗专业名词所属的类型信息;所述第一医疗专业名词分类模型是通过如权利要求1

3任一所述的医疗专业名词分类模型训练方法得到的。5.如权利要求4所述的方法,其特征在于,还包括:获取原始数据中所述待分类的医疗专业名词对应的类型信息,作为原始类型信息;则相应地,在所述得到第二类型标签的步骤之后,还包括:判断所述第二类型标签表征的类型信息,与所述原始类型信息是否一致;若不一致,则将原始类型标签与所述第二特征向量进行向量拼接,得到拼接向量;其中,所述原始类型标签为所述原始类型信息对应的类型标签;将所述拼接向量输入至第二医疗专业名词分类模型进行分类识别,得到第三类型标签,将所述第三类型标签作为所述待分类的医疗专业名词的类型结果;其中,所述第二医疗专业名词分类模型是根据医疗专业名词和对应的类型信息组合后作为样本训练得到的。6.如权利要求5所述的方法,其特征在于,在所述判断所述第二类型标签表征的类型信息,与所述原始类型信息是否一致之前,还包括:若所述原始类型信息与所述第二类型标签表征的类型信息对应的分类规则不同,根据预先建立的原始类型信息与...

【专利技术属性】
技术研发人员:赵礼悦李格
申请(专利权)人:北京亚信数据有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1