一种医疗专业名词分类模型训练方法、分类方法及装置制造方法及图纸

技术编号：37724133 阅读：15 留言：0更新日期：2023-06-02 00:26

本发明专利技术公开了一种医疗专业名词分类模型训练方法、分类方法及装置。所述医疗专业名词分类模型训练方法包括：获取数据库中各医疗专业名词及预先确定的医疗专业名词对应的类型标签，作为第一类型标签；将各医疗专业名词输入至使用孪生网络训练好的文本向量化模型进行特征提取，得到各医疗专业名词对应的特征向量，作为第一特征向量；根据各医疗专业名词对应的第一特征向量和第一类型标签生成训练样本，并将训练样本输入至预搭建的分类模型进行训练，将训练得到的模型作为第一医疗专业名词分类模型。本发明专利技术能够提高对医疗专业名词进行分类的效率和准确率。分类的效率和准确率。分类的效率和准确率。

全部详细技术资料下载

【技术实现步骤摘要】
一种医疗专业名词分类模型训练方法、分类方法及装置

[0001]本专利技术涉及医保风控领域，特别涉及一种医疗专业名词分类模型训练方法、分类方法及装置。

技术介绍

[0002]医疗专业名词是医保风控数据中的重要线索来源，标准化处理的医疗专业名词提升了数据的价值。
[0003]在医疗专业名词标准化的过程中，包含对原始医保数据涉及到的医疗专业名词进行提取和分类的步骤。对于分类的步骤来说，由于不同数据来源的复杂性和差异性，导致原始医保数据对部分同一医疗专业名词可能划归于不同的细化分类之中，现有技术中主要依靠人工校对的方式对医疗专业名词进行分类得到这种细化分类，人工处理的方式容易将医疗专业名词进行错误的分类，效率较低且准确率不高，并且，对于医疗专业名词的标准化处理过程如果直接使用原始医保数据的类型，由于类型种类太多，也会拉低医疗专业名词的标准化整体效率。
[0004]基于此，如何实现高效地将医疗专业名词准确分类是一项亟待解决的问题，并且对实现医疗专业名词标准化和医疗资源共享具有十分重要的意义。

技术实现思路

[0005]本专利技术的专利技术人发现，现有技术中，依赖手工校对和手工补充的方式很难高效地对非标准医疗专业名词或者标准医疗专业名词进行分类，并且消耗大量人力，效率低。
[0006]鉴于上述问题，专利技术人提出了本专利技术以便提供一种克服上述问题或者至少部分地解决上述问题的一种医疗专业名词分类模型训练方法、分类方法及装置。
[0007]第一方面，本专利技术实施例提供一种医疗专业名...

【技术保护点】

【技术特征摘要】
1.一种医疗专业名词分类模型训练方法，其特征在于，包括：获取数据库中各医疗专业名词及预先确定的医疗专业名词对应的类型标签，作为第一类型标签；将所述各医疗专业名词输入至使用孪生网络训练好的文本向量化模型进行特征提取，得到所述各医疗专业名词对应的特征向量，作为第一特征向量；根据所述各医疗专业名词对应的所述第一特征向量和所述第一类型标签生成训练样本，并将所述训练样本输入至预搭建的分类模型进行训练，将训练得到的模型作为第一医疗专业名词分类模型。2.如权利要求1所述的方法，其特征在于，所述分类模型为XGBoost模型或者随机森林模型。3.如权利要求1所述的方法，其特征在于，所述孪生网络为SBERT模型。4.一种医疗专业名词分类的方法，其特征在于，包括：获取待分类的医疗专业名词；将所述待分类的医疗专业名词送入至使用孪生网络训练好的文本向量化模型进行特征提取，得到所述待分类的医疗专业名词对应的特征向量，作为第二特征向量；将所述第二特征向量输入至第一医疗专业名词分类模型进行分类识别，得到第二类型标签，将所述第二类型标签作为所述待分类的医疗专业名词的类型结果；其中，所述第二类型标签用于表征所述待分类的医疗专业名词所属的类型信息；所述第一医疗专业名词分类模型是通过如权利要求1
‑
3任一所述的医疗专业名词分类模型训练方法得到的。5.如权利要求4所述的方法，其特征在于，还包括：获取原始数据中所述待分类的医疗专业名词对应的类型信息，作为原始类型信息；则相应地，在所述得到第二类型标签的步骤之后，还包括：判断所述第二类型标签表征的类型信息，与所述原始类型信息是否一致；若不一致，则将原始类型标签与所述第二特征向量进行向量拼接，得到拼接向量；其中，所述原始类型标签为所述原始类型信息对应的类型标签；将所述拼接向量输入至第二医疗专业名词分类模型进行分类识别，得到第三类型标签，将所述第三类型标签作为所述待分类的医疗专业名词的类型结果；其中，所述第二医疗专业名词分类模型是根据医疗专业名词和对应的类型信息组合后作为样本训练得到的。6.如权利要求5所述的方法，其特征在于，在所述判断所述第二类型标签表征的类型信息，与所述原始类型信息是否一致之前，还包括：若所述原始类型信息与所述第二类型标签表征的类型信息对应的分类规则不同，根据预先建立的原始类型信息与...

【专利技术属性】
技术研发人员：赵礼悦，李格，
申请(专利权)人：北京亚信数据有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人