医学术语标准化模型的构建方法、装置、终端设备及介质制造方法及图纸

技术编号：37349137 阅读：17 留言：0更新日期：2023-04-22 21:46

本发明专利技术提供了一种医学术语标准化模型的构建方法、装置、终端设备及介质，涉及医疗数字数据处理技术领域，该方法包括根据预训练模型对标准化文本进行向量编码，获得第一数组；根据第一数组对待标准化文本的数据格式进行转换，获得第二数组；将第二数组输入联合模型结构中进行训练，获得医学术语标准化模型，联合模型结构包括多分类模块和排序模块，多分类模块用于预测标准化术语个数，排序模块用于对全量标准化文本进行排序，其中排序模块的标准化文本矩阵基于第一数组和预训练模型得到。本发明专利技术能够简化模型复杂度，大幅降低迭代成本，消除多段式分别建模引入的误差传递所带来的损失，极大地提升了标准化效果。极大地提升了标准化效果。极大地提升了标准化效果。

全部详细技术资料下载

【技术实现步骤摘要】
医学术语标准化模型的构建方法、装置、终端设备及介质

[0001]本专利技术一般涉及医疗数字数据处理
，具体涉及一种医学术语标准化模型的构建方法、装置、终端设备及介质。

技术介绍

[0002]医学术语是指医学领域的专业用语，其可以用于表示疾病、药物、手术操作和检查检验等各种事物、现象以及过程。由于医学术语在临床信息系统表达医学信息时不可或缺，而各医院在实际使用过程中又具有差异性，这会造成同一个含义的医学术语表述多样化，为后续病历数据分析等工作带来很大困难。
[0003]目前，相关技术主要通过召回配合排序的方法进行医学术语标准化，但该方法采用多段式分别建模会增加复杂度，迭代成本较高，同时对于特异性数据需要额外单独配置辅助模型进行标准化术语个数的预测，并且多模型级联效应还会大幅降低标准化效果。

技术实现思路

[0004]鉴于相关技术中的上述缺陷或不足，期望提供一种医学术语标准化模型的构建方法、装置、终端设备及介质，能够简化模型复杂度，降低迭代成本，同时提升标准化效果。
[0005]第一方面，本专利技术提供一种医学术语标准化模型的构建方法，所述方法包括：获取标准化文本，并根据预训练模型对所述标准化文本进行向量编码，获得第一数组；获取待标准化文本，并根据所述第一数组对所述待标准化文本的数据格式进行转换，获得第二数组；将所述第二数组输入联合模型结构中进行训练，获得医学术语标准化模型，所述联合模型结构包括多分类模块和排序模块，所述多分类模块用于预测标准化术语个数，所述排序模块用于对全量标准化文...

【技术保护点】

【技术特征摘要】
1.一种医学术语标准化模型的构建方法，其特征在于，所述方法包括：获取标准化文本，并根据预训练模型对所述标准化文本进行向量编码，获得第一数组；获取待标准化文本，并根据所述第一数组对所述待标准化文本的数据格式进行转换，获得第二数组；将所述第二数组输入联合模型结构中进行训练，获得医学术语标准化模型，所述联合模型结构包括多分类模块和排序模块，所述多分类模块用于预测标准化术语个数，所述排序模块用于对全量标准化文本进行排序，其中所述排序模块的标准化文本矩阵基于所述第一数组和所述预训练模型得到。2.根据权利要求1所述的构建方法，其特征在于，所述获取标准化文本，并根据预训练模型对所述标准化文本进行向量编码，获得第一数组，包括：输入所述标准化文本至所述预训练模型，获得第一文本向量；分别输入所述标准化文本隶属的至少一个分类文本至所述预训练模型，获得第二文本向量；根据所述第一文本向量和所述第二文本向量各自对应的权重，对所述第一文本向量和所述第二文本向量进行权重平滑处理，获得标准化文本向量，所述第一数组包括所述标准化文本向量。3.根据权利要求2所述的构建方法，其特征在于，所述分别输入所述标准化文本隶属的至少一个分类文本至所述预训练模型，获得第二文本向量，包括：将各所述分类文本对应的分类文本向量合并进行平滑操作，获得所述第二文本向量。4.根据权利要求1至3中任意一项所述的构建方法，其特征在于，所述多分类模块还用于根据所述预训练模型对所述第二数组进行向量化，并将向量输入所述多分类模块的编码层，经过所述多分类模块的输出层输出预测结果。5.根据权利要求4所述的构建方法，其特征在于，所述排序模块包括第一子结构、第二子结构和第三子结构；所述第一子结构用于将所述标准化文本矩阵输入所述第一子结构的解码层得到第一向量矩阵；所述第二子结构用于根据所述预训练模型对所述第二数组进行向量化，并将向量输入所述第二子结构的解码层，经过所述第二子结构的向量扩展层得到与所述第一向量矩阵维度相同的第二向量矩阵；所...

【专利技术属性】
技术研发人员：余亚雄，栗晓华，张超，
申请(专利权)人：北京左医科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人