医学术语标准化模型的构建方法、装置、终端设备及介质制造方法及图纸

技术编号:37349137 阅读:17 留言:0更新日期:2023-04-22 21:46
本发明专利技术提供了一种医学术语标准化模型的构建方法、装置、终端设备及介质,涉及医疗数字数据处理技术领域,该方法包括根据预训练模型对标准化文本进行向量编码,获得第一数组;根据第一数组对待标准化文本的数据格式进行转换,获得第二数组;将第二数组输入联合模型结构中进行训练,获得医学术语标准化模型,联合模型结构包括多分类模块和排序模块,多分类模块用于预测标准化术语个数,排序模块用于对全量标准化文本进行排序,其中排序模块的标准化文本矩阵基于第一数组和预训练模型得到。本发明专利技术能够简化模型复杂度,大幅降低迭代成本,消除多段式分别建模引入的误差传递所带来的损失,极大地提升了标准化效果。极大地提升了标准化效果。极大地提升了标准化效果。

【技术实现步骤摘要】
医学术语标准化模型的构建方法、装置、终端设备及介质


[0001]本专利技术一般涉及医疗数字数据处理
,具体涉及一种医学术语标准化模型的构建方法、装置、终端设备及介质。

技术介绍

[0002]医学术语是指医学领域的专业用语,其可以用于表示疾病、药物、手术操作和检查检验等各种事物、现象以及过程。由于医学术语在临床信息系统表达医学信息时不可或缺,而各医院在实际使用过程中又具有差异性,这会造成同一个含义的医学术语表述多样化,为后续病历数据分析等工作带来很大困难。
[0003]目前,相关技术主要通过召回配合排序的方法进行医学术语标准化,但该方法采用多段式分别建模会增加复杂度,迭代成本较高,同时对于特异性数据需要额外单独配置辅助模型进行标准化术语个数的预测,并且多模型级联效应还会大幅降低标准化效果。

技术实现思路

[0004]鉴于相关技术中的上述缺陷或不足,期望提供一种医学术语标准化模型的构建方法、装置、终端设备及介质,能够简化模型复杂度,降低迭代成本,同时提升标准化效果。
[0005]第一方面,本专利技术提供一种医学术语标准化模型的构建方法,所述方法包括:获取标准化文本,并根据预训练模型对所述标准化文本进行向量编码,获得第一数组;获取待标准化文本,并根据所述第一数组对所述待标准化文本的数据格式进行转换,获得第二数组;将所述第二数组输入联合模型结构中进行训练,获得医学术语标准化模型,所述联合模型结构包括多分类模块和排序模块,所述多分类模块用于预测标准化术语个数,所述排序模块用于对全量标准化文本进行排序,其中所述排序模块的标准化文本矩阵基于所述第一数组和所述预训练模型得到。
[0006]可选地,在本专利技术一些实施例中,所述获取标准化文本,并根据预训练模型对所述标准化文本进行向量编码,获得第一数组,包括:输入所述标准化文本至所述预训练模型,获得第一文本向量;分别输入所述标准化文本隶属的至少一个分类文本至所述预训练模型,获得第二文本向量;根据所述第一文本向量和所述第二文本向量各自对应的权重,对所述第一文本向量和所述第二文本向量进行权重平滑处理,获得标准化文本向量,所述第一数组包括所述标准化文本向量。
[0007]可选地,在本专利技术一些实施例中,所述分别输入所述标准化文本隶属的至少一个分类文本至所述预训练模型,获得第二文本向量,包括:将各所述分类文本对应的分类文本向量合并进行平滑操作,获得所述第二文本向
量。
[0008]可选地,在本专利技术一些实施例中,所述多分类模块还用于根据所述预训练模型对所述第二数组进行向量化,并将向量输入所述多分类模块的编码层,经过所述多分类模块的输出层输出预测结果。
[0009]可选地,在本专利技术一些实施例中,所述排序模块包括第一子结构、第二子结构和第三子结构;所述第一子结构用于将所述标准化文本矩阵输入所述第一子结构的解码层得到第一向量矩阵;所述第二子结构用于根据所述预训练模型对所述第二数组进行向量化,并将向量输入所述第二子结构的解码层,经过所述第二子结构的向量扩展层得到与所述第一向量矩阵维度相同的第二向量矩阵;所述第三子结构用于将所述第一向量矩阵、所述第二向量矩阵以及所述第一向量矩阵与所述第二向量矩阵差值的绝对值进行合并,并经过所述第三子结构的输出层输出排序结果。
[0010]可选地,在本专利技术一些实施例中,所述联合模型结构的损失值根据所述多分类模块的损失值和权重以及所述排序模块的损失值和权重进行融合获得。
[0011]可选地,在本专利技术一些实施例中,所述将所述第二数组输入联合模型结构中进行训练,获得医学术语标准化模型,所述联合模型结构包括多分类模块和排序模块,还包括:输入所述待标准化文本至所述联合模型结构,获得所述多分类模块预测的所述标准化术语个数;所述排序模块根据所述标准化术语个数和所述第一数组,获得所述待标准化文本对应的正确标准化结果。
[0012]第二方面,本专利技术提供一种医学术语标准化模型的构建装置,所述装置包括:向量编码单元,用于获取标准化文本,并根据预训练模型对所述标准化文本进行向量编码,获得第一数组;格式转换单元,用于获取待标准化文本,并根据所述第一数组对所述待标准化文本的数据格式进行转换,获得第二数组;模型训练单元,用于将所述第二数组输入联合模型结构中进行训练,获得医学术语标准化模型,所述联合模型结构包括多分类模块和排序模块,所述多分类模块用于预测标准化术语个数,所述排序模块用于对全量标准化文本进行排序,其中所述排序模块的标准化文本矩阵基于所述第一数组和所述预训练模型得到。
[0013]第三方面,本专利技术提供一种终端设备,所述终端设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述指令、所述程序、所述代码集或所述指令集由所述处理器加载并执行以实现第一方面中任意一项所述的医学术语标准化模型的构建方法的步骤。
[0014]第四方面,本专利技术提供一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现第一方面中任意一项所述的医学术语标准化模型的构建方法的步骤。
[0015]从以上技术方案可以看出,本专利技术实施例具有以下优点:本专利技术实施例提供了一种医学术语标准化模型的构建方法、装置、终端设备及介质,该构建方法通过对联合模型结构中的多分类模块和排序模块进行一体式训练,无需额
外单独配置,进而实现了端到端建模,不仅能够简化模型复杂度,大幅降低迭代成本,还能够消除多段式分别建模引入的误差传递所带来的损失,极大地提升了标准化效果。
附图说明
[0016]通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本专利技术的其它特征、目的和优点将会变得更明显:图1为本专利技术实施例提供的一种医学术语标准化模型的构建方法的流程示意图;图2为本专利技术实施例提供的一种向量编码流程示意图;图3为本专利技术实施例提供的一种联合模型结构的示意图;图4为本专利技术实施例提供的一种联合模型推理的示意图;图5为本专利技术实施例提供的一种医学术语标准化模型的构建装置的结构示意图;图6为本专利技术实施例提供的另一种医学术语标准化模型的构建装置的结构示意图。
具体实施方式
[0017]为了使本
的人员更好地理解本专利技术方案,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本专利技术保护的范围。
[0018]本专利技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便描述的本专利技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施。
[0019]此外,术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种医学术语标准化模型的构建方法,其特征在于,所述方法包括:获取标准化文本,并根据预训练模型对所述标准化文本进行向量编码,获得第一数组;获取待标准化文本,并根据所述第一数组对所述待标准化文本的数据格式进行转换,获得第二数组;将所述第二数组输入联合模型结构中进行训练,获得医学术语标准化模型,所述联合模型结构包括多分类模块和排序模块,所述多分类模块用于预测标准化术语个数,所述排序模块用于对全量标准化文本进行排序,其中所述排序模块的标准化文本矩阵基于所述第一数组和所述预训练模型得到。2.根据权利要求1所述的构建方法,其特征在于,所述获取标准化文本,并根据预训练模型对所述标准化文本进行向量编码,获得第一数组,包括:输入所述标准化文本至所述预训练模型,获得第一文本向量;分别输入所述标准化文本隶属的至少一个分类文本至所述预训练模型,获得第二文本向量;根据所述第一文本向量和所述第二文本向量各自对应的权重,对所述第一文本向量和所述第二文本向量进行权重平滑处理,获得标准化文本向量,所述第一数组包括所述标准化文本向量。3.根据权利要求2所述的构建方法,其特征在于,所述分别输入所述标准化文本隶属的至少一个分类文本至所述预训练模型,获得第二文本向量,包括:将各所述分类文本对应的分类文本向量合并进行平滑操作,获得所述第二文本向量。4.根据权利要求1至3中任意一项所述的构建方法,其特征在于,所述多分类模块还用于根据所述预训练模型对所述第二数组进行向量化,并将向量输入所述多分类模块的编码层,经过所述多分类模块的输出层输出预测结果。5.根据权利要求4所述的构建方法,其特征在于,所述排序模块包括第一子结构、第二子结构和第三子结构;所述第一子结构用于将所述标准化文本矩阵输入所述第一子结构的解码层得到第一向量矩阵;所述第二子结构用于根据所述预训练模型对所述第二数组进行向量化,并将向量输入所述第二子结构的解码层,经过所述第二子结构的向量扩展层得到与所述第一向量矩阵维度相同的第二向量矩阵;所...

【专利技术属性】
技术研发人员:余亚雄栗晓华张超
申请(专利权)人:北京左医科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1