一种医学术语标准化框架的构建方法、装置、电子设备制造方法及图纸

技术编号:32834036 阅读:19 留言:0更新日期:2022-03-26 20:51
本申请实施例提供一种医学术语标准化框架的构建方法、装置、电子设备及存储介质,其中,该方法包括:获取医学术语原始数据;对医学术语原始数据进行分类,得到短术语类数据和长术语类数据;建立与短术语类数据对应的同义词库;建立与短术语类数据对应的变体规则库;根据长术语类数据建立召回模型和排序模型;根据同义词库、变体规则库、召回模型和排序模型构建医学术语标准化框架。实施本申请实施例,可以将医学术语转换为标准化的医学术语,通过迭代闭环使得医学术语的转换准确率得到提升。代闭环使得医学术语的转换准确率得到提升。代闭环使得医学术语的转换准确率得到提升。

【技术实现步骤摘要】
一种医学术语标准化框架的构建方法、装置、电子设备


[0001]本申请涉及医学术语信息处理
,具体而言,涉及一种医学术语标准化框架的构建方法、装置、电子设备及计算机可读存储介质。

技术介绍

[0002]传统医学术语标准化通常采用基于词表映射的方法,预先建立标准术语对应的同义词库,在标准化阶段通过查询同义词标得到标准词;或者使用模型方法进行标准化,即采用典型的召回+排序的方法进行标准化,在推断阶段先从标准化词库中根据相似度量得到候选,然后再对候选词进行排序得到最佳候选词,作为标准词。
[0003]然而这两种方法都存在一定弊端,基于词表映射的方法前期需要大量同义词的搜集,标准化效果完全由同义词的覆盖度决定,对于一些名称较长的术语,由于书写表现的多样性,很难通过前期的同义词搜集完成穷举,表现效果不佳,转化的准确率低下,基于召回+排序的方法前期需要大量的数据标注,且在某些复杂场景下效果并不能得到很好的保障。

技术实现思路

[0004]本申请实施例的目的在于提供一种医学术语标准化框架的构建方法、装置、电子设备及计算机可读存储介质,可以将医学术语转换为标准化的医学术语,使得医学术语的转换准确率得到提升。
[0005]第一方面,本申请实施例提供了一种医学术语标准化框架的构建方法,所述方法包括:
[0006]获取医学术语原始数据;
[0007]对所述医学术语原始数据进行分类,得到短术语类数据和长术语类数据;
[0008]建立与所述短术语类数据对应的同义词库;
[0009]建立与所述短术语类数据对应的变体规则库;
[0010]根据所述长术语类数据建立召回模型和排序模型;
[0011]根据所述同义词库、所述变体规则库、所述召回模型和所述排序模型构建医学术语标准化框架。
[0012]在上述实现过程中,通过对不同的医学术语类型建立不同的标准化规则,使得不同类型的医学术语可以通过适合的方法得到标准化的修正,保证了每一类医学术语都可以生成对应的标准化医学术语,使得医学术语的识别的准确率得到较高提升。
[0013]进一步地,所述建立与所述短术语类数据对应的同义词库的步骤,包括:
[0014]获取所述短术语类数据中的短术语;
[0015]提取所述短术语对应的同义词词频信息,根据所述同义词词频信息建立所述同义词库。
[0016]在上述实现过程中,通过短术语对应的同义词词频信息来建立同义词库,使得每个短术语都可以在同义词库中找到对应的标准化短术语,方便修正短术语,且提高准确率。
[0017]进一步地,所述根据所述同义词词频信息建立所述同义词库的步骤,包括:
[0018]根据所述同义词词频信息对短术语进行词表映射,得到所述同义词库。
[0019]在上述实现过程中,同义词词频信息可以反映短术语词的特征,将同义词词频信息作为置信依据可以提高短术语词转化为标准化的短术语词的准确率。
[0020]进一步地,所述建立与所述短术语类数据对应的变体规则库的步骤,包括:
[0021]获取变体规则;
[0022]根据所述变体规则对所述短术语进行变体纠错,得到变体规则库。
[0023]在上述实现过程中,变体纠错可以将短术语转换为标注化的短术语,保证每个短术语都可以表达出真实的医学信息。
[0024]进一步地,所述根据所述长术语类数据建立召回模型和排序模型的步骤,包括:
[0025]获取标准术语库和所述长术语类数据中的长术语;
[0026]根据所述标准术语库对所述长术语进行召回建模,得到召回模型;
[0027]根据所述召回模型对所述长术语与所述标准术语库中的标准术语进行匹配处理,得到候选标准术语;
[0028]根据所述候选标准术语和所述长术语对应的标准术语进行排序建模,得到排序模型。
[0029]在上述实现过程中,召回模型和排序模型可以将长术语转换为标准化的长术语,减少了人工转换的繁琐,节省资源,降低人力成本,同时使得长术语的标准化转换的准确率得到提高。
[0030]进一步地,所述根据所述标准术语库对所述长术语进行召回建模,得到召回模型的步骤,包括:
[0031]将所述长术语与所述标准术语库中的标准术语进行配对;
[0032]将配对后的所述长术语和所述标准术语输入机器学习模型进行训练,得到召回模型。
[0033]在上述实现过程中,将长术语与标准术语库中的标准术语进行配对可以提高召回模型转换长术语的准确率,使得召回模型更能适应医学长术语的标准化的转换特性。
[0034]进一步地,在所述根据所述候选标准术语和所述长术语对应的标准术语进行排序建模,得到排序模型的步骤之后,还包括:
[0035]根据所述排序模型对所述候选标准术语进行排序,得到排序后的候选标准术语。
[0036]在上述实现过程中,可以得到排序后的候选标准术语,便于后续对标准化的长术语的选取。
[0037]第二方面,本申请实施例还提供了一种医学术语标准化框架的构建装置,所述装置包括:
[0038]获取模块,用于获取医学术语原始数据;
[0039]分类模块,用于对所述医学术语原始数据进行分类,得到短术语类数据和长术语类数据;
[0040]同义词库建立模块,用于建立与所述短术语类数据对应的同义词库;
[0041]变体规则库建立模块,用于建立与所述短术语类数据对应的变体规则库;
[0042]模型建立模块,用于根据所述长术语类数据建立召回模型和排序模型;
[0043]框架构建模块,用于根据所述同义词库、所述变体规则库、所述召回模型和所述排序模型构建医学术语标准化框架。
[0044]在上述实现过程中,通过对不同的医学术语类型建立不同的标准化规则,使得不同类型的医学术语可以通过适合的方法得到标准化的修正,保证了每一类医学术语都可以生成对应的标准化医学术语,使得医学术语的识别率大大提升。
[0045]第三方面,本申请实施例提供的一种电子设备,包括:存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如第一方面任一项所述的方法的步骤。
[0046]第四方面,本申请实施例提供的一种计算机可读存储介质,所述存储介质上存储有指令,当所述指令在计算机上运行时,使得所述计算机执行如第一方面任一项所述的方法。
[0047]第五方面,本申请实施例提供的一种计算机程序产品,所述计算机程序产品在计算机上运行时,使得计算机执行如第一方面任一项所述的方法。
[0048]本公开的其他特征和优点将在随后的说明书中阐述,或者,部分特征和优点可以从说明书推知或毫无疑义地确定,或者通过实施本公开的上述技术即可得知。
[0049]并可依照说明书的内容予以实施,以下以本申请的较佳实施例并配合附图详细说明如后。
附图说明
[0050]为了更清楚地说明本申请本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种医学术语标准化框架的构建方法,其特征在于,所述方法包括:获取医学术语原始数据;对所述医学术语原始数据进行分类,得到短术语类数据和长术语类数据;建立与所述短术语类数据对应的同义词库;建立与所述短术语类数据对应的变体规则库;根据所述长术语类数据建立召回模型和排序模型;根据所述同义词库、所述变体规则库、所述召回模型和所述排序模型构建医学术语标准化框架。2.根据权利要求1所述的医学术语标准化框架的构建方法,其特征在于,所述建立与所述短术语类数据对应的同义词库的步骤,包括:获取所述短术语类数据中的短术语;提取所述短术语对应的同义词词频信息;根据所述同义词词频信息建立所述同义词库。3.根据权利要求2所述的医学术语标准化框架的构建方法,其特征在于,所述根据所述同义词词频信息建立所述同义词库的步骤,包括:根据所述同义词词频信息对短术语进行词表映射,得到所述同义词库。4.根据权利要求1所述的医学术语标准化框架的构建方法,其特征在于,所述建立与所述短术语类数据对应的变体规则库的步骤,包括:获取变体规则;根据所述变体规则对所述短术语进行变体纠错,得到所述变体规则库。5.根据权利要求1所述的医学术语标准化框架的构建方法,其特征在于,所述根据所述长术语类数据建立召回模型和排序模型的步骤,包括:获取标准术语库和所述长术语类数据中的长术语;根据所述标准术语库对所述长术语进行召回建模,得到召回模型;根据所述召回模型对所述长术语与所述标准术语库中的标准术语进行匹配处理,得到候选标准术语;根据所述候选标准术语和所述长术语对应的标准术语进行排序建模,得到...

【专利技术属性】
技术研发人员:罗立刚张旸马睿刘辉
申请(专利权)人:零氪医疗智能科技广州有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1