【技术实现步骤摘要】
词标准化方法、装置、设备及存储介质
[0001]本申请实施例涉及领域云
中的云医疗
,并且更具体地,涉及词标准化方法、装置、设备及存储介质。
技术介绍
[0002]医学诊断文本中的词识别及词标准化是医疗信息化过程中的一项重要技术能力,同时也是医疗人工智能的重要基石。词标准化旨在将不规范/不标准的诊断表达映射/归一到医学标准体系中的规范/标准的诊断表达。
[0003]截止目前,常用的词标准化方法采用召回加排序的思路,具体地,先在概念体系中粗略召回候选标准词集合,再对候选标准词集合进行精细排序,获得最终的结果。其中,精细排序后位于首位的标准词可以作为对非标准词进行标准化的词。
[0004]然而,由于医学标准体系较为庞大,例如ICD
‑
10临床版的标准词有20000条以上,这样量级的术语体系会造成召回阶段中的搜索空间过大,而在召回阶段需要将非标准词与庞大的概念体系中的每一个候选标准词进行匹配,进而得到召回的候选标准词集合,由此可见,概念体系过于庞大会导致召回的复杂度过高,不仅会降低召回 ...
【技术保护点】
【技术特征摘要】
1.一种词标准化方法,其特征在于,包括:接收词标准化请求,所述词标准化请求用于请求将非标准词进行标准化;响应于所述词标准化请求,基于所述非标准词的表示向量和M个候选空间分别对应的M个中心位置的表示向量,从M个候选空间中选择N个候选空间;其中,所述候选空间中候选标准词的表示向量的维度和所述非标准词的表示向量的维度相同,M>N≥1;基于所述非标准词的表示向量,从所述N个候选空间中选择K个候选标准词,所述N个候选空间中的每一个候选标准词具有对应的用于表征所述非标准词和候选标准词之间的匹配程度的分数;将所述非标准词的表示向量与所述K个候选标准词的表示向量分别进行拼接,得到K个拼接文本,K≥1;以所述K个拼接文本为输入,利用来自转换的双向编码器BERT模型,得到对所述非标准词对应的标准词。2.根据权利要求1所述的方法,其特征在于,所述从M个候选空间中选择N个候选空间之前,所述方法还包括:若所述M个候选空间中包括存在层级关系的第一候选标准词和第二候选标准词,利用表示模型,将携带有层级信息的所述第一候选标准词和携带有层级信息的所述第二候选标准词,均处理为维度与所述非标准词的维度相同的表示向量。3.根据权利要求1所述的方法,其特征在于,所述从M个候选空间中选择N个候选空间之前,所述方法还包括:响应于所述词标准化请求,获取收集到的候选标准词;利用无监督聚类的方式,将所述收集到的候选标准词划分为所述M个候选空间;所述M个候选空间中相邻两个候选空间的中心位置之间的距离大于或等于预设距离。4.根据权利要求3所述的方法,其特征在于,所述候选空间为球体空间,所述球体空间的半径为预设半径。5.根据权利要求1所述的方法,其特征在于,所述基于所述非标准词的表示向量和M个候选空间分别对应的M个中心位置的表示向量,从M个候选空间中选择N个候选空间,包括:在M个中心位置的表示向量中选择距离所述非标准词的表示向量最近的N个中心位置;将所述N个中心位置所在的候选空间,确定为所述N个候选空间。6.根据权利要求1所述的方法,其特征在于,所述将所述非标准词的表示向量与所述K个候选标准词的表示向量分别进行拼接,得到K个拼接文本,包括:获取所述K个候选标准词分别对应的K组同义词的表示向量;将所述非标准词的表示向量与所述K个候选标准词的表示向量分别进行拼接,得到K个第一文本;将所述K个第一文本分别与所述K组同义词的表示向量进行拼接,得到所述K个拼接文本。7.根据权利要求1所述的方法,其特征在于,所述以所述K个拼接文本为输入,利用来自转换的双向编码器BERT模型,得到对所述非标准...
【专利技术属性】
技术研发人员:许茜,张子恒,
申请(专利权)人:腾讯云计算长沙有限责任公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。