医疗术语的标准化方法、装置及介质制造方法及图纸

技术编号:20797251 阅读:67 留言:0更新日期:2019-04-06 10:51
本公开一方面提供了一种医疗术语的标准化方法,包括:获取医疗术语的词向量序列;利用神经网络对所述医疗术语的词向量序列进行翻译,得到所述医疗术语的词向量的翻译序列;根据所述医疗术语的词向量的翻译序列,确定其与候选空间中的词语的词序列的相似度;根据所述医疗术语的词向量的翻译序列与候选空间中的词语的词序列的相似度,对所述医疗术语的词向量序列进行标准化。本公开还提供了一种医疗术语的标准化装置及介质。

Standardized methods, devices and media for medical terminology

On the one hand, this disclosure provides a standardization method for medical terms, including: acquiring the sequence of word vectors of medical terms; translating the sequence of word vectors of medical terms using neural networks to obtain the sequence of word vectors of medical terms; and determining the phase of the sequence of words in candidate space according to the sequence of word vectors of medical terms. Similarity: According to the similarity between the translation sequence of the word vector of the medical term and the word sequence of the words in the candidate space, the word vector sequence of the medical term is standardized. The present disclosure also provides a standardized device and medium for medical terminology.

【技术实现步骤摘要】
医疗术语的标准化方法、装置及介质
本公开涉及医疗术语分类的
,尤其涉及一种医疗术语的标准化方法、装置及介质。
技术介绍
目前,在医学数据的处理中,医学术语的标准化是其中最重要的环节之一。在实际的临床数据中,对于同一概念的文字表述方式是多种多样的。比如SCLC、中晚期肺癌、临床诊断肺癌、原发性肺癌、围型肺癌、周围性肺癌、小细胞肺癌(复合细胞型)等不同说法,其本质都是对应着标准表中的“肺恶性肿瘤”。术语标注化的过程就是将临床的各种说法,映射到各种已有的医学术语标准中。手术名称一般标准化到ICD9标准,诊断名称一般归一到ICD10标准。现有技术中一般采用以下三种方式对医疗术语对进行归一:1.纯人工标注。这种方式采用众包或者小作坊的方式,完全依赖于人来对术语进行标注化。这种方式由于成本比较高,只适合处理少量的医学数据。2.利用实体链接技术。先对实体进行特征拓展和关联,再利用各种相似度算法进行链接。由于临床医疗术语本身的复杂性,能拓展的特征和可以利用的上下文特别有限,因此标准化的准确率非常底。3.利用分类的技术。将标注化定位成单纯的分类问题,这种方式依赖于大量的训练样本,而标注数据来获得本文档来自技高网...

【技术保护点】
1.一种医疗术语的标准化方法,包括:获取医疗术语的词向量序列;利用神经网络对所述医疗术语的词向量序列进行翻译,得到所述医疗术语的词向量的翻译序列;根据所述医疗术语的词向量的翻译序列,确定其与候选空间中的词语的词序列的相似度;根据所述医疗术语的词向量的翻译序列与候选空间中的词语的词序列的相似度,对所述医疗术语的词向量序列进行标准化。

【技术特征摘要】
1.一种医疗术语的标准化方法,包括:获取医疗术语的词向量序列;利用神经网络对所述医疗术语的词向量序列进行翻译,得到所述医疗术语的词向量的翻译序列;根据所述医疗术语的词向量的翻译序列,确定其与候选空间中的词语的词序列的相似度;根据所述医疗术语的词向量的翻译序列与候选空间中的词语的词序列的相似度,对所述医疗术语的词向量序列进行标准化。2.根据权利要求1所述的方法,其特征在于,在所述获取医疗术语的词向量序列之前,该方法还包括:获取医疗词;采用Word2Vec将所述医疗词转化为所述医疗词的词向量;计算所述医疗词的词向量与标准表的词向量的相似度;根据所述医疗词的词向量与标准表的词向量的相似度,对所述医疗词的词向量进行聚类,以便确定所述医疗词的词向量与标准表中词向量的对应关系。3.根据权利要求2所述的方法,其特征在于,所述医疗术语包括一个或多个医疗词,该方法还包括:根据所述医疗词的词向量与标准表中词向量的对应关系,对所述医疗术语的词向量进行分词,得到所述医疗术语的词向量在所述标准表中的词向量;将从所述标准表确定出的词向量进行拼接;利用卷积神经网络对拼接的词向量进行粗分类。4.根据权利要求1所述的方法,其特征在于,该方法还包括:基于ICD标准表的词生成所述医疗术语;并且/或者基于真实病历、网上的医学语料、和/或医学学术论文生成所述医疗术语。5.一种医疗术语的标准化装置,包括:第一获取模块,用于获取医疗术语的词向量序列;翻译模块,利用神经网络对所述医疗术语的词向量序列进行翻译,得到所述医疗术语的词向量的翻译序列;确定模块,用于根据所述医疗术语的词向量的翻译序列,确定其与候选空...

【专利技术属性】
技术研发人员:刘学梁刘旭王琛季思伟
申请(专利权)人:金色熊猫有限公司
类型:发明
国别省市:中国香港,81

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1