【技术实现步骤摘要】
一种基于LatticeLSTM模型的中文电子病历的实体识别方法
本专利技术涉及命名实体识别
,具体涉及一种基于LatticeLSTM模型的中文电子病历的实体识别方法。
技术介绍
随着医疗信息的快速发展,电子医疗记录也呈现爆发式增长。大规模的电子病历记录了患者的整个医疗过程,包含患者大量的诊疗信息,是临床医学研究的重要数据来源。电子病历命名实体识别是利用计算机自动从非结构化的临床医学文本中识别并抽取与医学相关的命名实体对象,如身体部位、疾病、症状等,这些命名实体为后续医学系统构建和相关研究鉴定了工作基础。但是,对于中文电子病历的命名实体识别,由于临床电子病历中存在较多的未登录词,给中文分词造成了很大的误差,而分词错误很大程度上影响了命名实体的识别效果。同时,由于医生的个人书写习惯,电子病历文本没有统一规范的书写格式,对于各种症状、药物等的缩写形式增加了电子病历命名实体的识别难度。目前中文电子病历命名实体识别流行的方法主要分为:基于机器学习的方法和基于深度学习的方法。基于机器学习的方法主要包括隐马尔可夫模型 ...
【技术保护点】
1.一种基于Lattice LSTM模型的中文电子病历的实体识别方法,其特征在于,包括以下步骤:/n步骤1:对电子病历数据进行特征向量训练,获得电子病历数据的特征向量;/n步骤2:基于双向Lattice LSTM编码模型,对所述特征向量进行双向特征向量编码,获得电子病历数据的输出状态序列;/n步骤3:基于CRF模型的转移特征性,对所述输出状态序列进行标注概率排序,获得实体识别的结果,完成实体识别。/n
【技术特征摘要】
1.一种基于LatticeLSTM模型的中文电子病历的实体识别方法,其特征在于,包括以下步骤:
步骤1:对电子病历数据进行特征向量训练,获得电子病历数据的特征向量;
步骤2:基于双向LatticeLSTM编码模型,对所述特征向量进行双向特征向量编码,获得电子病历数据的输出状态序列;
步骤3:基于CRF模型的转移特征性,对所述输出状态序列进行标注概率排序,获得实体识别的结果,完成实体识别。
2.如权利要求1所述的基于LatticeLSTM模型的中文电子病历的实体识别方法,其特征在于,所述特征向量训练包括以下步骤:
步骤1.1:构建包含普通文本和医学专业词汇的词典组合;
步骤1.2:对所述电子病历数据进行预处理,获得预处理后的电子病历数据;
步骤1.3:基于BERT预训练语言模型,对所述预处理后的电子病历数据进行字向量训练,获得电子病历数据的字特征向量;
步骤1.4:根据所述词典组合与所述字词序列,进行词向量训练,获得所述电子病历数据的词特征向量;
步骤1.5:将所述字特征向量与所述词特征向量进行特征融合,获得所述电子病历数据的特征向量。
3.如权利要求2所述的基于LatticeLSTM模型的中文电子病历的实体识别方法,其特征在于,所述构建词典组合包括以下步骤:
步骤1.1.1:分别获取中文维基百科语料和医学分词词典;
步骤1.1.2:基于Word2Vec预训练语言模型,对中文维基百科语料进行jieba分词训练,获得维基百科词向量;
步骤1.1.3:对所述医学分词词典进行改善分词训练,获得医学分词词向量;
步骤1.1.4:将所述维基百科词向量与所述医学分词词向量进行词典组合,获得所述词典组合。
4.如权利要求2所述的基于LatticeLSTM模型的中文电子病历的实体识别方法,其特征在于,所述预处理包括以下步骤:
步骤1.2.1:对所述电子病历数据进行去隐私化处理,获得去除病人隐私信息的去隐私病例数据;
步骤1.2.2:对所述去隐私病例数据进行残句处理,获得处理后的电子病例数据;
步骤1.2.3:基于正则匹配方法,对所述处理后的电子病历数据进行过滤清洗,获得过滤后的电子病历数据;
步骤1.2.4:对所述过滤后的电子病历数据进行数据标注,获得预处理后的电子病历数据。
5.如权利要求4所述的基于LatticeLSTM模型的中文电子病历的实体识别方法,其特征在于,所述残句处理包括补齐隐私病例数据中的缺失语句、删除隐私病例数据中的错误语句、以及对隐私病例数据中过长的语句进行分句。
6.如权利要求2所述的基于LatticeLSTM模型的中文电子病历的实体识别方法,其特征在于,所述字向量训练包括以下步骤:
步骤1.3.1:读取将所述预处理后的电子病历数据中的字符序列;
步骤1.3.2:所述B...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。