基于长短期记忆网络的医疗文本术语自动识别方法及系统技术方案

技术编号:19778319 阅读:148 留言:0更新日期:2018-12-15 11:19
本发明专利技术公开了一种基于长短期记忆网络的医疗文本术语自动识别方法及系统,为了实现从医学文本中自动抽取医学术语类实体而设计。本发明专利技术基于长短期记忆网络的医疗文本术语自动识别方法包括,将医学文本语句中每个文字使用预训练的字向量表示,得到训练数据;将训练数据输入至双向长短记忆网络中,得到医学文本语句中每个文字概率最大的标签类别;将每个文字概率最大的标签类别此输出结果输入到条件随机场中,使用维特比算法计算联合概率最大的标注序列。本发明专利技术融合了双向长短时记忆网络和条件随机场各自的优势,能有效提升字标注的准确率。

【技术实现步骤摘要】
基于长短期记忆网络的医疗文本术语自动识别方法及系统
本专利技术涉及机器学习领域,具体涉及一种基于长短期记忆网络的医疗文本术语自动识别方法及系统。
技术介绍
传统的医学术语识别系统可分为基于词库匹配的术语识别系统和基于机器学习的医学术语自动识别系统。基于词库匹配的医学术语自动识别系统具有精确率高、识别速度快的优点,但对医学规模和质量有着很高的要求,且对未登录字典的术语无法识别,即召回率往往不足。基于传统机器学习方法的医学术语自动识别系统,可以从训练数据中学习医学术语的上下文信息,根据上下文信息来识别医学术语,避免了字典匹配对未登录字典术语无法识别的状况,大大地提高了召回率,但精确率往往较低。鉴于上述,本设计人,积极加以研究创新,以期创设一种基于长短期记忆网络的医疗文本术语自动识别方法及系统,使其更具有产业上的利用价值。
技术实现思路
为解决上述技术问题,本专利技术的目的是提供一种高精确率,高召回率的基于长短期记忆网络的医疗文本术语自动识别方法及系统。本专利技术基于长短期记忆网络的医疗文本术语自动识别方法,包括,将医学文本语句中每个文字使用预训练的字向量表示,得到训练数据;将训练数据输入至双向长短记忆网络中,得到医学文本语句中每个文字概率最大的标签类别;将每个文字概率最大的标签类别此输出结果输入到条件随机场中,使用维特比算法计算联合概率最大的标注序列。进一步地,用word2vec的文本向量训练方式得到字向量,生成的字向量矩阵L为n×m维矩阵,其中n代表字典中的字数,m代表每个字向量的维数,通常m在100到300之间取值。本专利技术基于长短期记忆网络的医疗文本术语自动识别系统,包括:字向量模型单元,用于将医学文本语句中每个文字使用预训练的字向量表示;双向长短时记忆网络单元,用于将训练数据输入至双向长短记忆网络中,得到医学文本语句中每个文字概率最大的标签类别;条件随机场模型单元,用于将每个文字概率最大的标签类别此输出结果输入到条件随机场中,使用维特比算法计算联合概率最大的标注序列。进一步地,具体包括:文本输入层,文本以单个字拆分的形式输入;字向量嵌入层,通过矩阵L将输入的字符映射至预训练的字向量;双向长短时记忆网络层,采用向前LSTM层、向后LSTM层分别提取字向量嵌入层特征;条件随机场层,对双向LSTM的信息整合,并将整合后的信息将作为输入,输出医学文本逐字标注词性。借由上述方案,本专利技术基于长短期记忆网络的医疗文本术语自动识别方法及系统,至少具有以下优点:本专利技术采用双向的长短时记忆网络,将医学文本中各文字的分布式表示作为网络的输入,输出每个字概率最大的标签类别。双向长短时记忆网络充分考虑文字的上下文信息,着眼于对每个文字标签类别的概率最大化;条件随机场更多地考虑整个句子的局部特征的线性加权组合,计算联合概率,直接优化整个序列。使用双向长短时记忆网络和条件随机场算法共同对字序列进行标注。相比传统算法,融合了双向长短时记忆网络和条件随机场各自的优势,双向长短时记忆网络能更充分地利用上下文信息,能有效提升字标注的准确率,使得序列标注中字分类的准确率大大提高,也即提高了医学术语自动识别系统的精确率和召回率。上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,并可依照说明书的内容予以实施,以下以本专利技术的较佳实施例并配合附图详细说明如后。附图说明图1为本专利技术基于长短期记忆网络的医疗文本术语自动识别方法及系统的双向长短时记忆网络的框架图;图2为本专利技术基于长短期记忆网络的医疗文本术语自动识别方法及系统的中长短时记忆网络单元FL1-FL5和BL1-BL5详细结构图。具体实施方式下面结合附图和实施例,对本专利技术的具体实施方式作进一步详细描述。以下实施例用于说明本专利技术,但不用来限制本专利技术的范围。医学类文本中,如教科书、临床指南、电子病历等,都包含大量医学专业术语,这些术语在对文本结构化,知识信息抽取等方面都具有重要作用。我们将医学关键术语分为症状(SYM)、疾病(DIS)、体征(SGN)、部位词(REG)、器官(ORG)、体液(BFL)、检查(TES)、药品(DRU)、手术(SUR)等23个词汇类别。本方案将医学术语的自动识别问题转化为医学文本的字序列标注问题:以字序列作为观测序列,各文字所属术语类别构成的序列作为状态序列。实施例1本专利技术一种基于长短期记忆网络的医疗文本术语自动识别方法的一较佳实施例,包括:将医学文本语句中每个文字使用预训练的字向量表示,得到训练数据;将训练数据输入至双向长短记忆网络中,得到医学文本语句中每个文字概率最大的标签类别;将每个文字概率最大的标签类别此输出结果输入到条件随机场中,使用维特比算法计算联合概率最大的标注序列。本实施例举例,将采用长短时记忆网络和条件随机场,需要大量的标注训练数据,医学文本的字序列人工标注过程中,将采用字标注常用的BIO方案。举例说明,‘糖尿病的症状有多饮、多食和多尿。’将被标注成如下形式:糖B_dis尿I_dis病I_dis的O症O状O有O多B_sym饮I_sym、O多B_sym食I_sym和O多B_sym尿I_sym。O上述标注中,疾病(dis)和症状(sym)类实体均被特殊标注方法如‘B_dis’等标注而出,其他无用词汇和符号则直接被标注成‘O’。实施例2本专利技术一种基于长短期记忆网络的医疗文本术语自动识别系统的一较佳实施例,包括:字向量模型单元,用于将医学文本语句中每个文字使用预训练的字向量表示;双向长短时记忆网络单元,用于将训练数据输入至双向长短记忆网络中,得到医学文本语句中每个文字概率最大的标签类别;条件随机场模型单元,用于将每个文字概率最大的标签类别此输出结果输入到条件随机场中,使用维特比算法计算联合概率最大的标注序列。如图1至2所示,双向长短时记忆网络+条件随机场模型构建模型编程框架:PythonTensorflow模型训练数据:步骤1中的大量医学标注文本模型输入:医学文本逐字输入模型模型输出:医学文本逐字标注词性模型架构:文本输入层,字向量嵌入层,双向长短时记忆网络层,条件随机场层,输出层由下至上如下结构图排列所示:1.模型最底层为汉字输入层,文本以单个字拆分的形式输入模型。2.E1-E5为字向量嵌入层,通过矩阵L将输入的字符映射至步骤2中预训练的字向量。3.FL1-FL5为向前LSTM层,用于提取E1-E5特征。4.BL1-BL5为向后LSTM层,用于提取E1-E5特征。5.O1-O5为双向LSTM的信息整合输出层,同时将作为后续CRF层的输入。6.C1-C5为CRF层。7.最高层为模型最终的输出层,用于预测输入层字符的标签。模型中长短时记忆网络单元FL1-FL5和BL1-BL5详细结构介绍:LSTM单元结构图中,xt为t时刻模型输入,ht为t时刻模型输出,由于LSTM属于循环神经网络,ht也会成为下一个时间节点t+1的输入,即t+1时刻单元接受输入[ht,xt]。ct为单元状态,用于保存长期状态。σ为sigmoid函数,tanh为双曲正切函数。Wf为遗忘门权重矩阵,Wi为输入门权重矩阵,Wo为输出门权重矩阵,Wc为当前单元状态ct新增信息权重矩阵。上述各实施例中,字向量反映的是字在语义空间中的位置关系,空间中的余弦距离象征着对应字间的语义相似度。本本文档来自技高网...

【技术保护点】
1.一种基于长短期记忆网络的医疗文本术语自动识别方法,其特征在于,包括,将医学文本语句中每个文字使用预训练的字向量表示,得到训练数据;将训练数据输入至双向长短记忆网络中,得到医学文本语句中每个文字概率最大的标签类别;将每个文字概率最大的标签类别此输出结果输入到条件随机场中,使用维特比算法计算联合概率最大的标注序列。

【技术特征摘要】
1.一种基于长短期记忆网络的医疗文本术语自动识别方法,其特征在于,包括,将医学文本语句中每个文字使用预训练的字向量表示,得到训练数据;将训练数据输入至双向长短记忆网络中,得到医学文本语句中每个文字概率最大的标签类别;将每个文字概率最大的标签类别此输出结果输入到条件随机场中,使用维特比算法计算联合概率最大的标注序列。2.根据权利要求1所述的基于长短期记忆网络的医疗文本术语自动识别方法,其特征在于,用word2vec的文本向量训练方式得到字向量,生成的字向量矩阵L为n×m维矩阵,其中n代表字典中的字数,m代表每个字向量的维数,通常m在100到300之间取值。3.一种基于长短期记忆网络的医疗文本术语自动识别系统,其特征在于,包括:字向量模型单元,用...

【专利技术属性】
技术研发人员:赵孟海严志华
申请(专利权)人:上海金仕达卫宁软件科技有限公司
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1