【技术实现步骤摘要】
一种基于词向量融合的医疗电子病历命名实体识别方法
[0001]本专利技术涉及医疗电子病历文本命名实体识别领域,特别涉及一种基于词向量融合的医疗电子病历命名实体识别方法。
技术介绍
[0002]近年来,国内外的医疗机构在问诊或临床等医疗实践中都对每个患者都系统地存储了相应的医疗电子病历数据;电子病历一般以非结构化的形式进行存储,其中包括患者的健康状况和诸如症状、药物、疾病、各项检测指标等信息,因此,对于电子病历文本数据信息的挖掘能方便医疗机构和专家分析患者的病情信息并给出治疗建议。
[0003]早期的电子病历文本命名实体识别主要依赖于人为制定的规则的方法,这类方法需要人为地来制定规则且迁移成本高。后来又有基于统计的机器学习模型通过制定好的特征进行实体识别,此类方法相比基于规则的方法大多都有着进一步的提升,但仍需人为的制定各种特征。再到后来,随着深度学习的不断发展,利用深度神经网络模型对文本进行命名实体识别,并且取得了较好的效果。相较于基于规则和机器学习模型的方法,深度网络模型BiLSTM能通过记忆单元提取更多的有用的特 ...
【技术保护点】
【技术特征摘要】
1.一种基于词向量融合的医疗电子病历命名实体识别方法,其特征在于:包括以下步骤:S1,数据集和数据预处理:对现有的中文电子病历数据集进行预处理,将文本词语与标签一一对应,并将数据集拆分成训练集和测试集;S2,进行数据预训练:设定输出的向量维度为一固定值,然后将S1中处理好的文本数据分别通过Word2Vec、Glove和ELMo三个词向量预训练模型进行预训练,得到对应的词向量矩阵W,G和E;S3,进行不同词向量融合:S301,对词向量矩阵W和G进行融合:词向量矩阵W和G是固定维度的静态词向量矩阵;对词向量矩阵W和G求和取平均:得到新的词向量矩阵N,并设置向量维度;S302,对词向量矩阵E与N进行融合:词向量矩阵E是由多维的tensor矩阵,首先对其进行降维处理:假定每个tokens的向量为e
i
;m是词向量维度;h是各个tokens的层数,对矩阵E进行降维操作得到降维之后的词向量矩...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。