基于机器学习的中文医疗实体识别方法及系统技术方案

技术编号：23099679 阅读：17 留言：0更新日期：2020-01-14 20:42

本公开公开了基于机器学习的中文医疗实体识别方法及系统，获取训练用的电子病历；构建训练用的电子病历的字典；构建训练用的电子病历的词典；对训练用的电子病历进行数据标记，得到每一个字和每一个字对应的标记符号；将嵌入字向量和词向量后的长短期记忆网络LSTM的输出端和嵌入字向量的卷积神经网络模型CNN的输出端，均与条件随机场CRF的输入端相连接，构建机器学习模型；将已进行数据标记的训练用的电子病历，输入到机器学习模型中，对机器学习模型进行训练，得到训练好的机器学习模型；获取待识别的电子病历，将待识别的电子病历输入到机器学习模型中，输出电子病历的中文医疗实体识别结果。

Chinese medical entity recognition method and system based on machine learning

全部详细技术资料下载

【技术实现步骤摘要】
基于机器学习的中文医疗实体识别方法及系统
本公开涉及中文医疗实体识别
，特别是涉及基于机器学习的中文医疗实体识别方法及系统。
技术介绍
本部分的陈述仅仅是提到了与本公开相关的
技术介绍
，并不必然构成现有技术。医疗实体识别是文本处理中的关键技术，它在信息检索、机器翻译、问答系统等自然语言处理技术中，发挥着重要的作用，医疗实体识别的任务是对文本中出现的具有特定意义的词或短语进行识别。在医学临床领域的医疗实体识别中，其目的是从电子病历中挖掘出专家感兴趣的专业术语，例如，药物：替吉奥胶囊、奥沙利铂等；手术：直肠根治术、根治性远端胃大部切除术等；疾病和诊断：食管癌、慢性萎缩性胃炎等；解剖部位：腹部、胃底部等。准确识别出此类的医学实体，从而研究实体之间的关系，对医学研究来说是重要的一步。因此医学医疗实体识别的研究具有非常重要的意义。在实现本公开的过程中，专利技术人发现现有技术中存在以下技术问题：中文的医疗实体识别与英文的相比，挑战更大，目前未解决的难题更多。英语中的医疗实体具有比较明显的形式标志，即实体中的每个词的第一个字母要大写，所以实体边界识别相对容易，任务的重点是确定实体的类别。和英语相比，汉语医疗实体识别任务更加复杂，而且相对于实体类别标注子任务，实体边界的识别更加困难；汉语文本没有类似英文文本中空格之类的显式标示词的边界标示符，医疗实体识别的第一步就是确定词的边界，即分词。综上所述，对于中文医疗实体识别精准和快速的识别方法，尚缺乏有效的解决方案。
技术实现思路
<...

【技术保护点】
1.基于机器学习的中文医疗实体识别方法，其特征是，包括：/n获取训练用的电子病历；构建训练用的电子病历的字典；构建训练用的电子病历的词典；/n对训练用的电子病历进行数据标记，得到每一个字和每一个字对应的标记符号；/n将训练用的电子病历的文本数据与构建的字典进行匹配，得到字向量；将训练用的电子病历的文本数据与构建的词典进行匹配，得到词向量；将字向量和词向量同时嵌入到长短期记忆网络LSTM中；/n将训练用的电子病历的文本数据与构建的字典匹配，得到字向量；将字向量嵌入到卷积神经网络模型CNN中；/n将嵌入字向量和词向量后的长短期记忆网络LSTM的输出端和嵌入字向量的卷积神经网络模型CNN的输出端，均与条件随机场CRF的输入端相连接，构建机器学习模型；/n将已进行数据标记的训练用的电子病历，输入到机器学习模型中，对机器学习模型进行训练，得到训练好的机器学习模型；/n获取待识别的电子病历，将待识别的电子病历输入到机器学习模型中，输出电子病历的中文医疗实体识别结果。/n

【技术特征摘要】
1.基于机器学习的中文医疗实体识别方法，其特征是，包括：
获取训练用的电子病历；构建训练用的电子病历的字典；构建训练用的电子病历的词典；
对训练用的电子病历进行数据标记，得到每一个字和每一个字对应的标记符号；
将训练用的电子病历的文本数据与构建的字典进行匹配，得到字向量；将训练用的电子病历的文本数据与构建的词典进行匹配，得到词向量；将字向量和词向量同时嵌入到长短期记忆网络LSTM中；
将训练用的电子病历的文本数据与构建的字典匹配，得到字向量；将字向量嵌入到卷积神经网络模型CNN中；
将嵌入字向量和词向量后的长短期记忆网络LSTM的输出端和嵌入字向量的卷积神经网络模型CNN的输出端，均与条件随机场CRF的输入端相连接，构建机器学习模型；
将已进行数据标记的训练用的电子病历，输入到机器学习模型中，对机器学习模型进行训练，得到训练好的机器学习模型；
获取待识别的电子病历，将待识别的电子病历输入到机器学习模型中，输出电子病历的中文医疗实体识别结果。

2.如权利要求1所述的方法，其特征是，所述构建训练用的电子病历的字典的具体步骤包括：
对训练用的电子病历，采用one-hot编码进行处理，得到若干个汉字和每一个汉字对应的编码；将所述若干个汉字和每一个汉字对应的编码，视为字典。

3.如权利要求1所述的方法，其特征是，所述构建训练用的电子病历的词典的具体步骤包括：
对训练用的电子病历，采用word2vec模型进行处理，得到若干个词和每一个词对应的词向量；将所述若干个词和每一个词对应的词向量，视为词典。

4.如权利要求1所述的方法，其特征是，对训练用的电子病历进行数据标记，得到每一个字和每一个字对应的标记符号；具体步骤包括：
使用BIOES标记规则对训练用的待识别电子病历进行数据标记，得到每一个字和每一个字对应的标记符号。

5.如权利要求1所述的方法，其特征是，所述将已进行数据标记的训练用的电子病历，输入到机器学习模型中，对机器学习模型进行训练，得到训练好的机器学习模型；具体步骤包括：
将数据转换得到的每一个字，输入到机器学习模型的长短期记忆网络LSTM的输入端，长短期记忆网络LSTM的输出端输出第一识别结果；
将数据转换得...

【专利技术属性】
技术研发人员：王红，王彩雨，王峰，赵丽丽，虞凤萍，庄鲁贺，李威，胡斌，张伟，
申请(专利权)人：山东师范大学，
类型：发明
国别省市：山东;37

全部详细技术资料下载我是这个专利的主人