当前位置: 首页 > 专利查询>四川大学专利>正文

一种中文电子病历分词和命名实体识别方法及系统技术方案

技术编号:15878649 阅读:65 留言:0更新日期:2017-07-25 16:38
本发明专利技术提供了一种中文电子病历分词和命名实体识别新方法及新系统。主要包括:基于CRF模型对中文电子病历文本进行分词以及利用crf++工具获取单词的向量表示特征、基于双向循环神经网络LSTM模型对单词特征向量进行深度表示学习,并对实体进行分类预测、基于B/S架构提供图形交互界面的在线系统。使用本发明专利技术可以对中文电子病历进行分类及预测,相较于传统的机器学习方法,有效减少了人工构造特征的工作量;本发明专利技术还为用户提供了交互系统能对预测结果进行修正与改进。

Chinese electronic medical record word segmentation and named entity recognition method and system

The invention provides a new method and a system for word segmentation and named entity recognition of Chinese electronic medical record. Mainly includes: feature representation and learning said two-way recurrent neural network LSTM model of depth on the word feature vector based on vector CRF model of Chinese electronic medical record text segmentation and get the word using crf++ tools based on classification and prediction, provide online system graphical interface based on the B/S architecture of the entity. The use of the invention can be used for classification and prediction of Chinese electronic medical records, compared with the traditional machine learning methods, and effectively reduce the workload of artificial structures; the invention also provides users with interactive system can correct and improve the prediction results.

【技术实现步骤摘要】
一种中文电子病历分词和命名实体识别方法及系统
本专利技术属于自然语言处理,是一种中文电子病历分词和命名实体识别方法及系统。具体是指基于双向长短期记忆网络LSTM对实体进行识别及分类预测。
技术介绍
中文电子病历分词和命名实体识别是指利用生物医学文本挖掘技术对电子病历中具有特定意义的生物医学实体名称,如疾病名称、治疗方案、症状等进行有效的分类与识别。目前生物医学命名实体识别采用的方法主要有:基于规则的方法、基于词典匹配方法、基于统计机器学习的方法、组合分类器等方法。目前使用最广泛的基于机器学习方法过程包括:语料预处理、特征的提取、训练模型并预测。语料预处理过程包括:对电子病历文本的处理,如大小写转换、分词等。运用到的特征主要包括:构造词向量、核心词特征等。机器学习建模的主要方法包括:条件随机场(CRF)、最大熵模型(ME)、支持向量机(SVM)、隐马尔科夫模型(HMM)等。生物医学命名实体识别作为关键而又重要的一步,对于生物医学领域信息抽取的研究具有极大的促进作用。其中半监督的机器学习方法常被应用到命名实体识别中。Ando运用此方法在大规模未标注的文本信息中通过原有特征的线性组合产生新本文档来自技高网...
一种中文电子病历分词和命名实体识别方法及系统

【技术保护点】
一种中文电子病历命名实体识别方法及系统,其特征包括如下步骤:(1)基于机器学习方法条件随机场CRF对电子病历进行分词训练;(2)首次基于双向长短期记忆网络LSTM模型对词向量进行学习并对实体进行分类预测;(3)基于B/S架构的图形交互在线系统,输出分类好的单词。

【技术特征摘要】
1.一种中文电子病历命名实体识别方法及系统,其特征包括如下步骤:(1)基于机器学习方法条件随机场CRF对电子病历进行分词训练;(2)首次基于双向长短期记忆网络LSTM模型对词向量进行学习并对实体进行分类预测;(3)基于B/S架构的图形交互在线系统,输出分类好的单词。2.根据权利要求1所述的基于CRF(条件随机场)模型对中文电子病历文本进行分词,其特征在于:基于条件随机场CRF对中文电子病历进行分词,并用crf++工具包获取分词的词向量,词位信息表示详情:B:实体开始,I:实体中间,O:非实体,标注中一共采用9种不同的标签,分别为B-DI,B-SY,B-TE,B-TR,I-DI,I-SY,I-TE,I-TR,O...

【专利技术属性】
技术研发人员:李智罗曜儒张祥伟李健华伟
申请(专利权)人:四川大学
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1