一种基于大数据技术的电子病历文本解析闭环方法技术

技术编号：20916537 阅读：32 留言：0更新日期：2019-04-20 09:41

本发明专利技术涉及一种基于大数据技术的电子病历文本解析闭环方法，从高频词探查和粗分词典的构建出发提出了从病历文本探查到命名实体识别、词语类别标注的电子病历文本解析闭环设计，获得包含更多未登陆词的字典，进而电子病历分词更为准确，词向量的计算也随之更准确，这样，更多的词可以被标注类别，达到提高命名实体识别准确率的实际效果，是对于目前医疗文本数据的结构化处理大多依赖通用分词工具或医学知识库，而通用分词工具对专业术语的识别效果并不理想、且国内的中文医学术语标准化进程不足的问题提供了有效解决方案，为中文电子病历文本解析提供了创新思路，对深入研究医疗卫生领域信息化处理，提高医疗卫生智能化信息服务具有重要意义。

A Closed Loop Method of Electronic Medical Record Text Analysis Based on Big Data Technology

The present invention relates to a closed-loop method for text analysis of electronic medical records based on big data technology. Starting from the construction of high frequency word detection and rough segmentation dictionary, a closed-loop design for text analysis of electronic medical records is proposed, which includes text detection of medical records, named entity recognition and word category labeling. A dictionary containing more unlisted words is obtained, and the segmentation of electronic medical records is more accurate, and the calculation of word vector is also presented. Accordingly, more words can be labeled to improve the accuracy of named entity recognition. It is a problem that the structured processing of medical text data mostly relies on general word segmentation tools or medical knowledge base, while the recognition effect of general word segmentation tools on professional terms is not ideal, and the standardization process of Chinese medical terms in China is insufficient. It provides an effective solution, provides innovative ideas for text analysis of Chinese electronic medical records, and is of great significance to the in-depth study of information processing in the field of medical and health, and to the improvement of intelligent medical and health information services.

全部详细技术资料下载

【技术实现步骤摘要】
一种基于大数据技术的电子病历文本解析闭环方法
本专利技术涉及一种基于大数据技术的电子病历文本解析闭环方法。
技术介绍
文本信息是医疗信息资源的主要形式，占比达到95％以上。文本信息又以电子病历(ElectronicMedicalRecord，EMR)为重要代表。电子病历作为记录患者诊疗全过程的重要文档集合，在信息化过程中，处在特别重要的地位。由于历史和实用方面的原因，电子病历由结构化和大量非结构化的内容构成，结构化的内容是指key-value形式，即键值对形式，非结构化的内容为自然语言。非结构化的输入形式带来了数据的多维性、不确定性，受控医学词汇表以及支持临床决策的临床数据仓库，使大量临床数据分散在不同的系统中，很难实现高效方便地获取病人完整和准确的诊疗信息。对电子病历文本进行分词处理，并从中抽取临床术语，是进行电子病历数据分析的基础。经过标准化处理的文本信息，通过查询、分析，才能真正辅助临床决策，实现精准医疗。电子病历后结构化要在对电子病历文本进行准确的分词的基础上，为词语标注类别，并按类别标签分析语义和结构化梳理。由于医生的医疗知识融合于描述性的自由文本中，因而，电子病历文本具有以下特点：(1)包含大量的医学术语、缩略语和习惯用语，如“脑白质病”、“眼震”、“复视”、“示”、“伴”、“尚可”等.(2)语言结构与一般语境条件下的自然语言不同，结构不完整，但模式化较强,如描述症状是：身体部位+描述(“上肢可抬举”，“言语笨拙”)；排除症状是：“否认/无”+描述(“无发热”)。(3)中文、英文缩写、数字混杂的现象比较普遍，如以数字+单位的检查结果和英文缩写词...

【技术保护点】
1.一种基于大数据技术的电子病历文本解析闭环方法，其特征在于，包括以下步骤：步骤1、由已登录的行业术语组成粗分词典，由已登录的行业术语及命名实体组成精确分词词典，命名实体为医疗领域所使用的不常见的、不能穷举的词；步骤2、计算精确分词词典中各词的词向量，对词向量进行聚类分析，为没有标准的不同类别的词向量所对应的词加上不同的标签，由带有标签的词及其对应的标签组成带标签的词语训练集步骤3、基于粗分字典利用高频词探查技术探查对电子病历文本进行高频词探查，发现电子病历文本中粗分词典已登录的行业术语及未登录的行业术语；以带标签的词语训练集对条件随机场进行训练，使用训练后的条件随机场识别出电子病历文本中精确分词词典已登录的命名实体及精确分词词典未登录的命名实体；步骤4、将上一步得到的未登录的行业术语及未登录的命名实体补充入精确分词词典中，并将上一步得到的未登录的行业术语补充入粗分词典中，形成更新后的粗分词典及精确分词词典后返回步骤2。

【技术特征摘要】
1.一种基于大数据技术的电子病历文本解析闭环方法，其特征在于，包括以下步骤：步骤1、由已登录的行业术语组成粗分词典，由已登录的行业术语及命名实体组成精确分词词典，命名实体为医疗领域所使用的不常见的、不能穷举的词；步骤2、计算精确分词词典中各词的词向量，对词向量进行聚类分析，为没有标准的不同类别的词向量所对应的词加上不同的标签，由带有标签的词及其对应的标签组成带标签的词语训练集步骤3、基于粗分字典利用高频词探查技术探查对电子病历文本进行高频词探查，发现电子病历文本中粗分词典已登录的行业术语及未登录的行业术语；以带标签的词语训练集对条件随机场进行训练，使用训练后的条件随机场识别出电子病历文本中精确分词词典已登录的命名实体及精确分词词典未登录的命名实体；步骤4、将上一步得到的未登录的行业术语及未登录的命名实体补充入精确...

【专利技术属性】
技术研发人员：王晔，张敬谊，李光亚，桑伟毅，姜峰，丁海明，路平，
申请(专利权)人：万达信息股份有限公司，
类型：发明
国别省市：上海,31

全部详细技术资料下载我是这个专利的主人