The present invention relates to a closed-loop method for text analysis of electronic medical records based on big data technology. Starting from the construction of high frequency word detection and rough segmentation dictionary, a closed-loop design for text analysis of electronic medical records is proposed, which includes text detection of medical records, named entity recognition and word category labeling. A dictionary containing more unlisted words is obtained, and the segmentation of electronic medical records is more accurate, and the calculation of word vector is also presented. Accordingly, more words can be labeled to improve the accuracy of named entity recognition. It is a problem that the structured processing of medical text data mostly relies on general word segmentation tools or medical knowledge base, while the recognition effect of general word segmentation tools on professional terms is not ideal, and the standardization process of Chinese medical terms in China is insufficient. It provides an effective solution, provides innovative ideas for text analysis of Chinese electronic medical records, and is of great significance to the in-depth study of information processing in the field of medical and health, and to the improvement of intelligent medical and health information services.
【技术实现步骤摘要】
一种基于大数据技术的电子病历文本解析闭环方法
本专利技术涉及一种基于大数据技术的电子病历文本解析闭环方法。
技术介绍
文本信息是医疗信息资源的主要形式,占比达到95%以上。文本信息又以电子病历(ElectronicMedicalRecord,EMR)为重要代表。电子病历作为记录患者诊疗全过程的重要文档集合,在信息化过程中,处在特别重要的地位。由于历史和实用方面的原因,电子病历由结构化和大量非结构化的内容构成,结构化的内容是指key-value形式,即键值对形式,非结构化的内容为自然语言。非结构化的输入形式带来了数据的多维性、不确定性,受控医学词汇表以及支持临床决策的临床数据仓库,使大量临床数据分散在不同的系统中,很难实现高效方便地获取病人完整和准确的诊疗信息。对电子病历文本进行分词处理,并从中抽取临床术语,是进行电子病历数据分析的基础。经过标准化处理的文本信息,通过查询、分析,才能真正辅助临床决策,实现精准医疗。电子病历后结构化要在对电子病历文本进行准确的分词的基础上,为词语标注类别,并按类别标签分析语义和结构化梳理。由于医生的医疗知识融合于描述性的自由文本中,因而,电子病历文本具有以下特点:(1)包含大量的医学术语、缩略语和习惯用语,如“脑白质病”、“眼震”、“复视”、“示”、“伴”、“尚可”等.(2)语言结构与一般语境条件下的自然语言不同,结构不完整,但模式化较强,如描述症状是:身体部位+描述(“上肢可抬举”,“言语笨拙”);排除症状是:“否认/无”+描述(“无发热”)。(3)中文、英文缩写、数字混杂的现象比较普遍,如以数字+单位的检查结果和英文缩写词 ...
【技术保护点】
1.一种基于大数据技术的电子病历文本解析闭环方法,其特征在于,包括以下步骤:步骤1、由已登录的行业术语组成粗分词典,由已登录的行业术语及命名实体组成精确分词词典,命名实体为医疗领域所使用的不常见的、不能穷举的词;步骤2、计算精确分词词典中各词的词向量,对词向量进行聚类分析,为没有标准的不同类别的词向量所对应的词加上不同的标签,由带有标签的词及其对应的标签组成带标签的词语训练集步骤3、基于粗分字典利用高频词探查技术探查对电子病历文本进行高频词探查,发现电子病历文本中粗分词典已登录的行业术语及未登录的行业术语;以带标签的词语训练集对条件随机场进行训练,使用训练后的条件随机场识别出电子病历文本中精确分词词典已登录的命名实体及精确分词词典未登录的命名实体;步骤4、将上一步得到的未登录的行业术语及未登录的命名实体补充入精确分词词典中,并将上一步得到的未登录的行业术语补充入粗分词典中,形成更新后的粗分词典及精确分词词典后返回步骤2。
【技术特征摘要】
1.一种基于大数据技术的电子病历文本解析闭环方法,其特征在于,包括以下步骤:步骤1、由已登录的行业术语组成粗分词典,由已登录的行业术语及命名实体组成精确分词词典,命名实体为医疗领域所使用的不常见的、不能穷举的词;步骤2、计算精确分词词典中各词的词向量,对词向量进行聚类分析,为没有标准的不同类别的词向量所对应的词加上不同的标签,由带有标签的词及其对应的标签组成带标签的词语训练集步骤3、基于粗分字典利用高频词探查技术探查对电子病历文本进行高频词探查,发现电子病历文本中粗分词典已登录的行业术语及未登录的行业术语;以带标签的词语训练集对条件随机场进行训练,使用训练后的条件随机场识别出电子病历文本中精确分词词典已登录的命名实体及精确分词词典未登录的命名实体;步骤4、将上一步得到的未登录的行业术语及未登录的命名实体补充入精确...
【专利技术属性】
技术研发人员:王晔,张敬谊,李光亚,桑伟毅,姜峰,丁海明,路平,
申请(专利权)人:万达信息股份有限公司,
类型:发明
国别省市:上海,31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。