一种基于大数据技术的电子病历文本解析闭环方法技术

技术编号:20916537 阅读:32 留言:0更新日期:2019-04-20 09:41
本发明专利技术涉及一种基于大数据技术的电子病历文本解析闭环方法,从高频词探查和粗分词典的构建出发提出了从病历文本探查到命名实体识别、词语类别标注的电子病历文本解析闭环设计,获得包含更多未登陆词的字典,进而电子病历分词更为准确,词向量的计算也随之更准确,这样,更多的词可以被标注类别,达到提高命名实体识别准确率的实际效果,是对于目前医疗文本数据的结构化处理大多依赖通用分词工具或医学知识库,而通用分词工具对专业术语的识别效果并不理想、且国内的中文医学术语标准化进程不足的问题提供了有效解决方案,为中文电子病历文本解析提供了创新思路,对深入研究医疗卫生领域信息化处理,提高医疗卫生智能化信息服务具有重要意义。

A Closed Loop Method of Electronic Medical Record Text Analysis Based on Big Data Technology

The present invention relates to a closed-loop method for text analysis of electronic medical records based on big data technology. Starting from the construction of high frequency word detection and rough segmentation dictionary, a closed-loop design for text analysis of electronic medical records is proposed, which includes text detection of medical records, named entity recognition and word category labeling. A dictionary containing more unlisted words is obtained, and the segmentation of electronic medical records is more accurate, and the calculation of word vector is also presented. Accordingly, more words can be labeled to improve the accuracy of named entity recognition. It is a problem that the structured processing of medical text data mostly relies on general word segmentation tools or medical knowledge base, while the recognition effect of general word segmentation tools on professional terms is not ideal, and the standardization process of Chinese medical terms in China is insufficient. It provides an effective solution, provides innovative ideas for text analysis of Chinese electronic medical records, and is of great significance to the in-depth study of information processing in the field of medical and health, and to the improvement of intelligent medical and health information services.

【技术实现步骤摘要】
一种基于大数据技术的电子病历文本解析闭环方法
本专利技术涉及一种基于大数据技术的电子病历文本解析闭环方法。
技术介绍
文本信息是医疗信息资源的主要形式,占比达到95%以上。文本信息又以电子病历(ElectronicMedicalRecord,EMR)为重要代表。电子病历作为记录患者诊疗全过程的重要文档集合,在信息化过程中,处在特别重要的地位。由于历史和实用方面的原因,电子病历由结构化和大量非结构化的内容构成,结构化的内容是指key-value形式,即键值对形式,非结构化的内容为自然语言。非结构化的输入形式带来了数据的多维性、不确定性,受控医学词汇表以及支持临床决策的临床数据仓库,使大量临床数据分散在不同的系统中,很难实现高效方便地获取病人完整和准确的诊疗信息。对电子病历文本进行分词处理,并从中抽取临床术语,是进行电子病历数据分析的基础。经过标准化处理的文本信息,通过查询、分析,才能真正辅助临床决策,实现精准医疗。电子病历后结构化要在对电子病历文本进行准确的分词的基础上,为词语标注类别,并按类别标签分析语义和结构化梳理。由于医生的医疗知识融合于描述性的自由文本中,因而,电子病历文本具有以下特点:(1)包含大量的医学术语、缩略语和习惯用语,如“脑白质病”、“眼震”、“复视”、“示”、“伴”、“尚可”等.(2)语言结构与一般语境条件下的自然语言不同,结构不完整,但模式化较强,如描述症状是:身体部位+描述(“上肢可抬举”,“言语笨拙”);排除症状是:“否认/无”+描述(“无发热”)。(3)中文、英文缩写、数字混杂的现象比较普遍,如以数字+单位的检查结果和英文缩写词表示的检查或治疗手段:“100/70mmHg”、“3.0mm”、“CT”、“MMR”等。(4)为了表达清晰,用半结构化的方式组织各部分内容。以上均为计算机自动处理制造了障碍。国内已有的中文病历文本分词研究虽然取得了良好的进展,但尚无法满足病历文本处理的需要。采用不同的中文分词工具,对慢性乙肝患者的常见临床表现的描述:“面色黧黑,口唇紫暗,面部可见到毛细血管扩张,胸前散在蜘蛛痣,舌质红,苔微黄,脉弦细”进行分词测试,国内已有的中文病历文本分词软件分词效果显示:对于“散在”、“蜘蛛痣”、“毛细血管”、“脉弦”等专业词汇均有不同程度的无法识别。同时,选取一段包含“注射用细辛脑”、“苦碟子注射液”、“注射用香菇多糖”、“消癌平注射液”、“盐酸氨溴索”、“环磷腺苷葡胺”、“阿加曲班注射液”共七个药品名称的文本分词测试结果得到:多数分词软件均不能完整地识别出某一个药品名称。总而言之,虽然常用分词工具能在自然文本或者人们经常使用的文本中有不错的分词效果和较髙的正确率,但是对于拥有很多专业用语的医学文本处理,各个分词工具都不能达到比较理想的效果。因而自然语言处理、信息抽取等相关技术在电子病历的分析和挖掘中将发挥重要的作用。同时病历文本的半结构化特点和语言特点给自然语言处理技术的应用带来新的挑战和机遇。挑战主要在于电子病历文本行文风格与开放领域文本或其他领域文本迥然不同。因此,已有的基础处理工具如分词、词性标注、句法分析在电子病历文本上的效果尚待进一步提升。另一方面,对于分好的词,还需进行类别标签的标注,判断其在业务上的属性,以利于更多规律的发现。
技术实现思路
本专利技术要解决的技术问题是:目前缺乏中文电子病历的分词和词性标注研究。为了解决上述技术问题,本专利技术的技术方案是提供了一种基于大数据技术的电子病历文本解析闭环方法,其特征在于,包括以下步骤:步骤1、由已登录的行业术语组成粗分词典,由已登录的行业术语及命名实体组成精确分词词典,命名实体为医疗领域所使用的不常见的、不能穷举的词;步骤2、计算精确分词词典中各词的词向量,对词向量进行聚类分析,为没有标准的不同类别的词向量所对应的词加上不同的标签,由带有标签的词及其对应的标签组成带标签的词语训练集步骤3、基于粗分字典利用高频词探查技术探查对电子病历文本进行高频词探查,发现电子病历文本中粗分词典已登录的行业术语及未登录的行业术语;以带标签的词语训练集对条件随机场进行训练,使用训练后的条件随机场识别出电子病历文本中精确分词词典已登录的命名实体及精确分词词典未登录的命名实体;步骤4、将上一步得到的未登录的行业术语及未登录的命名实体补充入精确分词词典中,并将上一步得到的未登录的行业术语补充入粗分词典中,形成更新后的粗分词典及精确分词词典后返回步骤2。优选地,所述步骤2中,应用深度学习框架word2vec训练词向量,通过词向量进行文本特征表示,通过最近邻分类kNN判断无标签的词所对应的词向量所属的类别,依据同一类别中有标签的词的标签将无标签的词加上对应的标签。优选地,在对标签进行人工审核后,将无标签的词加上对应的标签。优选地,在所述步骤3之后,并所述步骤4之前还包括:由人工对未登录的行业术语及未登录的命名实体进行审核并修改后,进入所述步骤4。本专利技术提出一种基于大数据技术的闭环设计方案进行电子病历文本解析的方法,从高频词探查和粗分词典的构建出发提出了从病历文本探查到命名实体识别、词语类别标注的电子病历文本解析闭环设计,获得包含更多未登陆词的字典,进而电子病历分词更为准确,词向量的计算也随之更准确,这样,更多的词可以被标注类别,达到提高命名实体识别准确率的实际效果,是对于目前医疗文本数据的结构化处理大多依赖通用分词工具或医学知识库,而通用分词工具对专业术语的识别效果并不理想、且国内的中文医学术语标准化进程不足的问题提供了有效解决方案,为中文电子病历文本解析提供了创新思路,对深入研究医疗卫生领域信息化处理,提高医疗卫生智能化信息服务具有重要意义。附图说明图1为前提与产出闭环示意图;图2为基于大数据技术的电子病历文本解析闭环详述;图3为电子病历后结构化基本步骤;图4为Word2vec+kNN的词语类别标注结果;图5为基于大数据技术的电子病历文本解析闭环效果。具体实施方式下面结合具体实施例,进一步阐述本专利技术。应理解,这些实施例仅用于说明本专利技术而不用于限制本专利技术的范围。此外应理解,在阅读了本专利技术讲授的内容之后,本领域技术人员可以对本专利技术作各种改动或修改,这些等价形式同样落于本申请所附权利要求书所限定的范围。本专利技术示意图见图1、内容详述见图2。本专利技术提供的一种基于大数据技术的电子病历文本解析闭环方法包括以下步骤:步骤1、由已登录的行业术语组成粗分词典,由已登录的行业术语及命名实体组成精确分词词典,命名实体为医疗领域所使用的不常见的、不能穷举的词;步骤2、计算精确分词词典中各词的词向量,对词向量进行聚类分析,为没有标准的不同类别的词向量所对应的词加上不同的标签,由带有标签的词及其对应的标签组成带标签的词语训练集步骤3、基于粗分字典利用高频词探查技术探查对电子病历文本进行高频词探查,发现电子病历文本中粗分词典已登录的行业术语及未登录的行业术语;以带标签的词语训练集对条件随机场进行训练,使用训练后的条件随机场识别出电子病历文本中精确分词词典已登录的命名实体及精确分词词典未登录的命名实体;步骤4、由人工对未登录的行业术语及未登录的命名实体进行审核并修改后,进入所述步骤5;步骤5、将上一步得到的未登录的行业术语及未登录的命名实体补充入精确分词词典中,本文档来自技高网
...

【技术保护点】
1.一种基于大数据技术的电子病历文本解析闭环方法,其特征在于,包括以下步骤:步骤1、由已登录的行业术语组成粗分词典,由已登录的行业术语及命名实体组成精确分词词典,命名实体为医疗领域所使用的不常见的、不能穷举的词;步骤2、计算精确分词词典中各词的词向量,对词向量进行聚类分析,为没有标准的不同类别的词向量所对应的词加上不同的标签,由带有标签的词及其对应的标签组成带标签的词语训练集步骤3、基于粗分字典利用高频词探查技术探查对电子病历文本进行高频词探查,发现电子病历文本中粗分词典已登录的行业术语及未登录的行业术语;以带标签的词语训练集对条件随机场进行训练,使用训练后的条件随机场识别出电子病历文本中精确分词词典已登录的命名实体及精确分词词典未登录的命名实体;步骤4、将上一步得到的未登录的行业术语及未登录的命名实体补充入精确分词词典中,并将上一步得到的未登录的行业术语补充入粗分词典中,形成更新后的粗分词典及精确分词词典后返回步骤2。

【技术特征摘要】
1.一种基于大数据技术的电子病历文本解析闭环方法,其特征在于,包括以下步骤:步骤1、由已登录的行业术语组成粗分词典,由已登录的行业术语及命名实体组成精确分词词典,命名实体为医疗领域所使用的不常见的、不能穷举的词;步骤2、计算精确分词词典中各词的词向量,对词向量进行聚类分析,为没有标准的不同类别的词向量所对应的词加上不同的标签,由带有标签的词及其对应的标签组成带标签的词语训练集步骤3、基于粗分字典利用高频词探查技术探查对电子病历文本进行高频词探查,发现电子病历文本中粗分词典已登录的行业术语及未登录的行业术语;以带标签的词语训练集对条件随机场进行训练,使用训练后的条件随机场识别出电子病历文本中精确分词词典已登录的命名实体及精确分词词典未登录的命名实体;步骤4、将上一步得到的未登录的行业术语及未登录的命名实体补充入精确...

【专利技术属性】
技术研发人员:王晔张敬谊李光亚桑伟毅姜峰丁海明路平
申请(专利权)人:万达信息股份有限公司
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1