中文电子病历数据的临床表现信息抽取方法和设备技术

技术编号：22078779 阅读：41 留言：0更新日期：2019-09-12 15:12

本发明专利技术提供一种中文电子病历数据的临床表现信息抽取方法，所述方法包括：确定医学术语描述规范集合，所述术语描述规范集合包括下述类别的术语：症状、疾病、体征、检查、检验、人群、药物和手术中的一者或多者，每个类别的医学术语包括一种或多种属性描述；根据所述医学术语描述规范集合在临床电子病历的文本数据中标注临床表现实体，所述临床表现实体为包括中心词和约束属性的短语实体；将所标注出的临床表现实体转换为JSON格式表示的规范医学术语。本发明专利技术通过临床表现实体的数据结构形式以及对应的抽取和翻译模型，能够将非结构化的中文电子病历数据转换为JSON格式的规范医学术语。

Method and equipment for extracting clinical manifestation information from Chinese electronic medical record data

全部详细技术资料下载

【技术实现步骤摘要】
中文电子病历数据的临床表现信息抽取方法和设备
本专利技术涉及中文电子病历数据处理，更为具体而言，涉及一种中文电子病历数据的临床表现信息抽取方法和设备。
技术介绍
电子病历信息中蕴含了丰富的患者相关信息。这些信息都以半结构化和非结构化的形式展现，有些甚至以一些口语化，非规范化的方式进行描述，然而这些都不利于计算机去有效的理解、存储、检索和分析。为了高效的利用这些数据，对电子病历进行精准化的信息提取以形成知识，这将有助于多个应用场景：临床学术研究、辅助决策支持、信息化质控、相似病历检索、知识图谱构建等等。
技术实现思路
本专利技术提供一种中文电子病历数据的临床表现信息抽取方法和设备，将非结构化的电子病历的文本数据按照诸如症状或体征之类的医学术语的需要，设计了包括中心词和约束属性的临床表现实体结构对文本数据进行标注，能够提高非结构化的文本数据进行结构化表示的准确度；其次，针对上述临床表现实体的数据结构要求，设计基于BiLSTM-CRF网络模型对文本数据进行序列标注，学习文本数据的标签序列之间的限定关系，提高临床表现实体标注的准确度；对于标注出的临床表现实体，设计基于Tran...

【技术保护点】
1.一种中文电子病历数据的临床表现信息抽取方法，其特征在于，所述方法包括：确定医学术语描述规范集合，所述术语描述规范集合包括下述类别的术语：症状、疾病、体征、检查、检验、人群、药物和手术中的一者或多者，每个类别的医学术语包括一种或多种属性描述；根据所述医学术语描述规范集合在临床电子病历的文本数据中标注临床表现实体，所述临床表现实体为包括中心词和约束属性的短语实体；将所标注出的临床表现实体转换为JSON格式表示的规范医学术语。

【技术特征摘要】
1.一种中文电子病历数据的临床表现信息抽取方法，其特征在于，所述方法包括：确定医学术语描述规范集合，所述术语描述规范集合包括下述类别的术语：症状、疾病、体征、检查、检验、人群、药物和手术中的一者或多者，每个类别的医学术语包括一种或多种属性描述；根据所述医学术语描述规范集合在临床电子病历的文本数据中标注临床表现实体，所述临床表现实体为包括中心词和约束属性的短语实体；将所标注出的临床表现实体转换为JSON格式表示的规范医学术语。2.根据权利要求1所述的方法，其特征在于，每个类别的医学术语的描述规范包括：中心词和一个或多个针对所述中心词的约束词，所述约束词为所述临床表现实体的约束属性，所述约束属性包括：加重因素、减轻因素、部位、时间、规律、性状、性质、程度、颜色、气味、诱因和别名。3.根据权利要求1所述的方法，其特征在于，所述根据所述医学术语描述规范集合在临床电子病历文本数据中标注临床表现实体包括：对临床电子病历文本数据采用BIEO方式进行序列标记，其中，B-i表示实体序列的开头，I-i表示实体序列的中间部分，E-i表示实体序列的结尾，O表示非实体序列部分，i表示的标注实体的类别，采用数值的方式进行类别区分，第一数值表示症状有，第二数值表示症状无，第三数值表示体征有，第四数值表示体征无。4.根据权利要求3所述的方法，其特征在于，所述根据所述医学术语描述规范集合从在临床电子病历的文本数据中标注临床表现实体包括：采用基于BiLSTM-CRF深度学习网络的临床表现实体提取模型标注临床表现实体，其中，所述临床表现实体提取模型包括输入和三个处理层，所述输入为临床电子病历文本数据中的句子，该句子的序列表示为：x＝(x1，x2，x3，...，xn)其中xi表示句子中第i个字在全局字典中的位置索引，所述全局字典是训练集中所有的字去重后所形成的有序列表。5.根据权利要求4所述的方法，其特征在于，所述三个处理层包括第一嵌入层、BiLSTM层和CRF层，其中，嵌入层是对句子中每一个输入的字生成随机字向量Xi，向量维度为d，BiLSTM层，将句子中的各个自向量作为双向LSTM各个时间步的输入，再将正向LSTM输出的隐状态序列(HL1,HL2,HL3,…,HLn)与反向LSTM输出的进行按位拼接:Hi＝[HLi|HRi]其中i表示序列中的第i个时间步，拼接后的向量维度为m，其中m＝2*d，拼接后得到了完整的隐状态序列为：H＝(H1，H2，H3，...，Hn)n×m在获得隐状态矩阵之后，接入一个线性层将n行的...

【专利技术属性】
技术研发人员：武学鸿，李敏，李建华，肖超，
申请(专利权)人：中南大学，
类型：发明
国别省市：湖南,43

全部详细技术资料下载我是这个专利的主人