当前位置: 首页 > 专利查询>中南大学专利>正文

中文电子病历数据的临床表现信息抽取方法和设备技术

技术编号:22078779 阅读:28 留言:0更新日期:2019-09-12 15:12
本发明专利技术提供一种中文电子病历数据的临床表现信息抽取方法,所述方法包括:确定医学术语描述规范集合,所述术语描述规范集合包括下述类别的术语:症状、疾病、体征、检查、检验、人群、药物和手术中的一者或多者,每个类别的医学术语包括一种或多种属性描述;根据所述医学术语描述规范集合在临床电子病历的文本数据中标注临床表现实体,所述临床表现实体为包括中心词和约束属性的短语实体;将所标注出的临床表现实体转换为JSON格式表示的规范医学术语。本发明专利技术通过临床表现实体的数据结构形式以及对应的抽取和翻译模型,能够将非结构化的中文电子病历数据转换为JSON格式的规范医学术语。

Method and equipment for extracting clinical manifestation information from Chinese electronic medical record data

【技术实现步骤摘要】
中文电子病历数据的临床表现信息抽取方法和设备
本专利技术涉及中文电子病历数据处理,更为具体而言,涉及一种中文电子病历数据的临床表现信息抽取方法和设备。
技术介绍
电子病历信息中蕴含了丰富的患者相关信息。这些信息都以半结构化和非结构化的形式展现,有些甚至以一些口语化,非规范化的方式进行描述,然而这些都不利于计算机去有效的理解、存储、检索和分析。为了高效的利用这些数据,对电子病历进行精准化的信息提取以形成知识,这将有助于多个应用场景:临床学术研究、辅助决策支持、信息化质控、相似病历检索、知识图谱构建等等。
技术实现思路
本专利技术提供一种中文电子病历数据的临床表现信息抽取方法和设备,将非结构化的电子病历的文本数据按照诸如症状或体征之类的医学术语的需要,设计了包括中心词和约束属性的临床表现实体结构对文本数据进行标注,能够提高非结构化的文本数据进行结构化表示的准确度;其次,针对上述临床表现实体的数据结构要求,设计基于BiLSTM-CRF网络模型对文本数据进行序列标注,学习文本数据的标签序列之间的限定关系,提高临床表现实体标注的准确度;对于标注出的临床表现实体,设计基于Transformer网络模型的翻译模型将临床表现实体转换为JSON格式的结构化标准医学术语,进一步提高文本形式的电子病历数据的结构化表示的准确度。本专利技术申请实施方式的第一方面,提供一种中文电子病历数据的临床表现信息抽取方法,所述方法包括:确定医学术语描述规范集合,所述术语描述规范集合包括下述类别的术语:症状、疾病、体征、检查、检验、人群、药物和手术中的一者或多者,每个类别的医学术语包括一种或多种属性描述;根据所述医学术语描述规范集合在临床电子病历的文本数据中标注临床表现实体,所述临床表现实体为包括中心词和约束属性的短语实体;将所标注出的临床表现实体转换为JSON格式表示的规范医学术语。在一些实施方式中,每个类别的医学术语的描述规范包括:中心词和一个或多个针对所述中心词的约束词,所述约束词为所述临床表现实体的约束属性,所述约束属性包括:加重因素、减轻因素、部位、时间、规律、性状、性质、程度、颜色、气味、诱因和别名。在一些实施方式中,所述根据所述医学术语描述规范集合在临床电子病历文本数据中标注临床表现实体包括:对临床电子病历文本数据采用BIEO方式进行序列标记,其中,B-i表示实体序列的开头,I-i表示实体序列的中间部分,E-i表示实体序列的结尾,O表示非实体序列部分,i表示的标注实体的类别,采用数字的方式进行类别区分,例如,第一数值表示症状有,第二数值表示症状无,第三数值表示体征有,第四数值表示体征无。在一些实施方式中,所述根据所述医学术语描述规范集合从在临床电子病历的文本数据中标注临床表现实体包括:采用基于BiLSTM-CRF深度学习网络的临床表现实体提取模型标注临床表现实体,其中,所述临床表现实体提取模型包括输入和三个处理层,所述输入为临床电子病历文本数据中的句子,该句子的序列表示为:x=(x1,x2,x3,...,xn)其中xi表示句子中第i个字在全局字典中的位置索引,所述全局字典是训练集中所有的字去重后所形成的有序列表。在一些实施方式中,所述三个处理层包括第一嵌入层、BiLSTM层和CRF层,其中,嵌入层是对句子中每一个输入的字生成随机字向量Xi,向量维度为d,BiLSTM层,将句子中的各个自向量作为双向LSTM各个时间步的输入,再将正向LSTM输出的隐状态序列(HL1,HL2,HL3,…,HLn)与反向LSTM输出的进行按位拼接:Hi=[HLi|HRi]其中i表示序列中的第i个时间步,拼接后的向量维度为m,其中m=2*d,拼接后得到了完整的隐状态序列为:H=(H1,H2,H3,...,Hn)n×m在获得隐状态矩阵之后,接入一个线性层将n行的隐状态向量从m映射到k维,其中k维是标注的输入句子的标签数,从而得到得分矩阵P:P=(P1,P2,P3,...,Pn)n×k其中,Pi表示输入句子的第i个字对于所有标签的一个k维向量,而向量中的每个值Pij表示第i个字分类到第j个标签的得分值。但是这样的得分预测结果没有很好的利用已经标注过的信息(标注序列的路径约束),所以进一步引入CRF层来进行标注。CRF层,CRF层从训练的数据中学习标签序列之间的限制关系。在一些实施方式中,所述将所标注出的临床表现实体转换为JSON格式表示的规范医学术语包括:将所述临床表现实体提取模型标注出的临床表现实体作为输入,采用基于注意力机制的transformer模型,确定JSON格式表示的规范医学术语,所述transformer模型包括输入、第二嵌入层、编码层和解码层。在一些实施方式中,所述第二嵌入层的输入向量为所述临床表现实体中每个字的向量和位置向量相加,X=(X1+T1,X2+T2,X3+T3,...,Xn+Tn)其中,X1表示临床表现实体中第一个字的向量,维度设为d,T1为第一个字的位置向量,向量的维度也是d,位置向量的计算方式如下:其中,pos表示的是当前字在临床表现实体中的位置,i表示向量的索引位置,d为向量维度;所述编码层的输入为嵌入层输出的n行d列的矩阵,由预定个数的相同的编码单元串联形成,各个编码单元相对独立但不共享权值,每个编码单元由self-attention层以及全连接层组成,每一层都会采用残差连接将该层的输入与输出进行连接并采用LayerNormalization进行标准化;所述解码层由所述预定个数的解码单元构成,所述解码单元相对独立但不共享权值,每个解码单元相对于编码单元多了用于计算编码层输出的中间层Self-Attention(MaskedMulti-Head),并且采用LayerNormalization对该层输出进行标准化,所述中间层的输入来自于已经预测出字符序列所形成嵌入向量。在一些实施方式中,所述transformer模型的输出在所述解码层后经过liner层以及softmax层对目标字典中所有的字空间进行映射,计算得出当前位置在目标字典中所有字的概率,而选择概率最大的作为当前位置的预测结果。本专利技术申请实施方式的第二方面,提供一种计算机设备,包括存储器和处理器,其中,存储器,存储有计算机代码;处理器,配置为执行所述计算机代码以使所述计算机设备执行上面所述的方法。附图说明图1示出了根据本专利技术一些实施方式的中文电子病历数据的临床表现信息抽取方法的流程示意图。图2示出了根据本专利技术一些实施方式的标注实例。图3示出了根据本专利技术一些实施方式的BiLSTM-CRF网络模型的结构示意图。图4示出了根据本专利技术一些实施方式的transformer模型的结构示意图。图5示出了根据本专利技术一些实施方式的完整提取模型的架构示意图。图6示出了根据本专利技术一些实施方式的计算机设备的结构示意图。具体实施方式以下结合附图和具体实施方式对本专利技术的各个方面进行详细阐述。其中,众所周知的模块、单元及其相互之间的连接、链接、通信或操作没有示出或未作详细说明。并且,所描述的特征、架构或功能可在一个或一个以上实施方式中以任何方式组合。本领域技术人员应当理解,下述的各种实施方式只用于举例说明,而非用于限制本专利技术的保护范围。还可以容易理解,本文所述和附图所示的各实施方式中的模块或单元或处本文档来自技高网...

【技术保护点】
1.一种中文电子病历数据的临床表现信息抽取方法,其特征在于,所述方法包括:确定医学术语描述规范集合,所述术语描述规范集合包括下述类别的术语:症状、疾病、体征、检查、检验、人群、药物和手术中的一者或多者,每个类别的医学术语包括一种或多种属性描述;根据所述医学术语描述规范集合在临床电子病历的文本数据中标注临床表现实体,所述临床表现实体为包括中心词和约束属性的短语实体;将所标注出的临床表现实体转换为JSON格式表示的规范医学术语。

【技术特征摘要】
1.一种中文电子病历数据的临床表现信息抽取方法,其特征在于,所述方法包括:确定医学术语描述规范集合,所述术语描述规范集合包括下述类别的术语:症状、疾病、体征、检查、检验、人群、药物和手术中的一者或多者,每个类别的医学术语包括一种或多种属性描述;根据所述医学术语描述规范集合在临床电子病历的文本数据中标注临床表现实体,所述临床表现实体为包括中心词和约束属性的短语实体;将所标注出的临床表现实体转换为JSON格式表示的规范医学术语。2.根据权利要求1所述的方法,其特征在于,每个类别的医学术语的描述规范包括:中心词和一个或多个针对所述中心词的约束词,所述约束词为所述临床表现实体的约束属性,所述约束属性包括:加重因素、减轻因素、部位、时间、规律、性状、性质、程度、颜色、气味、诱因和别名。3.根据权利要求1所述的方法,其特征在于,所述根据所述医学术语描述规范集合在临床电子病历文本数据中标注临床表现实体包括:对临床电子病历文本数据采用BIEO方式进行序列标记,其中,B-i表示实体序列的开头,I-i表示实体序列的中间部分,E-i表示实体序列的结尾,O表示非实体序列部分,i表示的标注实体的类别,采用数值的方式进行类别区分,第一数值表示症状有,第二数值表示症状无,第三数值表示体征有,第四数值表示体征无。4.根据权利要求3所述的方法,其特征在于,所述根据所述医学术语描述规范集合从在临床电子病历的文本数据中标注临床表现实体包括:采用基于BiLSTM-CRF深度学习网络的临床表现实体提取模型标注临床表现实体,其中,所述临床表现实体提取模型包括输入和三个处理层,所述输入为临床电子病历文本数据中的句子,该句子的序列表示为:x=(x1,x2,x3,...,xn)其中xi表示句子中第i个字在全局字典中的位置索引,所述全局字典是训练集中所有的字去重后所形成的有序列表。5.根据权利要求4所述的方法,其特征在于,所述三个处理层包括第一嵌入层、BiLSTM层和CRF层,其中,嵌入层是对句子中每一个输入的字生成随机字向量Xi,向量维度为d,BiLSTM层,将句子中的各个自向量作为双向LSTM各个时间步的输入,再将正向LSTM输出的隐状态序列(HL1,HL2,HL3,…,HLn)与反向LSTM输出的进行按位拼接:Hi=[HLi|HRi]其中i表示序列中的第i个时间步,拼接后的向量维度为m,其中m=2*d,拼接后得到了完整的隐状态序列为:H=(H1,H2,H3,...,Hn)n×m在获得隐状态矩阵之后,接入一个线性层将n行的...

【专利技术属性】
技术研发人员:武学鸿李敏李建华肖超
申请(专利权)人:中南大学
类型:发明
国别省市:湖南,43

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1