System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 电子病历识别与检索系统及方法技术方案_技高网

电子病历识别与检索系统及方法技术方案

技术编号:41321705 阅读:5 留言:0更新日期:2024-05-13 15:00
本发明专利技术提供了一种电子病历识别与检索系统及方法,系统借助于单片机技术和5G网络通信技术完成中文电子病历识别与检索以及传输,从而实现不同医院间的资源共享;所述方法可以实现电子病历识别与检索。利用深度学习的模型,并将其与自然语言处理,让机器读懂电子病历文本中的内容,深度挖掘电子病历有用信息。在医疗环境中,面对海量的电子病历数据,能够依据患者的临床病历信息判断他们疾病的相似程度,然后根据相似性度量,可以检索出相似病历,进一步构成相似患者的研究队列,能够帮助医疗人员可以通过对比相似病历进行辅助诊断,并实现不同医院间的医学信息传输,从而达到医疗资源共享。

【技术实现步骤摘要】

本专利技术涉及单片机技术和5g 网络通信,尤其是电子病历识别与检索系统及方法


技术介绍

1、电子病历记录有一系列与患者健康状况密切相关的重要信息,这些信息是医疗信息系统的核心数据,利用电子病历挖掘有用信息是现代化医疗中非常重要的任务。随着医疗信息化的快速发展,电子病历在各大医院的应用越来越普及,如何在海量的电子病历数据中进行有效快速地识别和检索,已经成为亟待解决的问题。

2、graves 等人率先提出了双向lstm 模型(参见graves a, jurgenschmidhuber.framewise phoneme classification with bidirectional lstm andother neural networkarchitectures[j].neural netw,2005,18(5):602-610.)将单向lstm 变为双向结构,使该模型在命名实体识别等序列标注任务中得到广泛应用。该方法的原理是通过双向长短时记忆网络学习上下文的时序信息,并利用“门”结构解决了rnn 容易出现梯度消失的问题,使网络能够获取到更多的信息,解决了长时依赖问题。然而,电子病历文本表达上有其独特的文本特点,往往重要信息只在几个字,因此,需要对重要信息给予更多的关注,从而机器读懂电子病历文本信息。

3、cho 等人于 2014年提出门循环单元(gated recurrent unit, gru),是rnn 的另一种变体(参考cho k, van merrienboer b, gulcehre c, et al. learning phraserepresentations using rnn encoder-decoder for statistical machine translation[j].computer science,2014. )。该方法的原理是将输入门与遗忘门合成一个独立的更新门,与lstm 相比结构更加简单,参数更少,可以加快训练时间。但该方法同样具有明显缺陷:未考虑文本的位置信息,忽略了位置信息对文本语义理解的重要性。


技术实现思路

1、本专利技术所要解决的技术问题在于提供一种电子病历识别与检索系统。

2、本专利技术所要解决的另一技术问题在于提供上述电子病历识别与检索系统的控制方法。

3、为解决上述技术问题,本专利技术的技术方案是:

4、一种电子病历识别与检索系统的控制方法,包括以下步骤:

5、(1)对电子病历中与医疗领域有关的实体进行识别;

6、(1-1)将电子病历数据集进行预处理;

7、(1-2)对预处理过的电子病历数据集进行识别,具体步骤为:

8、①在python2.7的pycharm编辑器中搭建模型,模型中引入多头注意力层机制;多头注意力层(multi-head attention layer)机制是多个注意力机制的组合,注意力机制公式如公式(1-1);多头注意力层的主要作用是在编码文本时,利用注意力机制通过当前文本信息计算当前信息与其他所有文本信息的相互关系;

9、  (1-1)

10、式(1-1)中,q、k和v均是输入词向量矩阵;dk是输入向量维度,即网络隐藏层神经元数;softmax()是非线性激活函数;

11、多头注意力层的核心是缩放的点积注意力(scaled dot-product attention),缩放的点积注意力是点积注意力的一种变形,和加性注意力相比,点乘机制利用矩阵相乘可以更加高效地完成运算,其计算公式如公式(1-2):

12、 (1-2)

13、式(1-2)中, w i q, w i k, w i v为投影矩阵,其数值可以随意设置;

14、接下来对输出向量进行拼接处理,如公式(1-3),为了避免深度学习中出现退化问题,还需要加入残差网络和层归一化操作;

15、 (1-3)

16、全连接前馈网络层(feed forward network layer)的输入为上一层多头注意力层的输出,全连接前馈网络的输出将进入下一个编码器;在向量输入下一层多头注意力层之前,需要对其进行残差处理和层归一化操作;

17、编码-解码注意力层(encoder-decoder attention layer)是 decoder 组件特有的结构,位于多头注意力层和全连接前馈网络层之间;编码-解码注意力层的输入由encoder 组件的输出向量和 dncoder 组件的多头注意力层输出向量组成,编码-解码注意力层的输出将进入全连接前馈网络层;

18、crf层是实体抽取的分类层,其计算公式如公式(1-4):

19、  (1-4)

20、式中,m是转移矩阵,表示从 y i标签转移到 y i+1标签的概率,表示第 i个词语被标记为标签 y i的概率, p(w,y)表示输入句子序列w被标记标签序列为 y i的概率分数,求出最大的 p(w,y)的值,即可得到当前样本w的最佳标签序列;

21、②将预处理过的电子病历数据集划分为训练集和测试集,电子病历数据(优选80%的电子病历数据)作为训练集,用训练集对模型进行训练优化,并保存其最优参数;

22、(2)对步骤(1)中识别出的文本进行相似性检索,包括:

23、(2-1)对电子病历进行预处理:

24、(2-2)对预处理过的电子病历数据集进行构建文本特征库:

25、①给当前文本信息分配不同的注意力权重,再利用当前文本的权重大小可获得新的语义表征,具体计算步骤如下所示:

26、首先,计算 query、key和 value矩阵,计算过程中需要用到 wq、wk和 wv三个权重矩阵,计算公式如(2-1)所示:

27、(2-1)

28、其中,a 表示字嵌入矩阵;

29、其次,计算 attention,attention值代表输入文本中每个字的注意力权重,该权重融合了句子中所有字的信息,从而得到一个全局表达的特征向量,其计算公式如式(2-2)所示:

30、(2-2)

31、式(2-2)中,dk表示每个字的向本文档来自技高网...

【技术保护点】

1.一种电子病历识别与检索系统的控制方法,其特征在于:包括以下步骤:

2.根据权利要求1所述的电子病历识别与检索系统的控制方法,其特征在于:所述电子病历为中文电子病历。

3.根据权利要求1所述的电子病历识别与检索系统的控制方法,其特征在于:所述步骤(1-1)中预处理步骤包括:

4.根据权利要求3所述的电子病历识别与检索系统的控制方法,其特征在于:所述人工序列标注是由人工标注电子病历数据集中的5类医学实体,在标注过程中,以医学临床相关的实体为对象,按照<标签>实体</标签>格式,把实体归类于所属类别,所述5类医学实体为症状和体征、检查和检验、身体部位、疾病和诊断、治疗。

5.根据权利要求1所述的电子病历识别与检索系统的控制方法,其特征在于:所述步骤(1-2)的步骤②获得最优参数后,还包括步骤③用数据集的20%作为测试集,对网络模型进行测试,从而验证其识别性能。

6.根据权利要求1所述的电子病历识别与检索系统的控制方法,其特征在于:所述步骤(2-1)中预处理步骤包括:

7.根据权利要求1所述的电子病历识别与检索系统的控制方法,其特征在于:所述步骤(2-2)的步骤①利用注意力机制给当前文本信息分配不同的注意力权重。

8.根据权利要求1所述的电子病历识别与检索系统的控制方法,其特征在于:将所述步骤(2-4)中检索结果通过5G网络通信技术或USB 接口进行资源共享。

9.一种电子病历识别与检索系统,其特征在于:包括插有芯片的单片机,程序导入单片机的RAM中,通过单片机的RAM执行权利要求1-8之一所述电子病历识别与检索系统的控制方法。

10.根据权利要求9所述的电子病历识别与检索系统,所述芯片为插有 5G网络通信技术的芯片;所述单片机具有USB接口。

...

【技术特征摘要】

1.一种电子病历识别与检索系统的控制方法,其特征在于:包括以下步骤:

2.根据权利要求1所述的电子病历识别与检索系统的控制方法,其特征在于:所述电子病历为中文电子病历。

3.根据权利要求1所述的电子病历识别与检索系统的控制方法,其特征在于:所述步骤(1-1)中预处理步骤包括:

4.根据权利要求3所述的电子病历识别与检索系统的控制方法,其特征在于:所述人工序列标注是由人工标注电子病历数据集中的5类医学实体,在标注过程中,以医学临床相关的实体为对象,按照<标签>实体</标签>格式,把实体归类于所属类别,所述5类医学实体为症状和体征、检查和检验、身体部位、疾病和诊断、治疗。

5.根据权利要求1所述的电子病历识别与检索系统的控制方法,其特征在于:所述步骤(1-2)的步骤②获得最优参数后,还包括步骤③用数据集的20%作为测试集...

【专利技术属性】
技术研发人员:张福青李博赵秀圆康晓东崔洪彬董桂君王栋梁
申请(专利权)人:天津医科大学第二医院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1