System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 电子病历的噪声过滤方法、系统、电子设备及存储介质技术方案_技高网

电子病历的噪声过滤方法、系统、电子设备及存储介质技术方案

技术编号:40705006 阅读:5 留言:0更新日期:2024-03-22 11:04
本发明专利技术提供了一种电子病历的噪声过滤方法、系统、电子设备及存储介质,该方法包括:对待处理电子病历进行分词处理以得到多个待处理文本元素,待处理文本元素为字或词;确定待处理文本元素的多个指定特征值,以及确定待处理文本元素的多个普通特征值;将待处理文本元素的文本元素向量、多个指定特征值、多个普通特征值进行融合以得到相应的融合特征;将各个待处理文本元素对应的融合特征输入预设的噪声识别模型进行处理,以预测出待处理文本元素的标签;过滤待处理电子病历中标签为噪声标签的待处理文本元素。本发明专利技术基于融合特征和噪声识别模型预测出噪声标签的待处理文本元素进行过滤,有效提高噪声过滤效果和降低噪声误判率。

【技术实现步骤摘要】

本专利技术涉及数据处理,具体涉及一种电子病历的噪声过滤方法、系统、电子设备及存储介质


技术介绍

1、电子病历随着医学不断发展而不断迭代更新,这就使得电子病历呈现多样的形式;对于一些以非结构化形式存在的电子病历,在进行结构化处理时经常会掺杂一些与患者具体诊疗内容无关的噪声。

2、目前通常采用聚类算法来处理电子病历的噪声,但是聚类算法对初始值极度敏感,如果电子病历本身是无噪声的也会造成误判,噪声过滤效果较差和误判率较高。


技术实现思路

1、有鉴于此,本专利技术实施例提供一种电子病历的噪声过滤方法、系统、电子设备及存储介质,以解决聚类算法来处理电子病历噪声的方式存在的噪声过滤效果较差和误判率较高等问题。

2、为实现上述目的,本专利技术实施例提供如下技术方案:

3、本专利技术实施例第一方面公开一种电子病历的噪声过滤方法,所述方法包括:

4、对待处理电子病历进行分词处理以得到多个待处理文本元素,所述待处理文本元素为字或词;

5、确定所述待处理文本元素的多个指定特征值,以及确定所述待处理文本元素的多个普通特征值;

6、将所述待处理文本元素的文本元素向量、多个指定特征值、多个普通特征值进行融合以得到相应的融合特征;

7、将各个所述待处理文本元素对应的融合特征输入预设的噪声识别模型进行处理,以预测出所述待处理文本元素的标签,所述噪声识别模型基于样本电子病历训练特定模型得到;

8、过滤所述待处理电子病历中标签为噪声标签的所述待处理文本元素。

9、优选的,所述多个指定特征值至少包括困惑度影响度、文本多样性影响度、信息增益、词频-逆文档频率、距离度、相似度;

10、确定所述待处理文本元素的多个指定特征值的过程,包括:

11、确定所述待处理文本元素对目标句子的困惑度的影响程度,以得到所述待处理文本元素的困惑度影响度,所述目标句子为所述待处理文本元素所属的句子;

12、确定所述待处理文本元素在所有样本电子病历中的词频-逆文档频率;

13、确定所述待处理文本元素的文本元素向量与所述目标句子的均值向量之间的距离,以得到所述待处理文本元素的距离度,所述目标句子的均值向量为所述目标句子中各个文本元素向量的均值;

14、确定所述待处理文本元素的文本元素向量与目标文本的均值向量之间的相似度,以得到所述待处理文本元素的相似度,所述目标文本为与所述待处理电子病历相同类别的无噪声文本,所述目标文本的均值向量为所述目标文本中各个文本元素向量的均值;

15、确定所述待处理文本元素在所述目标句子中的信息增益;

16、确定所述待处理文本元素对所述目标句子的文本多样性的影响程度,以得到所述待处理文本元素的文本多样性影响度。

17、优选的,确定所述待处理文本元素对目标句子的困惑度的影响程度,以得到所述待处理文本元素的困惑度影响度,包括:

18、基于目标句子中各个文本元素同时出现的概率,确定所述目标句子的第一困惑度,所述目标句子中的文本元素为词或字;

19、基于剔除所述待处理文本元素后的所述目标句子中各个文本元素同时出现的概率,确定剔除所述待处理文本元素后的所述目标句子的第二困惑度;

20、计算所述第二困惑度与所述第一困惑度的比值,以得到所述待处理文本元素的困惑度影响度。

21、优选的,确定所述待处理文本元素对所述目标句子的文本多样性的影响程度,以得到所述待处理文本元素的文本多样性影响度,包括:

22、确定所述目标句子的第一文本多样性,以及确定剔除所述待处理文本元素后的所述目标句子的第二文本多样性;

23、计算所述第二文本多样性与所述第一文本多样性的比值,以得到所述待处理文本元素的文本多样性影响度。

24、优选的,所述多个普通特征值至少包括词性、词频和医学实体指示词。

25、优选的,所述特定模型至少包含双向长短期记忆网络和条件随机场;

26、基于样本电子病历训练特定模型得到所述噪声识别模型的过程,包括:

27、对样本电子病历进行分词处理以得到多个样本文本元素;

28、对所述样本文本元素进行标注;

29、确定标注后的所述样本文本元素的多个指定特征值和所述样本文本元素的多个普通特征值;

30、基于标注后的所述样本文本元素的多个指定特征值和所述样本文本元素的多个普通特征值,训练所述特定模型直至所述特定模型收敛,得到噪声识别模型。

31、本专利技术实施例第二方面公开一种电子病历的噪声过滤系统,所述系统包括:

32、分词模块,用于对待处理电子病历进行分词处理以得到多个待处理文本元素,所述待处理文本元素为字或词;

33、确定模块,用于确定所述待处理文本元素的多个指定特征值,以及确定所述待处理文本元素的多个普通特征值;

34、融合模块,用于将所述待处理文本元素的文本元素向量、多个指定特征值、多个普通特征值进行融合以得到相应的融合特征;

35、识别模块,用于将各个所述待处理文本元素对应的融合特征输入预设的噪声识别模型进行处理,以预测出所述待处理文本元素的标签,所述噪声识别模型基于样本电子病历训练特定模型得到;

36、过滤模块,用于过滤所述待处理电子病历中标签为噪声标签的所述待处理文本元素。

37、优选的,所述多个指定特征值至少包括困惑度影响度、文本多样性影响度、信息增益、词频-逆文档频率、距离度、相似度;用于确定所述待处理文本元素的多个指定特征值的所述确定模块,包括:

38、第一确定单元,用于确定所述待处理文本元素对目标句子的困惑度的影响程度,以得到所述待处理文本元素的困惑度影响度,所述目标句子为所述待处理文本元素所属的句子;

39、第二确定单元,用于确定所述待处理文本元素在所有样本电子病历中的词频-逆文档频率;

40、第三确定单元,用于确定所述待处理文本元素的文本元素向量与所述目标句子的均值向量之间的距离,以得到所述待处理文本元素的距离度,所述目标句子的均值向量为所述目标句子中各个文本元素向量的均值;

41、第四确定单元,用于确定所述待处理文本元素的文本元素向量与目标文本的均值向量之间的相似度,以得到所述待处理文本元素的相似度,所述目标文本为与所述待处理电子病历相同类别的无噪声文本,所述目标文本的均值向量为所述目标文本中各个文本元素向量的均值;

42、第五确定单元,用于确定所述待处理文本元素在所述目标句子中的信息增益;

43、第六确定单元,用于确定所述待处理文本元素对所述目标句子的文本多样性的影响程度,以得到所述待处理文本元素的文本多样性影响度。

44、本专利技术实施例第三方面公开一种电子设备,所述电子设备包括处理器和存储器,所述存储器用于存储电子病历的噪声过滤方法的程序代码和数据,本文档来自技高网...

【技术保护点】

1.一种电子病历的噪声过滤方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述多个指定特征值至少包括困惑度影响度、文本多样性影响度、信息增益、词频-逆文档频率、距离度、相似度;

3.根据权利要求2所述的方法,其特征在于,确定所述待处理文本元素对目标句子的困惑度的影响程度,以得到所述待处理文本元素的困惑度影响度,包括:

4.根据权利要求2所述的方法,其特征在于,确定所述待处理文本元素对所述目标句子的文本多样性的影响程度,以得到所述待处理文本元素的文本多样性影响度,包括:

5.根据权利要求1所述的方法,其特征在于,所述多个普通特征值至少包括词性、词频和医学实体指示词。

6.根据权利要求1-5中任一所述的方法,其特征在于,所述特定模型至少包含双向长短期记忆网络和条件随机场;

7.一种电子病历的噪声过滤系统,其特征在于,所述系统包括:

8.根据权利要求7所述的系统,其特征在于,所述多个指定特征值至少包括困惑度影响度、文本多样性影响度、信息增益、词频-逆文档频率、距离度、相似度;用于确定所述待处理文本元素的多个指定特征值的所述确定模块,包括:

9.一种电子设备,其特征在于,所述电子设备包括处理器和存储器,所述存储器用于存储电子病历的噪声过滤方法的程序代码和数据,所述处理器用于调用所述存储器中的程序指令执行如权利要求1-6中任一所述的一种电子病历的噪声过滤方法。

10.一种存储介质,其特征在于,所述存储介质包括存储程序,其中,在所述程序运行时控制所述存储介质所在设备执行如权利要求1-6中任一所述的一种电子病历的噪声过滤方法。

...

【技术特征摘要】

1.一种电子病历的噪声过滤方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述多个指定特征值至少包括困惑度影响度、文本多样性影响度、信息增益、词频-逆文档频率、距离度、相似度;

3.根据权利要求2所述的方法,其特征在于,确定所述待处理文本元素对目标句子的困惑度的影响程度,以得到所述待处理文本元素的困惑度影响度,包括:

4.根据权利要求2所述的方法,其特征在于,确定所述待处理文本元素对所述目标句子的文本多样性的影响程度,以得到所述待处理文本元素的文本多样性影响度,包括:

5.根据权利要求1所述的方法,其特征在于,所述多个普通特征值至少包括词性、词频和医学实体指示词。

6.根据权利要求1-5中任一所述的方法,其特征在于,所述特定模型至少包含双向...

【专利技术属性】
技术研发人员:吴迪车贺宾胡可云何昆仑陈联忠吴欢陈媛媛王万玲
申请(专利权)人:中国人民解放军总医院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1