System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及数据集构建领域,特别是涉及一种电子病历数据集构建方法、系统及电子设备。
技术介绍
1、电子病历作为医疗信息处理领域的一个重要组成部分,具有复杂性、多样性等特点。它们不仅包含了患者的基本信息,还涵盖了诊断报告、检验检查结果和药物处方等各种医疗数据。这些信息以结构化、半结构化以及非结构化的方式共存,构成了复杂的信息网络。此外,很多病历需要连续的观察和记录,形成大规模的时间序列数据,大大提高了信息长度。不同电子病历中涵盖的各个子领域相互交叉(内科、外科、妇产科等),且各个文书与检查中包含着许多医学领域专业术语,进一步提高了数据的复杂程度。
2、与其他通用任务(如翻译、段落总结等)不同,由于电子病历数据的复杂性和多样性,导致了如果不对模型进行有针对性的训练,常规的大语言模型通过zero-shot方式解决电子病历实际应用时的效果将会大打折扣。通常情况下,不经过专门训练的模型在处理如下方面会有显著的不足:
3、1.语义理解:由于医疗术语与日常语言有较大差异,常规模型往往无法准确解析电子病历中的深层含义。
4、2.特征选择:对于高维、多类型的电子病历数据,有效地识别出对特定医疗任务(比如诊断或预测)有用的特征是极其困难的。
5、3.噪声和异常值:电子病历经常包含有误或不完整的信息,这需要专门训练的模型来进行高效准确的处理。
6、目前,尽管存在一些与医疗信息处理相关的数据集和任务,如promptcblue,它包括医学文本命名实体识别(ner)、临床术语标准化和临床试验筛选
技术实现思路
1、本专利技术的目的是提供一种电子病历数据集构建方法、系统及电子设备,提供专为中文设计的大规模数据集,以提升电子病历领域模型的性能。
2、为实现上述目的,本专利技术提供了如下方案:
3、一种电子病历数据集构建方法,包括:
4、获取待构建数据集的电子病历数据;所述电子病历数据包括病程记录数据库表、出院记录数据库表、护理记录-体温单数据库表、门诊病历数据库表、入院记录数据库表和手术记录数据库表;对所述电子病历数据进行预处理,得到结构化电子病历数据;所述预处理包括数据表字段分析、数据聚合、数据格式化和数据脱敏;根据所述结构化电子病历数据,确定所述待构建数据集的下游任务,并建立所述下游任务相应的指令prompt模板集;所述下游任务包括电子病历的文书结构化任务、预估文本内容所属字段或文书任务和日常病程记录自动生成任务;所述指令prompt模板集包括任务描述、占位符和/或示例;
5、利用同义词替换方法,根据所述结构化电子病历数据和所述文书结构化任务的指令prompt模板集,确定所述文书结构化任务的第一任务数据;任务数据包括prompt、输入数据和输出数据;
6、利用候选项约束和否定性引导策略,根据所述结构化电子病历数据和所述预估文本内容所属字段或文书任务的指令prompt模板集,确定所述预估文本内容所属字段或文书任务的第二任务数据;利用时间序列技术与自适应数据清洗算法,根据所述结构化电子病历数据和所述日常病程记录自动生成任务的指令prompt模板集,确定日常病程记录自动生成任务的第三任务数据;
7、根据所述第一任务数据、所述第二任务数据和所述第三任务数据,确定电子病历数据集。
8、可选地,对所述电子病历数据进行预处理,得到结构化电子病历数据,具体包括:
9、对所述电子病历数据进行数据表字段分析,得到分析后的电子病历数据;
10、对所述分析后的电子病历数据进行数据聚合,得到聚合后的电子病历数据;
11、对所述聚合后的电子病历数据进行数据格式化,得到初始结构化的电子病历数据;
12、对所述初始结构化的电子病历数据进行数据脱敏,得到结构化的电子病历数据。
13、可选地,根据所述结构化电子病历数据,确定所述待构建数据集的下游任务,并建立所述下游任务相应的指令prompt模板集,具体包括:
14、根据所述结构化电子病历数据,确定所述待构建数据集的下游任务;
15、通过人工构建各所述下游任务的初始指令prompt;
16、利用chatgpt对各所述下游任务的初步指令prompt进行扩充,得到各所述下游任务相应的指令prompt集合。
17、可选地,利用同义词替换方法,根据所述结构化电子病历数据和所述文书结构化任务的指令prompt模板集,确定所述文书结构化任务的第一任务数据,具体包括:
18、获取所述结构化电子病历数据的所有字段名称集合;
19、获取所述字段名称集合中的输入字段集合和输出字段集合;根据所述文书结构化任务的指令prompt模板集、所述输入字段集合和所述输出字段集合,利用同义词替换方法,确定所述第一任务数据。
20、可选地,利用候选项约束和否定性引导策略,根据所述结构化电子病历数据和所述预估文本内容所属字段或文书任务的指令prompt模板集,确定所述预估文本内容所属字段或文书任务的第二任务数据具体包括:
21、获取所述结构化电子病历数据的所有字段名称集合;
22、根据所述预估文本内容所属字段或文书任务的指令prompt模板集和所述字段名称集合,利用候选项约束和否定性引导策略,确定所述第二任务数据。
23、可选地,利用时间序列技术与自适应数据清洗算法,根据所述结构化电子病历数据和所述日常病程记录自动生成任务的指令prompt模板集,确定日常病程记录自动生成任务的第三任务数据,具体包括:
24、获取所述结构化电子病历数据的所有字段名称集合;
25、根据所述日常病程记录自动生成任务的指令prompt模板集和所述字段名称集合,利用时间序列技术与自适应数据清洗算法,确定所述第三任务数据。
26、一种电子病历数据集构建系统,包括:
27、数据获取模块,用于获取待构建数据集的电子病历数据;所述电子病历数据包括病程记录数据库表、出院记录数据库表、护理记录-体温单数据库表、门诊病历数据库表、入院记录数据库表和手术记录数据库表;
28、预处理模块,用于对所述电子病历数据进行预处理,得到结构化电子病历数据;所述预处理包括数据表字段分析、数据聚合、数据格式化和数据脱敏;
29、下游任务和模板集确定模块,用于根据所述结构化电子病历数据,确定所述待构建数据集的下游任务,并建立所述下游任务相应的指令prompt模板集;所述下游任务包括电子病历的文书结构化任务、预估文本内容所属字段或文书任务和日常病程记录自动生成任务;所述指令prompt模板集包括任务描述、占位符和/或示例;
30、第一任务数据确定模块,用于利用同义词替换方本文档来自技高网...
【技术保护点】
1.一种电子病历数据集构建方法,其特征在于,包括:
2.根据权利要求1所述的电子病历数据集构建方法,其特征在于,对所述电子病历数据进行预处理,得到结构化电子病历数据,具体包括:
3.根据权利要求1所述的电子病历数据集构建方法,其特征在于,根据所述结构化电子病历数据,确定所述待构建数据集的下游任务,并建立所述下游任务相应的指令Prompt模板集,具体包括:
4.根据权利要求1所述的电子病历数据集构建方法,其特征在于,利用同义词替换方法,根据所述结构化电子病历数据和所述文书结构化任务的指令Prompt模板集,确定所述文书结构化任务的第一任务数据,具体包括:
5.根据权利要求1所述的电子病历数据集构建方法,其特征在于,利用候选项约束和否定性引导策略,根据所述结构化电子病历数据和所述预估文本内容所属字段或文书任务的指令Prompt模板集,确定所述预估文本内容所属字段或文书任务的第二任务数据具体包括:
6.根据权利要求1所述的电子病历数据集构建方法,其特征在于,利用时间序列技术与自适应数据清洗算法,根据所述结构化电子病历数据和所述
7.一种电子病历数据集构建系统,其特征在于,包括:
8.一种电子设备,其特征在于,包括:存储器及处理器,所述存储器用于存储计算机程序,所述处理器运行所述计算机程序以使所述电子设备执行权利要求1-6任一项所述的电子病历数据集构建方法。
9.根据权利要求8所述的电子设备,其特征在于,所述存储器为可读存储介质。
...【技术特征摘要】
1.一种电子病历数据集构建方法,其特征在于,包括:
2.根据权利要求1所述的电子病历数据集构建方法,其特征在于,对所述电子病历数据进行预处理,得到结构化电子病历数据,具体包括:
3.根据权利要求1所述的电子病历数据集构建方法,其特征在于,根据所述结构化电子病历数据,确定所述待构建数据集的下游任务,并建立所述下游任务相应的指令prompt模板集,具体包括:
4.根据权利要求1所述的电子病历数据集构建方法,其特征在于,利用同义词替换方法,根据所述结构化电子病历数据和所述文书结构化任务的指令prompt模板集,确定所述文书结构化任务的第一任务数据,具体包括:
5.根据权利要求1所述的电子病历数据集构建方法,其特征在于,利用候选项约束和否定性引导策略,根据所述结构化电子病历...
【专利技术属性】
技术研发人员:阮彤,王嘉诚,叶琪,王云鹏,刘井平,卞俣昂,翟洁,李艳豪,汪雅婷,
申请(专利权)人:华东理工大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。