疾病知识挖掘方法、装置、电子设备和存储介质制造方法及图纸

技术编号:37768007 阅读:9 留言:0更新日期:2023-06-06 13:29
本发明专利技术公开了一种疾病知识挖掘方法、装置、电子设备和存储介质,属于数据挖掘技术领域,其中,疾病知识挖掘方法包括:从疾病数据库中获取待挖掘的多源原始数据;基于预先构建的扩展疾病列表,对原始数据进行筛选;对筛选后的原始数据进行数据预处理;对预处理后的原始数据进行实体识别,得到预处理后的原始数据对应的实体信息;基于实体信息,对预处理后的原始数据进行疾病知识挖掘,对挖掘的疾病知识进行标准化处理,得到标准疾病知识;对标准疾病知识进行去重处理,得到预处理后的原始数据对应的疾病知识文本。本发明专利技术可对不同来源的原始数据进行疾病知识挖掘,提高了疾病知识挖掘的效率和准确率。效率和准确率。效率和准确率。

【技术实现步骤摘要】
疾病知识挖掘方法、装置、电子设备和存储介质


[0001]本专利技术涉及数据挖掘
,尤其涉及一种疾病知识挖掘方法、装置、电子设备和存储介质。

技术介绍

[0002]疾病是医学研究的核心,打造通用的疾病知识库,对于打通医学全场景的服务至关重要。关于疾病的知识,目前已有多种数据源的形式呈现,包括医学权威数据和医学临床数据。目前围绕疾病知识进行数据挖掘的方法,普遍有两种模式,第一类是人工+规则模式,第二类是模型模式。人工+规则方法效率低;模型模式主要针对某一特定类型的数据源进行疾病知识挖掘,存在应用场景单一的问题。

技术实现思路

[0003]本专利技术提供一种疾病知识挖掘方法、装置、电子设备和存储介质,用以解决现有疾病知识挖掘方案存在的效率低、应用场景单一的问题。
[0004]本专利技术提供了一种疾病知识挖掘方法,包括:
[0005]从疾病数据库中获取待挖掘的多源原始数据;
[0006]基于预先构建的扩展疾病列表,对所述原始数据进行筛选;
[0007]对筛选后的原始数据进行数据预处理;
[0008]对预处理后的原始数据进行实体识别,得到所述预处理后的原始数据对应的实体信息;
[0009]基于所述实体信息,对所述预处理后的原始数据进行疾病知识挖掘,对挖掘的疾病知识进行标准化处理,得到标准疾病知识;
[0010]对所述标准疾病知识进行去重处理,得到所述预处理后的原始数据对应的疾病知识文本;
[0011]其中,所述扩展疾病列表是由标准疾病列表进行扩充得到的,包括标准疾病名称和同义疾病名称。
[0012]在一些实施例中,所述基于预先构建的扩展疾病列表,对所述原始数据进行筛选,包括:
[0013]确定所述原始数据对应的疾病诊断名;
[0014]将所述原始数据对应的疾病诊断名与所述扩展疾病列表进行比对;
[0015]在所述原始数据对应的疾病诊断名在所述扩展疾病列表中的情况下,保留所述原始数据;在所述原始数据对应的疾病诊断名不在所述扩展疾病列表中的情况下,剔除所述原始数据;
[0016]其中,所述原始数据包括入库病历数据、线上病历数据和检查检验报告单数据中的至少一种。
[0017]在一些实施例中,所述对筛选后的原始数据进行数据预处理,包括:
[0018]基于所述筛选后的原始数据,提取关键字段,形成统一格式的文件;
[0019]对所述统一格式的文件进行数据清洗,剔除所述统一格式的文件中的无效字符;
[0020]其中,所述关键字段是指所述筛选后的原始数据中与所述扩展疾病列表关联的字段。
[0021]在一些实施例中,所述基于所述实体信息,对所述预处理后的原始数据进行疾病知识挖掘,对挖掘的疾病知识进行标准化处理,得到标准疾病知识,包括:
[0022]将所述实体信息中的疾病诊断名与所述扩展疾病列表中的疾病名称进行匹配;
[0023]基于匹配上的疾病诊断名,对所述实体信息进行筛选,保留与所述匹配上的疾病诊断名关联的疾病知识;
[0024]基于筛选后的疾病知识,通过标准术语表对每个实体词汇进行标准化处理,将同义词映射成为标准词,剔除与标准术语表无关联的实体词汇,得到标准疾病知识。
[0025]在一些实施例中,所述对所述标准疾病知识进行去重处理,包括以下至少一项:
[0026]基于疾病知识库中已有的数据对所述标准疾病知识进行去重;
[0027]基于医生已审核的过往错误数据对所述标准疾病知识进行去重;
[0028]基于所述标准疾病知识自身对所述标准疾病知识进行去重。
[0029]在一些实施例中,其特征在于,所述得到所述预处理后的原始数据对应的疾病知识文本之后,还包括:
[0030]记录所述原始数据的频次和来源;
[0031]对所述预处理后的原始数据对应的疾病知识文本进行审核,对错误数据进行标注,将正确类别的词汇纳入所述疾病知识库中,并将所述预处理后的原始数据对应的疾病知识文本归为历史文件存档。
[0032]在一些实施例中,所述对预处理后的原始数据进行实体识别,得到所述预处理后的原始数据对应的实体信息,包括:
[0033]将所述预处理后的原始数据输入实体抽取模型,进行实体识别,得到所述预处理后的原始数据对应的实体信息;
[0034]其中,所述实体抽取模型为,以预处理后的原始训练数据作为训练样本,以所述预处理后的原始训练数据对应的实体信息作为训练标签训练得到。
[0035]在一些实施例中,所述实体抽取模型的训练过程,包括:
[0036]从所述疾病数据库中获取待挖掘的多源原始训练数据;
[0037]基于预先构建的所述扩展疾病列表,对所述原始训练数据进行筛选,并对筛选后的原始训练数据进行数据预处理;
[0038]以预处理后的原始训练数据作为训练样本,以所述预处理后的原始训练数据对应的实体信息作为训练标签训练初始实体抽取模型;
[0039]在所述初始实体抽取模型训练完成后,得到所述实体抽取模型。
[0040]本专利技术还提供一种疾病知识挖掘装置,包括:
[0041]获取单元,用于从疾病数据库中获取待挖掘的多源原始数据;
[0042]筛选单元,用于基于预先构建的扩展疾病列表,对所述原始数据进行筛选;
[0043]数据预处理单元,用于对筛选后的原始数据进行数据预处理;
[0044]实体识别单元,用于对预处理后的原始数据进行实体识别,得到所述预处理后的
原始数据对应的实体信息;
[0045]疾病知识提取单元,用于基于所述实体信息,对所述预处理后的原始数据进行疾病知识挖掘,对挖掘的疾病知识进行标准化处理,得到标准疾病知识;
[0046]去重处理单元,用于对所述标准疾病知识进行去重处理,得到所述预处理后的原始数据对应的疾病知识文本;
[0047]其中,所述扩展疾病列表是由标准疾病列表进行扩充得到的,包括标准疾病名称和同义疾病名称。
[0048]本专利技术还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述疾病知识挖掘方法。
[0049]本专利技术还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述疾病知识挖掘方法。
[0050]本专利技术还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述疾病知识挖掘方法。
[0051]本专利技术提供的一种疾病知识挖掘方法、装置、电子设备和存储介质,通过对疾病数据库中待挖掘的多源原始数据进行筛选和预处理,提高了数据处理效率,通过对预处理后的原始数据进行实体识别,基于识别的实体信息,对预处理后的原始数据进行疾病知识挖掘,得到标准疾病知识,并对得到的标准疾病知识进行去重处理,提高了疾病知识挖掘的效率和准确率,便于对不同来源的原始数据进行疾本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种疾病知识挖掘方法,其特征在于,包括:从疾病数据库中获取待挖掘的多源原始数据;基于预先构建的扩展疾病列表,对所述原始数据进行筛选;对筛选后的原始数据进行数据预处理;对预处理后的原始数据进行实体识别,得到所述预处理后的原始数据对应的实体信息;基于所述实体信息,对所述预处理后的原始数据进行疾病知识挖掘,对挖掘的疾病知识进行标准化处理,得到标准疾病知识;对所述标准疾病知识进行去重处理,得到所述预处理后的原始数据对应的疾病知识文本;其中,所述扩展疾病列表是由标准疾病列表进行扩充得到的,包括标准疾病名称和同义疾病名称。2.根据权利要求1所述的疾病知识挖掘方法,其特征在于,所述基于预先构建的扩展疾病列表,对所述原始数据进行筛选,包括:确定所述原始数据对应的疾病诊断名;将所述原始数据对应的疾病诊断名与所述扩展疾病列表进行比对;在所述原始数据对应的疾病诊断名在所述扩展疾病列表中的情况下,保留所述原始数据;在所述原始数据对应的疾病诊断名不在所述扩展疾病列表中的情况下,剔除所述原始数据;其中,所述原始数据包括入库病历数据、线上病历数据和检查检验报告单数据中的至少一种。3.根据权利要求1所述的疾病知识挖掘方法,其特征在于,所述对筛选后的原始数据进行数据预处理,包括:基于所述筛选后的原始数据,提取关键字段,形成统一格式的文件;对所述统一格式的文件进行数据清洗,剔除所述统一格式的文件中的无效字符;其中,所述关键字段是指所述筛选后的原始数据中与所述扩展疾病列表关联的字段。4.根据权利要求1所述的疾病知识挖掘方法,其特征在于,所述基于所述实体信息,对所述预处理后的原始数据进行疾病知识挖掘,对挖掘的疾病知识进行标准化处理,得到标准疾病知识,包括:将所述实体信息中的疾病诊断名与所述扩展疾病列表中的疾病名称进行匹配;基于匹配上的疾病诊断名,对所述实体信息进行筛选,保留与所述匹配上的疾病诊断名关联的疾病知识;基于筛选后的疾病知识,通过标准术语表对每个实体词汇进行标准化处理,将同义词映射成为标准词,剔除与标准术语表无关联的实体词汇,得到标准疾病知识。5.根据权利要求1所述的疾病知识挖掘方法,其特征在于,所述对所述标准疾病知识进行去重处理,包括以下至少一项:基于疾病知识库中已有的数据对所述标准疾病知识进行去重;基于医生已审核的过往错误数据对所述标准疾病知识进行去重;基于所述标准疾病知识自身对所述标准疾病知识进行去重。
6.根据权利要求2
...

【专利技术属性】
技术研发人员:胡博靖肖飞胡加学赵景鹤贺志阳鹿晓亮陈祖吉
申请(专利权)人:讯飞医疗科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1