【技术实现步骤摘要】
疾病知识挖掘方法、装置、电子设备和存储介质
[0001]本专利技术涉及数据挖掘
,尤其涉及一种疾病知识挖掘方法、装置、电子设备和存储介质。
技术介绍
[0002]疾病是医学研究的核心,打造通用的疾病知识库,对于打通医学全场景的服务至关重要。关于疾病的知识,目前已有多种数据源的形式呈现,包括医学权威数据和医学临床数据。目前围绕疾病知识进行数据挖掘的方法,普遍有两种模式,第一类是人工+规则模式,第二类是模型模式。人工+规则方法效率低;模型模式主要针对某一特定类型的数据源进行疾病知识挖掘,存在应用场景单一的问题。
技术实现思路
[0003]本专利技术提供一种疾病知识挖掘方法、装置、电子设备和存储介质,用以解决现有疾病知识挖掘方案存在的效率低、应用场景单一的问题。
[0004]本专利技术提供了一种疾病知识挖掘方法,包括:
[0005]从疾病数据库中获取待挖掘的多源原始数据;
[0006]基于预先构建的扩展疾病列表,对所述原始数据进行筛选;
[0007]对筛选后的原始数据进行数据预 ...
【技术保护点】
【技术特征摘要】
1.一种疾病知识挖掘方法,其特征在于,包括:从疾病数据库中获取待挖掘的多源原始数据;基于预先构建的扩展疾病列表,对所述原始数据进行筛选;对筛选后的原始数据进行数据预处理;对预处理后的原始数据进行实体识别,得到所述预处理后的原始数据对应的实体信息;基于所述实体信息,对所述预处理后的原始数据进行疾病知识挖掘,对挖掘的疾病知识进行标准化处理,得到标准疾病知识;对所述标准疾病知识进行去重处理,得到所述预处理后的原始数据对应的疾病知识文本;其中,所述扩展疾病列表是由标准疾病列表进行扩充得到的,包括标准疾病名称和同义疾病名称。2.根据权利要求1所述的疾病知识挖掘方法,其特征在于,所述基于预先构建的扩展疾病列表,对所述原始数据进行筛选,包括:确定所述原始数据对应的疾病诊断名;将所述原始数据对应的疾病诊断名与所述扩展疾病列表进行比对;在所述原始数据对应的疾病诊断名在所述扩展疾病列表中的情况下,保留所述原始数据;在所述原始数据对应的疾病诊断名不在所述扩展疾病列表中的情况下,剔除所述原始数据;其中,所述原始数据包括入库病历数据、线上病历数据和检查检验报告单数据中的至少一种。3.根据权利要求1所述的疾病知识挖掘方法,其特征在于,所述对筛选后的原始数据进行数据预处理,包括:基于所述筛选后的原始数据,提取关键字段,形成统一格式的文件;对所述统一格式的文件进行数据清洗,剔除所述统一格式的文件中的无效字符;其中,所述关键字段是指所述筛选后的原始数据中与所述扩展疾病列表关联的字段。4.根据权利要求1所述的疾病知识挖掘方法,其特征在于,所述基于所述实体信息,对所述预处理后的原始数据进行疾病知识挖掘,对挖掘的疾病知识进行标准化处理,得到标准疾病知识,包括:将所述实体信息中的疾病诊断名与所述扩展疾病列表中的疾病名称进行匹配;基于匹配上的疾病诊断名,对所述实体信息进行筛选,保留与所述匹配上的疾病诊断名关联的疾病知识;基于筛选后的疾病知识,通过标准术语表对每个实体词汇进行标准化处理,将同义词映射成为标准词,剔除与标准术语表无关联的实体词汇,得到标准疾病知识。5.根据权利要求1所述的疾病知识挖掘方法,其特征在于,所述对所述标准疾病知识进行去重处理,包括以下至少一项:基于疾病知识库中已有的数据对所述标准疾病知识进行去重;基于医生已审核的过往错误数据对所述标准疾病知识进行去重;基于所述标准疾病知识自身对所述标准疾病知识进行去重。
6.根据权利要求2
...
【专利技术属性】
技术研发人员:胡博靖,肖飞,胡加学,赵景鹤,贺志阳,鹿晓亮,陈祖吉,
申请(专利权)人:讯飞医疗科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。