【技术实现步骤摘要】
基于电子病历的多粒度信息处理方法及装置
[0001]本专利技术实施例涉及自然语言处理
,具体涉及一种基于电子病历的多粒度信息处理方法及装置
。
技术介绍
[0002]在医学领域中,多源异构的电子病历数据,蕴含着丰富的医学知识
、
专家经验和临床指南等信息,是一座亟待开发利用的资源宝库
。
同时,电子病历也具有上下文语义丰富
、
内容样式各异
、
时序特性突出
、
应用场景广阔等特点,急需研究新的模型高效训练方法
。
住院病历可按照不同内容和样式分成多种类型,每一种类型的住院病历在信息整理
、
内容组织和格式编排等方面不尽相同,各有侧重
。
如此在对住院电子病历进行智能化应用时,如果对各类病历数据不加区分
、
盲目机械地进行模型训练与推理,则一方面会大幅增加计算量,消耗宝贵算力资源,另一方面也会导致一些潜藏在不同类型病历中的高价值信息被淹没,难以准确提取病历个性特征,更难
【技术保护点】
【技术特征摘要】
1.
一种基于电子病历的多粒度信息处理方法,其特征在于,所述方法包括:对住院病历数据进行分类分级处理,获取与应用对应的多个病历数据子集,每个所述病历数据子集中包括多个病历文本;对任一所述病历数据子集中的病历文本进行多粒度计算,获取各病历文本的核心词组与感兴趣文段,以便后续输入应用模型进行数据分析
。2.
根据权利要求1所述的方法,其特征在于,所述对住院病历数据进行多粒度信息的分类分级处理,获取与应用对应的多个病历数据子集,包括:根据应用需求依次基于疾病诊断
、
病历类型以及患者
ID
对住院病历数进行分类分级处理,将所述住院病历数据划分为多个病历数据子集,每个所述病历数据子集包括任一种病历诊断任病历类型以及任一患者
ID
的多个病历文本
。3.
根据权利要求2所述的方法,其特征在于,所述对任一所述病历数据子集中的病历文本进行多粒度计算之前,包括:将同一疾病诊断
、
同一病历类型
、
甚至同一患者
ID
的所述病历数据子集中的各病历文本按照时序进行排序
。4.
根据权利要求2所述的方法,其特征在于,所述对任一所述病历数据子集中的病历文本进行多粒度计算,获取各病历文本的核心词组与感兴趣文段,包括:对属于同一疾病诊断的各所述病历数据子集中选择第一预设数量的病历文本,并进行分词处理,获取与所述疾病诊断对应的基准关键词;根据所述基准关键词对属于同一疾病诊断的各所述病历数据子集中的各病历文本进行核心词组与感兴趣文段的识别和提取
。5.
根据权利要求4所述的方法,其特征在于,所述进行分词处理,获取与所述疾病诊断对...
【专利技术属性】
技术研发人员:郭华源,何昆仑,
申请(专利权)人:中国人民解放军总医院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。