一种层级式病例结构化方法及系统技术方案

技术编号:23894849 阅读:31 留言:0更新日期:2020-04-22 08:01
本发明专利技术公开了一种层级式病例结构化方法及系统,该方法包括构建医疗术语层级体系;所述体系中包括:上下位实体、上下位实体对应关系及上下位实体所属类别的定义;根据所述医疗术语层级体系,通过实体与关系抽取模型,抽取病例文本中的医疗实体及属性,生成结构化数据;所述结构化数据包括医疗术语中的上下位实体、上下位实体对应关系及上下位实体所属类别。该方法可根据构建医疗术语层级体系,基于实体与关系抽取模型,抽取医疗实体及属性准确率高,实现了将非结构化与半结构化病例自动转换为结构化电子病例,可满足智能医疗市场的需求。

A hierarchical case structure method and system

【技术实现步骤摘要】
一种层级式病例结构化方法及系统
本专利技术涉及医疗大数据及计算机应用
,特别涉及一种层级式病例结构化方法及系统。
技术介绍
病例是病人病情发生、发展和转归全过程的记录,不仅是医疗、教学的重要依据,对药品使用、新药研发等也有着重要的辅助作用。随着医药系统的推广,电子病例也在多数医院得到普及。然而日益膨胀的医疗数据,因数据格式不统一与数据质量等问题,无法满足智能医疗市场的需求。但是目前将医疗数据格式统一,提高数据质量,因人而已,也无法在制度上达到很好的统一标准;而基于计算机技术的进步,将医疗数据格式统一,也面临困难。首先,医疗行业不同与其它领域的知识抽取,医疗领域的实体各个品类所包含的实体过于庞大,其属性也较为复杂,普通的抽取方式效果很差。例如,病例中一句对病人病情的描述,可能包括病人体征、疾病名称、用药等多个医学术语,并且每个医学术语都可能有各种状态;而且不同的医生所撰写的同一病例,表达的方式也存在区别;这都是需要识别的重要语言单元,通用的实体识别准确率较低。另外,由于医疗领域的文本,一个句子中还存在多对关系,通用的关系抽取方法效果效差。因此,如何解决医疗病例中的上述属性抽取差、实体识别准确率低及实体关系抽取差,成为同行从业人员亟待解决的问题。
技术实现思路
鉴于上述问题,本专利技术提出了一种层级式病例结构化方法,通过层级式知识抽取,有效改善了现有技术的问题,实现了将非结构化与半结构化病例自动转换为结构化电子病例,可满足智能医疗市场的需求。本专利技术实施例提供一种层级式病例结构化方法,包括:S10、构建医疗术语层级体系;所述体系中包括:上下位实体、上下位实体对应关系及上下位实体所属类别的定义;S20、根据所述医疗术语层级体系,通过实体与关系抽取模型,抽取病例文本中的医疗实体、医疗实体关系及属性,生成结构化数据;所述结构化数据包括医疗术语中的上下位实体、上下位实体对应关系及上下位实体所属类别。在一个实施例中,所述步骤S10,包括:根据医学相关词典或医疗知识图谱,结合预设病例的结构化需求,进行定义层级体系的上下位实体、上下位实体间的关系及上下位实体所属类别;所述下位实体依存于所述上位实体;所述上位实体表示疾病名称、药品名称、症状名称;所述下位实体为上位实体的相关信息,所述相关信息包括下述任一项或多项:部位、持续时间、次数、程度和病因。在一个实施例中,所述步骤S20,包括:根据语义对病例文本进行预处理,分为不同语义单元;在每一个所述语义单元内,通过预设实体模型识别出第一信息;所述第一信息包括医疗术语中的至少一个上位实体及所述上位实体的所属类别;根据所述层级体系,确定每一个所述上位实体对应的下位实体及下位实体所属类别;将所述第一信息进行融合生成第一向量,将所述第一向量输入所述预设实体模型,抽取出第二信息;所述第二信息包括医疗术语中的下位实体及所述下位实体的所属类别;根据自注意力关系抽取模型,区分所述语义单元内多个上位实体分别与多个下位实体是否存在依存关系,完成抽取病例文本中的结构化数据。在一个实施例中,所述方法还包括:S30、将所述结构化数据与数据仓库中预设的标准化医疗术语数据模板进行比对,并通过句法分析算法及知识图谱进行语义维度数据质量检测,生成与所述结构化数据对应的质量级别;S40、将所述结构化数据及对应的质量级别,存储入所述数据仓库。在一个实施例中,在所述将所述结构化数据及对应的质量级别,存储入所述数据仓库之前,所述方法还包括:S35、获取人工校验后的所述结构化数据及所述结构化数据对应的质量级别。在一个实施例中,还包括:当所述预设实体模型为神经网络模型时,将人工校验后的所述结构化数据,加入所述神经网络模型的训练集。第二方面,本专利技术还提供一种层级式病例结构化系统,包括:构建模块,用于构建医疗术语层级体系;所述体系中包括:上下位实体、上下位实体对应关系及上下位实体所属类别的定义;实体与关系抽取模块,用于根据所述医疗术语层级体系,通过实体与关系抽取模型,抽取病例文本中的医疗实体、医疗实体关系及属性,生成结构化数据;所述结构化数据包括医疗术语中的上下位实体、上下位实体对应关系及上下位实体所属类别。在一个实施例中,所述构建模块,具体用于根据医学相关词典或医疗知识图谱,结合预设病例的结构化需求,进行定义层级体系的上下位实体、上下位实体间的关系及上下位实体所属类别;所述下位实体依存于所述上位实体;所述上位实体表示疾病名称、药品名称、症状名称;所述下位实体为上位实体的相关信息,所述相关信息包括下述任一项或多项:部位、持续时间、次数、程度和病因。在一个实施例中,所述实体与关系抽取模块,包括:预处理单元,用于根据语义对病例文本进行预处理,分为不同语义单元;识别单元,用于在每一个所述语义单元内,通过预设实体模型识别出第一信息;所述第一信息包括医疗术语中的至少一个上位实体及所述上位实体的所属类别;确定单元,用于根据所述层级体系,确定至少一个所述上位实体对应的下位实体及下位实体所属类别;抽取单元,用于将所述第一信息进行融合生成第一向量,将所述第一向量输入所述预设实体模型,抽取出第二信息;所述第二信息包括医疗术语中的下位实体及所述下位实体的所属类别;区分单元,用于根据自注意力关系抽取模型,区分所述语义单元内多个上位实体分别与多个下位实体是否存在依存关系,完成抽取病例文本中的结构化数据。在一个实施例中,所述系统还包括:数据质量检测模块,用于将所述结构化数据与数据仓库中预设的标准化医疗术语数据模板进行比对,并通过句法分析算法及知识图谱进行语义维度数据质量检测,生成与所述结构化数据对应的质量级别;存储模块,用于将所述结构化数据及对应的质量级别,存储入所述数据仓库。在一个实施例中,所述系统还包括:获取人工质量检测模块,用于获取人工校验后的所述结构化数据及所述结构化数据对应的质量级别。在一个实施例中,当所述预设实体模型为神经网络模型时,所述获取人工质量检测模块,还用于将人工校验后的所述结构化数据,加入所述神经网络模型的训练集。本专利技术实施例提供的上述技术方案的有益效果至少包括:本专利技术实施例提供的一种层级式病例结构化方法,包括构建医疗术语层级体系;所述体系中包括:上下位实体、上下位实体对应关系及上下位实体所属类别的定义;根据所述医疗术语层级体系,通过实体与关系抽取模型,抽取病例文本中的医疗实体及属性,生成结构化数据;所述结构化数据包括医疗术语中的上下位实体、上下位实体对应关系及上下位实体所属类别。该方法可根据构建医疗术语层级体系,基于实体与关系抽取模型,抽取医疗实体及属性准确率高,实现了将非结构化与半结构化病例自动转换为结构化电子病例,可满足智能医疗市场的需求。本专利技术的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本专利技术而了解。本专利技术的目的和本文档来自技高网...

【技术保护点】
1.一种层级式病例结构化方法,其特征在于,包括:/nS10、构建医疗术语层级体系;所述体系中包括:上下位实体、上下位实体对应关系及上下位实体所属类别的定义;/nS20、根据所述医疗术语层级体系,通过实体与关系抽取模型,抽取病例文本中的医疗实体、医疗实体关系及属性,生成结构化数据;所述结构化数据包括医疗术语中的上下位实体、上下位实体对应关系及上下位实体所属类别。/n

【技术特征摘要】
1.一种层级式病例结构化方法,其特征在于,包括:
S10、构建医疗术语层级体系;所述体系中包括:上下位实体、上下位实体对应关系及上下位实体所属类别的定义;
S20、根据所述医疗术语层级体系,通过实体与关系抽取模型,抽取病例文本中的医疗实体、医疗实体关系及属性,生成结构化数据;所述结构化数据包括医疗术语中的上下位实体、上下位实体对应关系及上下位实体所属类别。


2.如权利要求1所述的一种层级式病例结构化方法,其特征在于,所述步骤S10,包括:
根据医学相关词典或医疗知识图谱,结合预设病例的结构化需求,进行定义层级体系的上下位实体、上下位实体间的关系及上下位实体所属类别;所述下位实体依存于所述上位实体;所述上位实体表示疾病名称、药品名称、症状名称;所述下位实体为上位实体的相关信息,所述相关信息包括下述任一项或多项:部位、持续时间、次数、程度和病因。


3.如权利要求2所述的一种层级式病例结构化方法,其特征在于,所述步骤S20,包括:
根据语义对病例文本进行预处理,分为不同语义单元;
在每一个所述语义单元内,通过预设实体模型识别出第一信息;所述第一信息包括医疗术语中的至少一个上位实体及所述上位实体的所属类别;
根据所述层级体系,确定每一个所述上位实体对应的下位实体及下位实体所属类别;
将所述第一信息进行融合生成第一向量,将所述第一向量输入所述预设实体模型,抽取出第二信息;所述第二信息包括医疗术语中的下位实体及所述下位实体的所属类别;
根据自注意力关系抽取模型,区分所述语义单元内多个上位实体分别与多个下位实体是否存在依存关系,完成抽取病例文本中的结构化数据。


4.如权利要求3所述的一种层级式病例结构化方法,其特征在于,所述方法还包括:
S30、将所述结构化数据与数据仓库中预设的标准化医疗术语数据模板进行比对,并通过句法分析算法及知识图谱进行语义维度数据质量检测,生成与所述结构化数据对应的质量级别;
S40、将所述结构化数据及对应的质量级别,存储入所述数据仓库。


5.如权利要求4所述的一种层级式病例结构化方法,其特征在于,在所述将所述结构化数据及对应的质量级别,存储入所述数据仓库之前,所述方法还包括:
S35、获取人工校验后的所述结构化数据及所述结构化数据对应的质量级别。


6.如权利要求5所述...

【专利技术属性】
技术研发人员:孟茜谢秋景夏天刘安庭
申请(专利权)人:中电药明数据科技成都有限公司
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1