一种医疗数据的数据处理方法技术

技术编号:29590829 阅读:14 留言:0更新日期:2021-08-06 19:51
本发明专利技术提供了一种医疗数据的数据处理方法,选取与第一目标医疗本体相关联的实际医疗文本集合,根据第一目标医疗本体的级别从实际医疗文本集合G中提取多个子集

【技术实现步骤摘要】
一种医疗数据的数据处理方法
本专利技术涉及计算机技术,尤其涉及数据处理技术,特别涉及一种医疗数据的数据处理方法。
技术介绍
目前,医院记录存储大量的真实医疗文本信息,例如病例信息,手术信息等,医院具有大量的医疗数据,随着医疗数据的快速增长,医疗相关人员需要了解现有的医疗数据,以便丰富完善自身的医疗知识,提高诊疗水平,或者进行科研教学等。对于医疗本体,例如疾病而言,不同的真实医疗文本中记录有多种疾病所包含的症状,不同真实医疗文本中该疾病数据包含的症状不同,需要抽取某个症状是否是该疾病的症状,以便将不同的症状进行融合得到该疾病的症状数据。现有技术中,例如专利号为201810645565.3的专利技术专利中,根据目标医疗本体和对应的预设医疗本体属性获取属性数据,并根据属性数据中的属性值和相关公式确定目标医疗本体的预设医疗本体属性数据。然而在该专利所记载的技术方案中,没有考虑到疾病的级别对判断属性值是否为预设医疗本体属性数据的影响,造成仅存在于重症情况下的症状不能准确地确定为预设医疗本体属性数据,并且现有技术中相关概率计算方法没有考虑到属性值数量过小带来的影响,例如属性值总数过小且每种属性值关联的实际医疗文本的数值均很小,会导致虽然所述数值很小但是计算的概率却足够大,导致不应被确定为预设医疗本体属性数据的属性值被确定为预设医疗本体属性数据,此外现有技术中所述数值的计算没有考虑到实际医疗文本可能关联多个目标医疗本体,造成数值足够大的假象。针对现有技术中所存在的上述问题,目前尚未提出有效的解决方案。专利技术内容为解决上述技术问题,本专利技术提出一种医疗数据的数据处理方法,包括步骤:S1、根据第一目标医疗本体从实际医疗文本信息库中选取与第一目标医疗本体相关联的实际医疗文本集合G,所述集合G中包括多个实际医疗文本;S2、根据第一目标医疗本体的级别从实际医疗文本集合G中提取多个子集G1,...,Gi,...,Gn,其中1≤i≤n,n为第一目标医疗本体的级别的总数,子集G1至Gn对应的级别依次提高;S3、按照从子集G1至Gn的顺序,分别将每一个子集作为目标子集并从目标子集中提取满足条件的属性值作为预设医疗本体属性数据。优选地,在步骤S3中,从目标子集中提取满足条件的属性值作为预设医疗本体属性数据包括以下步骤:S31、从目标子集中的每一个实际医疗文本中提取属性数据,所述属性数据包括多个属性值并形成属性值集合Q;S32、将属于集合P且属于集合Q中的属性值从集合Q中剔除,其中集合P为预设医疗本体属性数据集合;S33、依次将集合Q中的每一个属性值作为候选属性值,计算每一个包括有候选属性值的实际医疗文本的数值,并累计所有包括有候选属性值的实际医疗文本的数值作为候选属性值的总数值;S34、根据计算出的多个总数值确定集合Q中的每一个属性值的分值;S35、将分值大于目标阈值的属性值确定为第一目标医疗本体的预设医疗本体属性数据并保存到预设医疗本体属性数据集P;其中,初始状态下预设医疗本体属性数据集P为空集。优选地,还包括将集合G中的每一个实际医疗文本作为目标实际医疗文本,获得与目标实际医疗文本相关联的目标医疗本体的数量NUMj,其中1≤j≤m,m为集合G中实际医疗文本的总数。优选地,在步骤S33中,包括有候选属性值的每一个实际医疗文本k的数值为其中1≤k≤m。优选地,步骤S34包括:如果集合Q中的属性值的总数u大于预定总数则进行以下步骤:计算集合Q中每一个属性值的概率,其中其中PEr为集合Q中第r个属性值的第一概率,NEr为集合Q中第r个属性值的总数值,NEv为集合Q中第v个属性值的总数值,1≤r≤u,1≤v≤u;基于计算得出的集合Q中每一个属性值的第一概率根据combSUM方法或线性组合方法计算集合Q中每一个属性值的分值;如果集合Q中的属性值的总数u小于预定总数则进行以下步骤:计算集合Q中每一个属性值的第二概率,其中其中PFr为集合Q中第r个属性值的概率,NFr为集合Q中第r个属性值的总数值,NM为目标子集中的实际医疗文本的总数;基于计算得出的集合Q中每一个属性值的第二概率根据combSUM方法或线性组合方法计算集合Q中每一个属性值的分值;。优选地,步骤S35包括:如果集合Q中的属性值的总数u大于预定总数,则目标阈值为第一目标阈值,所述第一目标阈值其中MOt为集合Q中第t个属性值的分值,1≤t≤w;如果集合Q中的属性值的总数u小于预定总数,则目标阈值为第二目标阈值,所述第二目标阈值为介于0.8和1之间的常数。根据本专利技术的医疗数据的数据处理方法,将疾病的级别作为确定预设医疗本体属性数据的第一考量因素,使得即使某些属性值仅在例如重症下的疾病的实际医疗文本中出现,同样可以被准确地确定为预设医疗本体属性数据;不同概率计算方法的使用能够克服属性值数量过小以及每种属性值关联的实际医疗文本的数值均很小带来的影响,避免不应被确定为预设医疗本体属性数据的属性值被确定为预设医疗本体属性数据;此外克服了现有技术中所述数值的计算没有考虑到实际医疗文本可能关联多个目标医疗本体,造成数值足够大的假象,使得确定预设医疗本体属性数据的准确性提高。本专利技术所解决的其他问题在具体实施方式部分还将进行详细描述。附图说明图1示出根据本专利技术优选实施例的医疗数据的数据处理方法流程图。具体实施方式如图1所示,本专利技术提出的为解决上述技术问题,本专利技术提出一种医疗数据的数据处理方法,包括以下步骤:步骤S1、根据第一目标医疗本体从实际医疗文本信息库中选取与第一目标医疗本体相关联的实际医疗文本集合G,所述集合G中包括多个实际医疗文本。所述实际医疗文本信息库中包括来源于不同医院的实际医疗文本,并且在实际医疗文本存储至实际医疗文本信息库时已经进行了数据规范,统一了相关术语的表达,例如根据医疗本体词典规范统一不同实际医疗文本中的术语表达。本专利技术主要针对目标医疗本体为目标疾病的情形,因此步骤S1中的集合G中的所有实际医疗文本均是与第一目标医疗本体相关联的。步骤S2、根据第一目标医疗本体的级别从实际医疗文本集合G中提取多个子集G1,...,Gi,...,Gn,其中1≤i≤n,n为第一目标医疗本体的级别的总数,子集G1至Gn对应的级别依次提高。该步骤中,将集合G根据第一目标医疗本体的级别划分为多个子集G1,...,Gi,...,Gn,例如疾病A包括轻症、中症、重症三个等级,则将集合G划分为三个子集,三个子集中所包括的实际医疗文本的总数与集合G中的实际医疗文本的总数是相等的。通过按照第一目标医疗本体的级别对集合G进行划分,有利于后续针对不同级别的实际医疗文本进行逐级分别确定预设医疗本体属性数据,以避免不进行划分的情况下对仅存在中症或重症中的属性值被错误地排除出预设医疗本体属性数据的情形发生。步骤S3、按照从子集G1至Gn的顺序,分别将每一个子集作为目标子集并从目标子集中提取满足条件的属性值作为预设医疗本体属性数据。由于子集G1至Gn对应的级别依次提高,例如G1为轻症、G2为中症、G3为重症,由于有些症状仅发生在中症或本文档来自技高网...

【技术保护点】
1.一种医疗数据的数据处理方法,其特征在于,包括以下步骤:/nS1、根据第一目标医疗本体从实际医疗文本信息库中选取与第一目标医疗本体相关联的实际医疗文本集合G,所述集合G中包括多个实际医疗文本;/nS2、根据第一目标医疗本体的级别从实际医疗文本集合G中提取多个子集G

【技术特征摘要】
1.一种医疗数据的数据处理方法,其特征在于,包括以下步骤:
S1、根据第一目标医疗本体从实际医疗文本信息库中选取与第一目标医疗本体相关联的实际医疗文本集合G,所述集合G中包括多个实际医疗文本;
S2、根据第一目标医疗本体的级别从实际医疗文本集合G中提取多个子集G1,...,Gi,...,Gn,其中1≤i≤n,n为第一目标医疗本体的级别的总数,子集G1至Gn对应的级别依次提高;
S3、按照从子集G1至Gn的顺序,分别将每一个子集作为目标子集并从目标子集中提取满足条件的属性值作为预设医疗本体属性数据。


2.根据权利要求1所述的医疗数据的数据处理方法,其特征在于,在步骤S3中,从目标子集中提取满足条件的属性值作为预设医疗本体属性数据包括以下步骤:
S31、从目标子集中的每一个实际医疗文本中提取属性数据,所述属性数据包括多个属性值并形成属性值集合Q;
S32、将属于集合P且属于集合Q中的属性值从集合Q中剔除,其中集合P为预设医疗本体属性数据集合;
S33、依次将集合Q中的每一个属性值作为候选属性值,计算每一个包括有候选属性值的实际医疗文本的数值,并累计所有包括有候选属性值的实际医疗文本的数值作为候选属性值的总数值;
S34、根据计算出的多个总数值确定集合Q中的每一个属性值的分值;
S35、将分值大于目标阈值的属性值确定为第一目标医疗本体的预设医疗本体属性数据并保存到预设医疗本体属性数据集P;
其中,初始状态下预设医疗本体属性数据集P为空集。


3.根据权利要求2所述的医疗数据的数据处理方法,其特征在于,还包括将集合G中的每一个实际医疗文...

【专利技术属性】
技术研发人员:叶方全
申请(专利权)人:广州天鹏计算机科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1