【技术实现步骤摘要】
基于小样本进行疾病识别的数据处理方法以及装置、设备、存储介质
本申请涉及自动疾病识别领域,具体而言,涉及一种基于小样本进行疾病识别的数据处理方法以及装置、设备、存储介质。
技术介绍
相对于常见疾病,在大量疾病如脑卒中、偏瘫、部分癌症等仅能拿到较少样本。专利技术人发现,如果直接在这类疾病的正样本上进行训练,可能导致正负样本不均衡或者总样本数过少,从而使得算法在实际应用中效果较差,难以满足需求。一些解决方法中,通过对正样本进行数据增强,从而一定程度上增加正样本数量,但由于数据增强并无法真正意义上增加样本量,仅能对现有样本进行微调,防止过拟合。而由于负样本数量大量存在,会导致正负样本不均衡严重,进而导致模型倾向于识别为负样本。若强行减少负样本数量,则会导致总数据量过少,使得模型训练过拟合严重。针对相关技术中基于少样本进行疾病识别的效果不佳的问题,目前尚未提出有效的解决方案。
技术实现思路
本申请的主要目的在于提供一种基于小样本进行疾病识别的数据处理方法以及装置、设备、存储介质,以解决基于 ...
【技术保护点】
1.一种基于小样本进行疾病识别的数据处理方法,其特征在于,包括:/n基于小样本建立开集识别模型,学习得到负样本初始空间;/n基于目标疾病所在空间和所述负样本初始空间,调整所述目标疾病所在空间与负样本所在空间的距离,区分出疾病发病区域与正常状态区域。/n
【技术特征摘要】
1.一种基于小样本进行疾病识别的数据处理方法,其特征在于,包括:
基于小样本建立开集识别模型,学习得到负样本初始空间;
基于目标疾病所在空间和所述负样本初始空间,调整所述目标疾病所在空间与负样本所在空间的距离,区分出疾病发病区域与正常状态区域。
2.根据权利要求1所述的基于小样本进行疾病识别的数据处理方法,其特征在于,基于小样本建立开集识别模型,得到负样本初始空间包括:
假设小样本共分为K类,并将正样本定义为第K+1类,假设输入为X,针对负样本空间中学习每一类的N1个中心C和N2个远点S,
当前样本X为类别i,中心的温度值为t1,远点的温度值为t2,则计算中心距离和远点距离:
根据中心距离和远点距离,计算两者的比值为:
3.根据权利要求1所述的基于小样本进行疾病识别的数据处理方法,其特征在于,还包括:将所述负样本初始空间调整为分布在围绕空间中心的超球面上的步骤,
计算所述中心距离、所述远点距离、所述中心距离/远点距离的激活值;
根据所述激活值计算损失函数,得到最终总损失为:
其中,所述用于使得每个类别围绕当前类别中心紧凑分布;用于使得每个类别都距离其远点足够远;通过结合和用于使得每个类别的分布不但关注样本距离中心和远点的距离,而且关注类别所在区域空间大小相对于整个空间大小的比例。
4.根据权利要求1所述的基于小样本进行疾病识别的数据处理方法,其特征在于,基于目标疾病所在空间和所述负样本初始空间,调整所述目标疾病所在空间与负样本所在...
【专利技术属性】
技术研发人员:史业民,俞益洲,
申请(专利权)人:北京深睿博联科技有限责任公司,杭州深睿博联科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。