【技术实现步骤摘要】
一种面向真实世界数据的机器学习系统与方法
[0001]本申请涉及机器学习
,具体为一种面向真实世界数据的机器学习系统与方法。
技术介绍
[0002]真实世界数据(Real World Data,RWD)是指来源于日常所收集的各种与患者健康状况、诊疗及保健有关的数据。可用于支持多种类型的临床研究。与RWD对应的是随机对照实验(RandomizedControlled Trail,RCT)采用的实验数据。实验数据具有严格的排除纳入标准和干预性的缺陷,研究的结果特异性明显,但外部有效性受到制约。RWD也存在由于纳入限制较少、纳入人群的异质性较大、造成潜在偏倚和混杂。尤其是就诊人员的多样性导致真实世界数据不平衡(又可称为样本比例失衡或类别不平衡),例如:正负样本的比例悬殊。如果简单的基于真实世界数据进行机器学习,训练出来的预测模型会倾向多数类,导致对少数类的识别率偏低。从而无法实现对少数类的准确识别。目前对真实世界数据不平衡问题尚无通用的解决办法,通常解决思路为尝试性的从数据和算法两个层面逐步改进寻求相对效果较好的方法。 />
技术实现思路
...
【技术保护点】
【技术特征摘要】
1.一种面向真实世界数据的机器学习系统与方法,其特征在于,所述系统包括:数据预处理模块,通过数据集成、数据治理和数据开发把真实世界数据转化为可以供机器学习算法使用的数据;随机采样模块,按照一定的比例从经过数据预处理模块处理后的数据中抽取样本;实验数据处理模块,采用干预的方式纳入预设规则的各种类别的样本;数据平衡处理模块,通过欠采样、过采样或者两者相结合的方式把样本类别不平衡的数据实现平衡;数据拆分模块,按照预设的比例把数据拆分为训练数据和测试数据;机器学习模块,基于训练数据通过机器学习算法训练生成预测模型,并通过预测模型对测试数据进行预测;评估模块,评估预测模型的预测结果。2.一种面向真实世界数据的机器学习方法,其特征在于,所述方法包括:获取真实世界数据,并对真实世界数据面向机器学习算法要求做数据预处理;按照一定比例对预处理后的真实世界数据做随机采样,获得随机采样数据;采用干预的方式从预处理后的真实世界数据中纳入样本类别,获得实验数据;对随机采样数据的副本分别使用欠采样、过采样和两者相结合的方式获得欠采样平衡数据、过采样平衡数据和欠采样与过采样相结合平衡数据;数据拆分为训练数据和测试数据,使用多种机器学习算法依次计算训练数据生成相应的预测模型,分别使用预测模型对测试数据进行预测,并评估预测水平和对比预测结果;根据所述对比结果选择预测水平最佳的机器学习算法和预测模型。3.根据权利要求2所述的一种面向真实世界数据的机器学习方法,其特征在于,在大数据平台或数据操作平台对多源异构的真实世界数据进行数据集成,对集成后的数据进行数据治理和数据开发,包括不限于数据结构转换、数...
【专利技术属性】
技术研发人员:王莹,
申请(专利权)人:深圳市第二人民医院深圳市转化医学研究院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。