数据确定方法、装置、存储介质及电子设备制造方法及图纸

技术编号:32545880 阅读:22 留言:0更新日期:2022-03-05 11:44
本公开涉及一种数据确定方法、装置,存储介质及电子设备,以提高获取用于因素建模分析的数据的效率。该方法包括:获取待处理数据,所述待处理数据包括数据集中各个对象对应在目标数据类型下的数据,所述目标数据类型根据待纳入单因素建模分析的第一数据类型以及待纳入多因素建模分析的第二数据类型得到;基于所述待处理数据,对所述各个对象进行聚类处理,得到聚类结果,所述聚类结果包括多个簇;基于预设的簇筛选策略,从所述多个簇中确定目标簇;将目标对象对应在所述目标数据类型下的数据,确定为目标数据,所述目标对象为所述目标簇中包括的对象,所述目标数据用于验证因素建模分析。模分析。模分析。

【技术实现步骤摘要】
数据确定方法、装置、存储介质及电子设备


[0001]本公开涉及数据处理
,具体地,涉及一种数据确定方法、装置、存储介质及电子设备。

技术介绍

[0002]医疗科研工作人员针对记录数据进行建模分析时,可能对单因素结果与多因素结果(例如,结果P值小于0.05)有特定的要求,或者想验证某一个或几个特征在记录数据下是否可以在单因素或多因素建模中得到期望的结果,以快速验证科研思路。
[0003]其中,在上述因素建模分析的过程需要数据进行支撑,相关技术中,通常是根据经验,通过人工的方式从记录数据中筛选用于因素建模分析的数据,然而,通过人工筛选数据的方式存在获取数据效率低的问题。

技术实现思路

[0004]本公开的目的是提供一种数据确定方法、装置、存储介质及电子设备,以提高获取用于因素建模分析的数据的效率。
[0005]为了实现上述目的,第一方面,本公开提供一种数据确定方法,所述方法包括:
[0006]获取待处理数据,所述待处理数据包括数据集中各个对象对应在目标数据类型下的数据,所述目标数据类型根据待纳入单因素建模分析的第一数据类型以及待纳入多因素建模分析的第二数据类型得到;
[0007]基于所述待处理数据,对所述各个对象进行聚类处理,得到聚类结果,所述聚类结果包括多个簇;
[0008]基于预设的簇筛选策略,从所述多个簇中确定目标簇;
[0009]将目标对象对应在所述目标数据类型下的数据,确定为目标数据,所述目标对象为所述目标簇中包括的对象,所述目标数据用于验证因素建模分析。
[0010]可选地,所述方法还包括:
[0011]获取待纳入单因素建模分析的第一数据类型以及待纳入多因素建模分析的第二数据类型;
[0012]获取所述第一数据类型以及所述第二数据类型的并集,作为所述目标数据类型。
[0013]可选地,所述基于所述待处理数据,对所述各个对象进行聚类处理,得到聚类结果,包括:
[0014]基于所述各个对象分别对应在所述目标数据类型下的数据间的差异,通过k均值聚类算法,对所述各个对象进行聚类,得到所述聚类结果。
[0015]可选地,所述k均值聚类算法的所述多个簇的数量的确定步骤包括:
[0016]获取所述目标数据类型包括的各个分类数据类型分别对应的分类数量;
[0017]将目标分类数据类型包括的所述分类数量,与所述目标数据类型包括的数据类型的数量的乘积,确定为参考簇数量,所述目标分类数据类型为对应分类数量最多的数据类
型;
[0018]基于所述参考簇数量,确定所述k均值聚类算法的所述多个簇的数量。
[0019]可选地,所述基于所述参考簇数量,确定所述k均值聚类算法的所述多个簇的数量,包括:
[0020]基于所述参考簇数量以及簇数量浮动值,确定实验簇数量;
[0021]将各个所述实验簇数量分别作为k均值聚类算法的簇数量,分别通过k均值聚类算法,对所述各个对象进行聚类,得到k均值聚类算法对应在各个所述实验簇数量下的聚类结果;
[0022]基于各个聚类结果对应的赤池信息量,确定所述k均值聚类算法的所述多个簇的数量。
[0023]可选地,所述基于预设的簇筛选策略,从所述多个簇中确定目标簇,包括:
[0024]基于预设损失函数以及所述多个簇包括的对象对应的数据,计算得到第一损失函数值;
[0025]确定从所述多个簇中删除一个待定簇之后,基于所述预设损失函数以及剩余的簇包括的对象对应的数据计算得到的第二损失函数值,所述待定簇为所述多个簇中的任一个簇;
[0026]确定对应所述第二损失函数值最小时删除的待定簇为待删除簇;
[0027]在从所述多个簇中删除所述待删除簇之后对应的第二损失函数值小于所述第一损失函数值的情况下,将所述多个簇中删除所述待删除簇之后剩余的簇确定为新的多个簇,并返回基于预设损失函数以及所述多个簇包括的对象对应的数据,计算得到第一损失函数值的步骤,直到在从所述多个簇中删除所述待删除簇之后对应的第二损失函数值大于所述第一损失函数值,且在从所述多个簇中删除所述待删除簇之后剩余的簇包括的对象大于预设数量时,将从所述多个簇中删除所述待删除簇之后剩余的簇确定为所述目标簇。
[0028]可选地,所述损失函数包括:
[0029][0030]其中,UNIi表示纳入单因素建模分析的第i个所述第一数据类型在单因素建模分析时对应的p值,l表示第一数据类型的数量,MULj表示纳入多单因素建模分析的第j个所述第二数据类型在多因素建模分析时对应的p值,m表示第二数据类型的数量,w1表示在因素建模分析时对于单因素建模分析的侧重权重,0≤w1≤1,w2表示在因素建模分析时对于多因素建模分析的侧重权重,0≤w2≤1,w3、w4为超参数,AUC表示模型评估指标的值,n表示所述目标簇包括的对象的数量,N表示所述数据集中各个对象的数量,x表示衡量建模分析时是否具备统计学意义的参考值。
[0031]第二方面,本公开提供一种数据确定装置,所述装置包括:
[0032]获取模块,用于获取待处理数据,所述待处理数据包括数据集中各个对象对应在目标数据类型下的数据,所述目标数据类型根据待纳入单因素建模分析的第一数据类型以及待纳入多因素建模分析的第二数据类型得到;
[0033]聚类模块,用于基于所述待处理数据,对所述各个对象进行聚类处理,得到聚类结
果,所述聚类结果包括多个簇;
[0034]目标簇确定模块,用于基于预设的簇筛选策略,从所述多个簇中确定目标簇;
[0035]目标数据确定模块,用于将目标对象对应在所述目标数据类型下的数据,确定为目标数据,所述目标对象为所述目标簇中包括的对象,所述目标数据用于验证因素建模分析。
[0036]第三方面,本公开提供一种非临时性计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现第一方面中任一项所述方法的步骤。
[0037]第四方面,本公开提供一种电子设备,包括:
[0038]存储器,其上存储有计算机程序;
[0039]处理器,用于执行所述存储器中的所述计算机程序,以实现第一方面中任一项所述方法的步骤。
[0040]通过上述技术方案,在获取到待处理数据之后,然后基于待处理数据,对各个对象进行聚类处理,得到聚类结果,然后基于预设的簇筛选策略,从多个簇中确定目标簇,最后便可以将目标对象对应在目标数据类型下的数据,确定为目标数据,由于进行了聚类处理,使得后续的筛选过程的筛选结果能够更加准确,避免人工重复多次进行筛选尝试,提高了获取用于因素建模分析的数据的效率,同时减少了获取用于因素建模分析的数据过程中耗费的人力和时间,降低了获取用于因素建模分析的数据的难度。
[0041]本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
[0042]附图是用来提供对本公开的进一步理解,并且构成说明书的一部分,与下面的具本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据确定方法,其特征在于,所述方法包括:获取待处理数据,所述待处理数据包括数据集中各个对象对应在目标数据类型下的数据,所述目标数据类型根据待纳入单因素建模分析的第一数据类型以及待纳入多因素建模分析的第二数据类型得到;基于所述待处理数据,对所述各个对象进行聚类处理,得到聚类结果,所述聚类结果包括多个簇;基于预设的簇筛选策略,从所述多个簇中确定目标簇;将目标对象对应在所述目标数据类型下的数据,确定为目标数据,所述目标对象为所述目标簇中包括的对象,所述目标数据用于验证因素建模分析。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:获取待纳入单因素建模分析的第一数据类型以及待纳入多因素建模分析的第二数据类型;获取所述第一数据类型以及所述第二数据类型的并集,作为所述目标数据类型。3.根据权利要求1所述的方法,其特征在于,所述基于所述待处理数据,对所述各个对象进行聚类处理,得到聚类结果,包括:基于所述各个对象分别对应在所述目标数据类型下的数据间的差异,通过k均值聚类算法,对所述各个对象进行聚类,得到所述聚类结果。4.根据权利要求3所述的方法,其特征在于,所述k均值聚类算法的所述多个簇的数量的确定步骤包括:获取所述目标数据类型包括的各个分类数据类型分别对应的分类数量;将目标分类数据类型包括的所述分类数量,与所述目标数据类型包括的数据类型的数量的乘积,确定为参考簇数量,所述目标分类数据类型为对应分类数量最多的数据类型;基于所述参考簇数量,确定所述k均值聚类算法的所述多个簇的数量。5.根据权利要求4所述的方法,其特征在于,所述基于所述参考簇数量,确定所述k均值聚类算法的所述多个簇的数量,包括:基于所述参考簇数量以及簇数量浮动值,确定实验簇数量;将各个所述实验簇数量分别作为k均值聚类算法的簇数量,分别通过k均值聚类算法,对所述各个对象进行聚类,得到k均值聚类算法对应在各个所述实验簇数量下的聚类结果;基于各个聚类结果对应的赤池信息量,确定所述k均值聚类算法的所述多个簇的数量。6.根据权利要求1所述的方法,其特征在于,所述基于预设的簇筛选策略,从所述多个簇中确定目标簇,包括:基于预设损失函数以及所述多个簇包括的对象对应的数据,计算得到第一损失函数值;确定从所述多个簇中删除一个待定簇之后,基于所述预设损失函数以及剩余的簇包括的对象对应的数据计算得到的第二损失函数值,所述待定簇为所述多个簇中的任一个簇;确...

【专利技术属性】
技术研发人员:郑铭鑫曹延泽刘长虹韩宇吴迪孙海伦陆可李博文
申请(专利权)人:东软集团股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1