当前位置: 首页 > 专利查询>之江实验室专利>正文

实验样本分组方法技术

技术编号:39596719 阅读:13 留言:0更新日期:2023-12-03 19:54
本申请涉及一种实验样本分组方法

【技术实现步骤摘要】
实验样本分组方法、实验样本收集平台和设备


[0001]本申请涉及在线实验测试领域,特别是涉及一种实验样本分组方法

实验样本收集平台和设备


技术介绍

[0002]实验设计在因果推断问题中是非常重要的一环,实验样本质量

分组结果对于实验结果有较大影响

传统的实验样本收集平台,通过招募被试者,进行社会学

心理学

经济学

教育学等学科的实验

在测试前,采取研究者手动输入或者程序辅助纯随机分组的方式(如
Research Randomizer
,研究随机化器),将被试者按照一定比例分到实验组与对照组

[0003]然而,在因果推断实验中,当面对样本数量较小

变量维度较多的情况,存在偶发性变量非均衡问题

当分组确定后,由于无法改变实验结果,使得某些重要标签的分布不均衡,导致试验结果误差较大

[0004]针对相关技术中存在实验样本分组均衡性较差的问题,目前还未提出有效解决方案


技术实现思路

[0005]基于此,有必要针对上述技术问题,提供一种能够改善实验样本分组均衡性的实验样本分组方法

实验样本收集平台和设备

[0006]第一方面,本申请提供了一种实验样本分组方法,所述方法包括:将第一样本进行随机分组;计算当前分组的均衡指标;判断当前分组的均衡指标是否落入阈值范围之内;若是,则中止分组,输出分组结果,所述分组结果包括分组信息和当前分组的均衡指标;若否,则返回至将第一样本进行随机分组的步骤;其中,确定所述阈值范围包括:将第二样本进行
N
次随机分组,输出对应于每一次分组的均衡指标,其中,所述均衡指标包括:各组样本之间的马氏距离,以及常数回归模型和全参数回归模型之间的
AIC
差值;
N
为大于1的自然数;在
N
个分组结果中根据第一预设比例
pa
选取目标分组,并根据所述目标分组的均衡指标确定所述阈值范围

[0007]在其中一个实施例中,输出对应于每一次分组的均衡指标包括:根据所述第二样本的总数

第二预设比例

各组样本之间的变量差值,计算各组样本之间的马氏距离,并将所述马氏距离作为第一均衡指标,其中,所述第二预设比例为将所述第二样本随机划分为实验组和对照组的分组比例

[0008]在其中一个实施例中,计算所述第一均衡指标,包括:
;其中,
M
表示所述马氏距离,
n
表示所述第二样本的总数,
pw
表示所述第二预设比例,
X
表示总实验样本,
X
T
表示实验组中的样本,表示实验组的列均值向量,
X
C
表示对照组中的样本,表示对照组的列均值向量,
cov
表示协方差运算符,
‑1代表求逆

[0009]在其中一个实施例中,计算常数回归模型和全参数回归模型之间的
AIC
差值,包括:将当前分组的分组信息作为因变量,将常数项作为自变量,构建常数回归模型,并计算所述常数回归模型的
AIC
;将当前分组的分组信息作为因变量,将当前分组的样本变量作为自变量,构建全参数回归模型,训练所述全参数回归模型,并计算训练好之后的全参数回归模型的
AIC
;计算所述常数回归模型和所述全参数回归模型之间的
AIC
差值

[0010]在其中一个实施例中,所述常数回归模型和所述全参数回归模型采用逻辑回归构建,基于逻辑回归构建得到的常数回归模型和全参数回归模型之间的
AIC
差值为第二均衡指标

[0011]在其中一个实施例中,所述常数回归模型和所述全参数回归模型采用贝叶斯逻辑回归构建,基于贝叶斯逻辑回归构建得到的常数回归模型和全参数回归模型之间的
AIC
差值为第三均衡指标

[0012]在其中一个实施例中,采用贝叶斯逻辑回归构建常数回归模型,包括:在所述常数回归模型中,设定自变量和常数项的先验分布情况

[0013]在其中一个实施例中,在
N
个分组结果中根据第一预设比例
pa
选取目标分组,并根据所述目标分组的均衡指标确定所述阈值范围,包括:将所述
N
个分组结果的均衡指标从优到劣进行排序,并将第
N
×
pa
个均衡指标的值作为阈值;和
/
或,在所述目标分组中,所述常数回归模型的
AIC
小于所述全参数回归模型的
AIC。
[0014]第二方面,本申请还提供了一种实验样本收集平台,包括:交互模块,用于创建实验问卷,以及收集用户的用户信息和用户基于所述实验问卷输入的答案;分组模块,耦合至所述交互模块,用于根据所述用户的用户信息,执行上述第一方面所述的实验样本分组方法,得到分组结果;展示模块,耦合至所述交互模块和所述分组模块,用于输出所述实验问卷的答案和所述分组结果

[0015]第三方面,本申请还提供了一种计算机设备

所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述第一方面所述的实验样本分组方法

[0016]上述实验样本分组方法

实验样本收集平台和设备,根据各组样本之间的马氏距离以及常数回归模型和全参数回归模型之间的
AIC
差值,设立均衡指标,并通过多次随机分组设立均衡指标的阈值范围,使得在实验进行之前,对实验样本的每一次分组进行均衡测试,筛选均衡指标落入阈值范围之内的随机分组,以此作为分组结果输出,以平衡不同组之
间的变量分布,改善实验样本分组均衡性,使实验结果更加精确

附图说明
[0017]图1为一个实施例中实验样本分组方法的应用环境图;图2为一个实施例中实验样本分组方法的流程示意图;图3为一个实施例中实验样本收集平台的结构示意图;图4为一个实施例中实验样本收集平台的运行原理图;图5为另一个实施例中实验样本收集平台的运行原理图;图6为另一个实施例中实验样本收集平台的结构示意图;图7为另一个实施例中实验样本收集平台的运行原理图;图8为一个实施例中计算机设备的内部结构图

具体实施方式
[0018]为了使本申请的目的

技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明

应当理解,此处描述的具体实施例本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种实验样本分组方法,其特征在于,所述方法包括:将第一样本进行随机分组;计算当前分组的均衡指标;判断当前分组的均衡指标是否落入阈值范围之内;若是,则中止分组,输出分组结果,所述分组结果包括分组信息和当前分组的均衡指标;若否,则返回至将第一样本进行随机分组的步骤;其中,确定所述阈值范围包括:将第二样本进行
N
次随机分组,输出对应于每一次分组的均衡指标,其中,所述均衡指标包括:各组样本之间的马氏距离,以及常数回归模型和全参数回归模型之间的
AIC
差值;
N
为大于1的自然数;在
N
个分组结果中根据第一预设比例
pa
选取目标分组,并根据所述目标分组的均衡指标确定所述阈值范围
。2.
根据权利要求1所述的实验样本分组方法,其特征在于,输出对应于每一次分组的均衡指标包括:根据所述第二样本的总数

第二预设比例

各组样本之间的变量差值,计算各组样本之间的马氏距离,并将所述马氏距离作为第一均衡指标,其中,所述第二预设比例为将所述第二样本随机划分为实验组和对照组的分组比例
。3.
根据权利要求2所述的实验样本分组方法,其特征在于,计算所述第一均衡指标,包括:;其中,
M
表示所述马氏距离,
n
表示所述第二样本的总数,
pw
表示所述第二预设比例,
X
表示总实验样本,
X
T
表示实验组中的样本,表示实验组的列均值向量,
X
C
表示对照组中的样本,表示对照组的列均值向量,
cov
表示协方差运算符,
‑1代表求逆
。4.
根据权利要求1所述的实验样本分组方法,其特征在于,计算常数回归模型和全参数回归模型之间的
AIC
差值,包括:将当前分组的分组信息作为因变量,将常数项作为自变量,构建常数回归模型,并计算所述常数回归模型的
AIC
;将当前分组的分组信息作为因变量,将当前分组的样本变量作为自变量,构建全...

【专利技术属性】
技术研发人员:杨佳熹李晓晨陈奎那崇宁翟毅腾
申请(专利权)人:之江实验室
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1