一种基于并存率与关联规则的心理行为分析方法技术

技术编号:20363230 阅读:31 留言:0更新日期:2019-02-16 16:41
本发明专利技术涉及一直基于并存率与关联规则的心理行为分析方法,属于数据关联规则挖掘技术领域。先建立一个人类心理行为词汇数据的事务数据库;然后求出各心理行为词汇并存项的并存率与最小并存率,从而保留强关联项并生成新的事务集;接着,将新事务集中每个心理行为词汇作为一个项,引入关联规则算法计算出不同项数的频繁项集;其次,由各频繁项集产生相应的强关联规则,并计算出各强关联规则的置信度大小;最后,通过各强关联规则的置信度大小,将这些频繁项集进行排序,结果将能直观表示出各心理行为词汇的关联程度。本发明专利技术提供了并存率对关联规则算法进行数据优化,通过优化后的关联规则算法对人类的心理行为词汇起到关联分析作用。

【技术实现步骤摘要】
一种基于并存率与关联规则的心理行为分析方法
本专利技术涉及一直基于并存率与关联规则的心理行为分析方法,属于数据关联规则挖掘

技术介绍
关联规则最初提出的动机是针对购物篮分析(MarketBasketAnalysis)问题提出的。1993年,Agrawal等人在首先提出关联规则概念,同时给出了相应的挖掘算法AIS,但是性能较差。1994年,他们建立了项目集格空间理论,并依据上述两个定理,提出了著名的Apriori算法,至今Apriori仍然作为关联规则挖掘的经典算法被广泛讨论,以后诸多的研究人员对关联规则的挖掘问题进行了大量的研究。该算法已经被广泛的应用到商业、网络安全等各个领域,但还没有应用到心理行为关联分析领域。同时,算法对数据并没有进行预处理操作,导致结果不够精确,本专利技术所提出的并存率就是用来过滤无用或干扰的数据,从而得出更加准确、显著的关联规则。
技术实现思路
本专利技术要解决的技术问题是提供一直基于并存率与关联规则的心理行为分析方法,将关联规则算法进行优化后应用到相关心理行为词汇分析中,为心理学、微表情等学科提供了更加精准、高效的心理行为关联分析方法。本专利技术的技术方案是:一种基于并存率与关联规则的心理行为分析方法,具体步骤为:Step1、建立人类心理行为词汇数据的事务数据库,心理测试者的编号作为标识符tid,每一测试者的所有心理行为词汇作为一个事务T,所有事务的集合为事务集D;Step2、扫描事务集D,每个心理行为词汇作为一个项,计算每个项的并存率ρ与它们的和,从而求出最小并存率阈值min_com,保留ρ≥min_com的心理行为词汇项,否则作为噪声剔除,再将所有保留项放入新的事务集D1中;Step3、扫描新事务集D1,每个心理行为词汇作为一个候选1项集c1,所有c1的集合为C1,设置一个最小支持度阈值min_sup,当c1的支持度计数support_count(c1)大于等于min_sup时,则c1成为频繁1项集l1,所有l1的集合为L1,通过将L1与自身相连接产生候选2项集c2,所有c2的集合为C2,如果C2中第i个候选2项集c2(i)的某个子集为第x个候选1项集c1(x),且它不是L1的元素时,则将c2(i)从C2中删除;满足min_sup的c2作为频繁2项集l2,其集合为L2;依次循环类推,得到不同频繁项集l2、l3、……lk-1、lk的集合L2、L3……Lk-1、Lk,其中lk-1、lk分别代表频繁k-1项集和频繁k项集,Lk-1、Lk则为它们各自的集合;Step4、设置一个最小置信度阈值min_conf;每个频繁项集l所产生的每个非空子集为s,若子集(l-s)与s的支持度计数之比大于等于最小置信度阈值min_conf,则输出强关联规则该强规则的置信度大小为l与s的支持度计数之比的值Step5、将所计算出来的所有强关联规则按照其置信度confidence的大小进行排序,当出现一个或多个心理行为词汇时,通过关联规则得出与该心理行为词汇相关联的其他心理行为词汇。进一步,所述步骤Step1中,人类心理行为词汇数据的事务数据库具有所有心理测试者的全部心理行为词汇数据信息,数据字段包括测试者标识符字段与其心理行为词汇数据字段。进一步,所述步骤Step2中具体为:(1)扫描事务集D,计算每一个项的并存率ρ,第i项的并存率ρi计算公式为:式(1)中,support_count(mi)为第i项的总支持度计数;support_count(Si)为第i项的单存项支持度计数;(2)通过上述所得各项并存率,求出它们的和与项数之比,比值即为最小并存率阈值min_com,计算公式为:式(2)中,n是项的总数;为所有项的并存率之和;(3)当第i项的并存率低于最小并存率阈值:ρi<min_com(3)则剔除第i项的所有数据,否则,作为强关联项数据保留并放入新的事务集D1中,进行下一步的数据处理;单存项:某一事务T中仅存在一个项,即该项在事务集D中有单独存在的项集;并存项:某一事务T中存在多个项,每一个项都称为并存项;并存率ρ:某并存项与其他并存项同时存在的概率。进一步,所述步骤Step3中,为得到频繁k项集的集合Lk,通过将频繁k-1项集的集合Lk-1与自身相连接产生候选k项集的集合Ck。进一步,所述步骤Step4的关联规则置信度大小的计算如公式(4)所示:其中:式(4)和(5)中,min_conf为最小置信度阈值,l为频繁项集,l所产生的每个非空子集为s,support_count(l)、support_count(s)、support_count(l-s)分别为括号内字母的支持度计数,为强关联规则。本专利技术的有益效果是:本专利技术与现有技术相比,主要提供了并存率对关联规则算法进行数据优化,通过优化后的关联规则算法对人类的心理行为词汇起到关联分析作用,为心理学、微表情等学科提供了更加精准、高效的分析方法。附图说明图1是本专利技术步骤流程图;图2是本专利技术步骤Step2步骤流程图;图3是本专利技术步骤Step3步骤流程图;图4是本专利技术实施例中Step3的计算频繁项集流程图。具体实施方式下面结合附图和具体实施方式,对本专利技术作进一步说明。实施例1:如图1-3所示,一种基于并存率与关联规则的心理行为分析方法,先建立一个人类心理行为词汇数据的事务数据库;然后求出各心理行为词汇并存项的并存率与最小并存率,从而保留强关联项并生成新的事务集;接着,将新事务集中每个心理行为词汇作为一个项,引入关联规则算法计算出不同项数的频繁项集;其次,由各频繁项集产生相应的强关联规则,并计算出各强关联规则的置信度大小;最后,通过各强关联规则的置信度大小,将这些频繁项集进行排序,结果将能直观表示出各心理行为词汇的关联程度。具体步骤为:Step1、建立人类心理行为词汇数据的事务数据库,心理测试者的编号作为标识符tid,每一测试者的所有心理行为词汇作为一个事务T,所有事务的集合为事务集D;Step2、扫描事务集D,每个心理行为词汇作为一个项,计算每个项的并存率ρ与它们的和,从而求出最小并存率阈值min_com,保留ρ≥min_com的心理行为词汇项,否则作为噪声剔除,再将所有保留项放入新的事务集D1中;Step3、扫描新事务集D1,每个心理行为词汇作为一个候选1项集c1,所有c1的集合为C1,设置一个最小支持度阈值min_sup,当c1的支持度计数support_count(c1)大于等于min_sup时,则c1成为频繁1项集l1,所有l1的集合为L1,通过将L1与自身相连接产生候选2项集c2,所有c2的集合为C2,如果C2中第i个候选2项集c2(i)的某个子集为第x个候选1项集c1(x),且它不是L1的元素时,则将c2(i)从C2中删除;满足min_sup的c2作为频繁2项集l2,其集合为L2;依次循环类推,得到不同频繁项集l2、l3、……lk-1、lk的集合L2、L3……Lk-1、Lk,其中lk-1、lk分别代表频繁k-1项集和频繁k项集,Lk-1、Lk则为它们各自的集合;Step4、设置一个最小置信度阈值min_conf;每个频繁项集l所产生的每个非空子集为s,若子集(l-s)与s的支持度计数之比大于等于最小置信度阈值min_conf,则输出强关联规本文档来自技高网...

【技术保护点】
1.一种基于并存率与关联规则的心理行为分析方法,其特征在于:Step1、建立人类心理行为词汇数据的事务数据库,心理测试者的编号作为标识符tid,每一测试者的所有心理行为词汇作为一个事务T,所有事务的集合为事务集D;Step2、扫描事务集D,每个心理行为词汇作为一个项,计算每个项的并存率ρ与它们的和,从而求出最小并存率阈值min_com,保留ρ≥min_com的心理行为词汇项,否则作为噪声剔除,再将所有保留项放入新的事务集D1中;Step3、扫描新事务集D1,每个心理行为词汇作为一个候选1项集c1,所有c1的集合为C1,设置一个最小支持度阈值min_sup,当c1的支持度计数support_count(c1)大于等于min_sup时,则c1成为频繁1项集l1,所有l1的集合为L1,通过将L1与自身相连接产生候选2项集c2,所有c2的集合为C2,如果C2中第i个候选2项集c2(i)的某个子集为第x个候选1项集c1(x),且它不是L1的元素时,则将c2(i)从C2中删除;满足min_sup的c2作为频繁2项集l2,其集合为L2;依次循环类推,得到不同频繁项集l2、l3、……lk‑1、lk的集合L2、L3……Lk‑1、Lk,其中lk‑1、lk分别代表频繁k‑1项集和频繁k项集,Lk‑1、Lk则为它们各自的集合;Step4、设置一个最小置信度阈值min_conf;每个频繁项集l所产生的每个非空子集为s,若子集(l‑s)与s的支持度计数之比大于等于最小置信度阈值min_conf,则输出强关联规则...

【技术特征摘要】
1.一种基于并存率与关联规则的心理行为分析方法,其特征在于:Step1、建立人类心理行为词汇数据的事务数据库,心理测试者的编号作为标识符tid,每一测试者的所有心理行为词汇作为一个事务T,所有事务的集合为事务集D;Step2、扫描事务集D,每个心理行为词汇作为一个项,计算每个项的并存率ρ与它们的和,从而求出最小并存率阈值min_com,保留ρ≥min_com的心理行为词汇项,否则作为噪声剔除,再将所有保留项放入新的事务集D1中;Step3、扫描新事务集D1,每个心理行为词汇作为一个候选1项集c1,所有c1的集合为C1,设置一个最小支持度阈值min_sup,当c1的支持度计数support_count(c1)大于等于min_sup时,则c1成为频繁1项集l1,所有l1的集合为L1,通过将L1与自身相连接产生候选2项集c2,所有c2的集合为C2,如果C2中第i个候选2项集c2(i)的某个子集为第x个候选1项集c1(x),且它不是L1的元素时,则将c2(i)从C2中删除;满足min_sup的c2作为频繁2项集l2,其集合为L2;依次循环类推,得到不同频繁项集l2、l3、……lk-1、lk的集合L2、L3……Lk-1、Lk,其中lk-1、lk分别代表频繁k-1项集和频繁k项集,Lk-1、Lk则为它们各自的集合;Step4、设置一个最小置信度阈值min_conf;每个频繁项集l所产生的每个非空子集为s,若子集(l-s)与s的支持度计数之比大于等于最小置信度阈值min_conf,则输出强关联规则该强规则的置信度大小为l与s的支持度计数之比的值Step5、将所计算出来的所有强关联规则按照其置信度confidence的大小进行排序,当出现一个或多个心理行为词汇时,通过关联规则得出与该心理行为词汇相关联的其他心理行为词汇。2.根据权利要求1所述的基于并存率与关联...

【专利技术属性】
技术研发人员:宋耀莲田榆杰武双新王慧东徐文林
申请(专利权)人:昆明理工大学
类型:发明
国别省市:云南,53

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1