当前位置: 首页 > 专利查询>西京学院专利>正文

用于挖掘中医证型关联证素的Apriori算法的改进方法技术

技术编号:19323559 阅读:112 留言:0更新日期:2018-11-03 12:26
用于挖掘中医证型关联证素的Apriori算法的改进方法,其步骤为包括定义性质、数据库中有k个事务项集,即|D|=k,每个事务都有唯一的TID作标记,设置最小支持度计数为min_sup;建立事务编码矩阵,增加删除标记DelTag,纵向统计得到修改后的事务编码矩阵的项同时为“1”的个数计算项集的支持度,与min_sup比较,产生频繁2‑项集L2、发现频繁项集、将事务编码矩阵中的事务Tk‑1的DelTag改为0,扫描数据库计算项集支持度,与min_sup比较,产生频繁项集LCount1、根据性质4,频繁项集LCount1中的项集总数是否大于k+1,如果大于,则存在LCount1+1算法继续;如果小于,则LCount1+1不存在算法结束;本发明专利技术具有提高效率的优点。

An improved Apriori algorithm for mining syndromes of TCM Syndromes

The improved method of Apriori algorithm for mining TCM syndromes related syndromes includes defining nature, K transaction item sets in database, i.e. | D |= k, each transaction has a unique TID as a marker, setting the minimum support count as min_sup, establishing transaction coding matrix, adding DelTag deletion marker, and longitudinal statistics. Comparing with min_sup, it produces frequent itemsets L2, discovers frequent itemsets, changes DelTag of transaction Tk_1 in transaction encoding matrix to 0, scans database to calculate itemset support, and produces frequent itemsets LCou. Nt1. According to property 4, whether the number of itemsets in frequent itemset LCount1 is greater than k+1, if it is larger, there exists LCount1+1 algorithm to continue; if it is smaller, there is no algorithm to end LCount1+1; the invention has the advantage of improving efficiency.

【技术实现步骤摘要】
用于挖掘中医证型关联证素的Apriori算法的改进方法
本专利技术涉及数据挖掘中关联规则的
,特别涉及用于挖掘中医证型关联证素的Apriori算法的改进方法。
技术介绍
恶性肿瘤已成为危害人们生命健康的主要杀手,中医治疗乳腺癌有着独特的优势,从整体出发,调整机体气血、阴阳、脏腑功能的平衡,根据不同的临床证侯进行辨证论治,确定“先证而治”的方向。借助三阴乳腺癌患者的病理信息,挖掘患者的症状与中医证型之间的关联关系,对截断治疗提供依据。依据发现的中医症状间的关联关系和诸多症状间的规律性,分析病因、预测病情发展以及为未来临床诊治提供有效借鉴。Apriori算法是挖掘数据间关联规则的经典算法,基本思想是通过对数据库的多次扫描计算项集的支持度,发现所有频繁项集从而生成关联规则。算法的主要缺点:一是多次扫描事务数据库增加时间开销,二是可能产生庞大的候选项集,三是频繁项目集长度变大时,运算时间会显著增加。
技术实现思路
为了克服现有技术的不足,本专利技术的目的是提供了一种用于挖掘中医证型关联证素的Apriori算法的改进方法,通过对Apriori算法进行改进,提高发现乳腺癌症状与中医证型数据关联规则的时间效率。为了达到上述目的,本专利技术所采用的方案如下:用于挖掘中医证型关联证素的Apriori算法的改进方法,其步骤为:步骤一:数据库中有k个事务项集,即|D|=k,每个事务都有唯一的TID作标记,设置最小支持度计数为min_sup;步骤二,建立事务编码矩阵,增加删除标记DelTag,其初始值均为1,通过对事务编码矩阵的纵向统计每项“1”的个数计算项集的支持度,与min_sup比较,产生频繁项集L1,由L1得到的项序列I1;根据性质:事务集合中项数若少于k,则无法产生频繁k-项集;修改事务编码矩阵,即横向统计“1”的个数是1<2,将其DelTag改为0,得到修改后的事务编码矩阵;纵向统计得到修改后的事务编码矩阵的项同时为“1”的个数计算项集的支持度,与min_sup比较,产生频繁2-项集L2步骤三:发现频繁项集对频繁项集Lk-1中各项集进行0、1编码,然后将各项集进行“或”运算,统计生成的二进制编码中“1”的个数Count1,再统计各项集出现的次数,根据统计值及性质:在Lk-1自连接生成候选k项集Ck时,Ck中的每个项集重复出现次,确定候选项集CCount1;步骤四,将事务编码矩阵中的事务Tk-1的DelTag改为0,扫描数据库计算项集支持度,与min_sup比较,产生频繁项集LCount1步骤五,根据性质:如果频繁项集Lk的项集总数小于k+1,那么频繁(k+1)-项集不存在,频繁项集LCount1中的项集总数是否大于k+1,如果大于,则存在LCount1+1算法继续;如果小于,则LCount1+1不存在算法结束。本专利技术的有益效果:本专利技术建立事务编码矩阵,增加删除标记DelTag,其初始值均为1,减少扫描数据库的时间开销,提高了效率,发现不同分期阶段的三阴乳腺癌患者的中医证素分布规律。具体实施方式下面结合实施例对本专利技术作进一步描述。用于挖掘中医证型关联证素的Apriori算法的改进方法,其步骤为:步骤一:数据库中有6个事务项集,即|D|=6,每个事务都有唯一的TID作标记,设置最小支持度计数为min_sup=2;步骤二,建立事务编码矩阵,增加删除标记DelTag,其初始值均为1,对事务编码矩阵为:通过对事务编码矩阵的纵向统计每项“1”的个数计算项集的支持度,与min_sup比较,产生频繁项集L1,L1={{I1},{I2},{I3},{I4}},由L1得到的项序列I为:I={I1,I2,I3,I4};根据性质:事务集合中项数若少于k,则无法产生频繁k-项集,修改事务编码矩阵,即横向统计“1”的个数是1<2,将其DelTag改为0,得到修改后的事务编码矩阵;对L1项集进行自连接生成候选项集C2,扫描修改后的事务编码矩阵中DelTag=1的事务,纵向统计C2项集中的项同时为“1”的个数计算项集的支持度,与min_sup=2比较,产生频繁项集L2。L2={{I1,I2},{I1,I3},{I2,I3},{I2,I4},{I3,I4}}步骤三:发现频繁项集根据项序列I对L2中的频繁项集进行编码,结果如下:{I1,I2}={1100}{I1,I3}={1010}{I2,I3}={0110}{I2,I4}={0101}{I3,I4}={0011}统计“1”的个数Count1,“1”的个数为3的候选项集中,找出重复出现次数为的项集,产生候选项集C3。C3={{I1,I2,I3},{I2,I3,I4}}步骤四:将事务编码矩阵C1中的事务T2的DelTag改为0,扫描数据库计算项集支持度,与min_sup比较,产生频繁项集L3。L3={{I1,I2,I3},{I2,I3,I4}}步骤五:根据性质:如果频繁项集Lk的项集总数小于k+1,那么频繁(k+1)-项集不存在,L3中的项集总数是2,2<3+1,则L4不存在,因此算法结束。本文档来自技高网...

【技术保护点】
1.用于挖掘中医证型关联证素的Apriori算法的改进方法,其特征在于,其步骤为:步骤一:数据库中有k个事务项集,即|D|=k,每个事务都有唯一的TID作标记,设置最小支持度计数为min_sup;步骤二,建立事务编码矩阵,增加删除标记DelTag,其初始值均为1,通过对事务编码矩阵的纵向统计每项“1”的个数计算项集的支持度,与min_sup比较,产生频繁项集L1,由L1得到的项序列I1;根据性质:事务集合中项数若少于k,则无法产生频繁k‑项集,修改事务编码矩阵,即横向统计“1”的个数是1

【技术特征摘要】
1.用于挖掘中医证型关联证素的Apriori算法的改进方法,其特征在于,其步骤为:步骤一:数据库中有k个事务项集,即|D|=k,每个事务都有唯一的TID作标记,设置最小支持度计数为min_sup;步骤二,建立事务编码矩阵,增加删除标记DelTag,其初始值均为1,通过对事务编码矩阵的纵向统计每项“1”的个数计算项集的支持度,与min_sup比较,产生频繁项集L1,由L1得到的项序列I1;根据性质:事务集合中项数若少于k,则无法产生频繁k-项集,修改事务编码矩阵,即横向统计“1”的个数是1<2,将其DelTag改为0,得到修改后的事务编码矩阵;纵向统计得到修改后的事务编码矩阵的项同时为“1”的个数计算项集的支持度,与min_sup比较,产生频繁2-项集L2步骤三:发现频繁项集对频繁项集Lk-1中各项集进行0、1编码,然后将各项集进行“或”运算,统计生成的二进制编码中“1”的个数Count1,再统计各项集出现的次数,根据统计值及性质:在Lk-1自连接生成候选k项集Ck时,Ck中的每个项集重复出现次,确定候选项集CCount1;步骤四,将事务编码矩阵中的事务Tk-1的DelTag改为0,扫描数据库计算项集支持度,与min_sup比较,产生频繁项集LCount1步骤五,根据性质:如果频繁项集Lk的项集总数小于k+1,那么频繁(k+1)-项集不存在;,频繁项集LCount1中的项集总数是否大于k+1,如果大于,则存在LCount1+1算法继续;如果小于,则LCount1+1不存在算法结束。2.根据权利要求1所述的用于挖掘中医证型关联证素的Apriori算法的改进方法,其特征在于,其步骤为:步骤一:数据库中有6个事务项集,即|D|=6,每个事务都有唯一的TID作标记,设...

【专利技术属性】
技术研发人员:李月军
申请(专利权)人:西京学院
类型:发明
国别省市:陕西,61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1