一种关联规则最优曲线模型的构建方法技术

技术编号:12528764 阅读:99 留言:0更新日期:2015-12-17 23:55
本发明专利技术涉及一种关联规则最优曲线模型的构建方法,包括以下步骤:确定疾病的危险因素,获得参与人群的二分类型统计数据;对危险因素进行组合获得n种危险因素组合,计算其在二分类型统计数据中的支持度和置信度;将危险因素组合按其置信度自高到低的顺序排列后,合并前i种危险因素组合形成n种危险因素复合组合;计算危险因素复合组合支持度和置信度;在支持度-置信度直角坐标系中作出与其相对应的点,用平滑曲线连接,该平滑曲线即为在支持度一定的情况下置信度最优的关联规则最优曲线。本发明专利技术操作简单、可同时有效地比较具有不同置信度、支持度的关联规则优劣,因此以广泛应用于关联规则最优曲线模型的构建中。

【技术实现步骤摘要】

本专利技术涉及一种曲线模型的构建方法,特别是关于一种关联规则最优曲线模型的 构建方法。
技术介绍
对易发病人群的共性指标进行定期监测和风险预测是非流行性疾病防控的通用 策略。这类疾病的事实发病风险通常与人口统计学特征、生活习惯等多个风险指标相关。为 了准确预测发病风险,根据同一个临床统计连续型数据,套用不同策略可以统计、归纳拟合 得到多个风险预测模型,多个风险预测模型相互之间的优劣性一般是通过调整模型参数, 得到预测准确度和特异性构成的曲线下面积大小来度量。但是风险预测指标的常见数据形 式通常是二分类型数据,如是否吸烟,是否喝酒,一旦根据此类数据构建出预测模型,无参 数可调整,因而不适用准确度和特异性曲线下面积的度量方法,优劣性比较非常困难。
技术实现思路
针对上述问题,本专利技术的目的是提供一种操作简单、可同时有效地比较具有不同 置信度、支持度的关联规则优劣的关联规则最优曲线模型的构建方法。 为实现上述目的,本专利技术采取以下技术方案:一种关联规则最优曲线模型的构建 方法,包括以下步骤: 1)确定一种疾病的若干个危险因素,获得参与人群含有的危险因素及患有该疾病 的二分类型统计数据,其中,二分类型统计数据中每个危险因素的数据内容根据参与人群 是否含有该危险因素确定为"是"或者"否"; 2)对该疾病的若干个危险因素进行任意组合获得η种危险因素组合,其中,η为 正整数;将每个危险因素组合作为关联规则X^ Y中的先导X,将该疾病作为关联规则 中的后继Υ,计算每个危险因素组合在获得的二分类型统计数据中的支持度和置信 度; 3)将危险因素组合按照其置信度自高到低的顺序排列后,依次合并前i种危险因 素组合形成η种危险因素复合组合,其中i为正整数,取值范围从1到η ; 4)计算每种危险因素复合组合在二分类型统计数据中的支持度和置信度; 5)以支持度为横坐标,置信度为纵坐标建立支持度-置信度直角坐标系,在支持 度-置信度直角坐标系中作出与危险因素复合组合的置信度和支持度相对应的点,并采用 平滑曲线连接,该平滑曲线即为在支持度一定的情况下置信度最优的关联规则最优曲线。 所述步骤2)中,每个危险因素组合在二分类型统计数据中的支持度为既包含危 险因素组合又包含疾病的数据在二分类型统计数据中的概率;置信度为二分类型统计数据 中既包含危险因素组合又包含疾病的数据在包含危险因素组合的数据中的概率。 本专利技术由于采取以上技术方案,其具有以下优点:本专利技术由于采用根据疾病的二 分类型统计数据计算得到关联规则中每种危险因素组合的支持度和置信度,将危险因素组 合按照其置信度conf(YlX)自高到低的顺序排列后,依次合并前i种危险因素组合形成η 种危险因素复合组合R1,然后根据危险因素复合组合R1的支持度和置信度构建关联规则的 最优曲线模型,得到在支持度一定的情况下的最优的置信度,有助于我们比较具有不同置 信度、支持度的规则的优劣。综上所述,本专利技术可以广泛应用于关联规则最优曲线模型的构 建中。【附图说明】 图1是本专利技术的关联规则最优曲线模型的构建方法流程示意图 图2是本专利技术的关联规则的最优曲线示意图【具体实施方式】 下面结合附图和实施例对本专利技术进行详细的描述。 如图1所示,本专利技术提供,包括以下步骤: 1)确定一种疾病的若干个危险因素,获得参与人群含有的危险因素及患有该疾病 的二分类型统计数据,其中,二分类型统计数据中每个危险因素的数据内容根据参与人群 是否含有该危险因素确定为"是"或者"否"。 2)对该疾病的若干个危险因素进行任意组合获得η种危险因素组合,其中,η为正 整数。将每个危险因素组合作为关联规则X 3 Y中的先导X,将该疾病作为关联规则X 3 Y 中的后继Υ,计算每个危险因素组合在获得的二分类型统计数据中的支持度supp(XY)和置 信度 conf(YlX)。 其中,每个危险因素组合在二分类型统计数据中的支持度supp(XY)为既包含危 险因素组合又包含疾病的数据在二分类型统计数据中的概率;置信度conf(YlX)为二分类 型统计数据中既包含危险因素组合又包含疾病的数据在包含危险因素组合的数据中的概 率。 3)将危险因素组合按照其置信度conf(YlX)自高到低的顺序排列后,依次合并前 i种危险因素组合形成η种危险因素复合组合R1,其中i为正整数,取值范围从1到η。 4)计算每种危险因素复合组合R1在二分类型统计数据中的支持度supp(XY)和置 信度 conf(YlX)。 5)以支持度supp (XY)为横坐标,置信度conf (ΥIX)为纵坐标建立支持度-置信度 直角坐标系,如图2所示,在支持度-置信度直角坐标系中作出与危险因素复合组合民的 置信度conf (Y|X)和支持度supp(XY)相对应的点,并采用平滑曲线连接,即为在支持度一 定的情况下置信度最优的关联规则最优曲线。 上述各实施例仅用于说明本专利技术,其中各部件的结构、连接方式和制作工艺等都 是可以有所变化的,凡是在本专利技术技术方案的基础上进行的等同变换和改进,均不应排除 在本专利技术的保护范围之外。【主权项】1. ,包括以下步骤: 1) 确定一种疾病的若干个危险因素,获得参与人群含有的危险因素及患有该疾病的二 分类型统计数据,其中,二分类型统计数据中每个危险因素的数据内容根据参与人群是否 含有该危险因素确定为"是"或者"否"; 2) 对该疾病的若干个危险因素进行任意组合获得η种危险因素组合,其中,η为正整 数;将每个危险因素组合作为关联规则H Y中的先导X,将该疾病作为关联规则 中的后继Υ,计算每个危险因素组合在获得的二分类型统计数据中的支持度和置信度; 3) 将危险因素组合按照其置信度自高到低的顺序排列后,依次合并前i种危险因素组 合形成η种危险因素复合组合,其中i为正整数,取值范围从1到η ; 4) 计算每种危险因素复合组合在二分类型统计数据中的支持度和置信度; 5) 以支持度为横坐标,置信度为纵坐标建立支持度-置信度直角坐标系,在支持度-置 信度直角坐标系中作出与危险因素复合组合的置信度和支持度相对应的点,并采用平滑曲 线连接,该平滑曲线即为在支持度一定的情况下置信度最优的关联规则最优曲线。2. 如权利要求1所述的,其特征在于:所述步 骤2)中,每个危险因素组合在二分类型统计数据中的支持度为既包含危险因素组合又包 含疾病的数据在二分类型统计数据中的概率;置信度为二分类型统计数据中既包含危险因 素组合又包含疾病的数据在包含危险因素组合的数据中的概率。【专利摘要】本专利技术涉及,包括以下步骤:确定疾病的危险因素,获得参与人群的二分类型统计数据;对危险因素进行组合获得n种危险因素组合,计算其在二分类型统计数据中的支持度和置信度;将危险因素组合按其置信度自高到低的顺序排列后,合并前i种危险因素组合形成n种危险因素复合组合;计算危险因素复合组合支持度和置信度;在支持度-置信度直角坐标系中作出与其相对应的点,用平滑曲线连接,该平滑曲线即为在支持度一定的情况下置信度最优的关联规则最优曲线。本专利技术操作简单、可同时有效地比较具有不同置信度、支持度的关联规则优劣,因此以广泛应用于关联规则最优曲线模型的构建中。【IPC分类】G06F17/50【公开号】CN1051本文档来自技高网...
一种关联规则最优曲线模型的构建方法

【技术保护点】
一种关联规则最优曲线模型的构建方法,包括以下步骤:1)确定一种疾病的若干个危险因素,获得参与人群含有的危险因素及患有该疾病的二分类型统计数据,其中,二分类型统计数据中每个危险因素的数据内容根据参与人群是否含有该危险因素确定为“是”或者“否”;2)对该疾病的若干个危险因素进行任意组合获得n种危险因素组合,其中,n为正整数;将每个危险因素组合作为关联规则中的先导X,将该疾病作为关联规则中的后继Y,计算每个危险因素组合在获得的二分类型统计数据中的支持度和置信度;3)将危险因素组合按照其置信度自高到低的顺序排列后,依次合并前i种危险因素组合形成n种危险因素复合组合,其中i为正整数,取值范围从1到n;4)计算每种危险因素复合组合在二分类型统计数据中的支持度和置信度;5)以支持度为横坐标,置信度为纵坐标建立支持度‑置信度直角坐标系,在支持度‑置信度直角坐标系中作出与危险因素复合组合的置信度和支持度相对应的点,并采用平滑曲线连接,该平滑曲线即为在支持度一定的情况下置信度最优的关联规则最优曲线。

【技术特征摘要】

【专利技术属性】
技术研发人员:李非伯晓晨徐文剑于耀东
申请(专利权)人:中国人民解放军军事医学科学院放射与辐射医学研究所
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1