一种基于症状相关性对症状降维的分析方法技术

技术编号:19343918 阅读:14 留言:0更新日期:2018-11-07 14:33
本发明专利技术涉及一种基于症状相关性对症状降维的分析方法,属于大数据分析技术领域。本发明专利技术包括步骤:首先建立症状发病量数据库;对采集到的症状信息进行筛选处理,即根据所需求的症状剔除不在其中的症状;对症状进行一系列相关性分析;对相关性分析的结果进行判断,比较其与阈值的大小,进行判断是否可以对该症状进行降维。本发明专利技术是通过对未知确切疾病的情况下采集症状分析时对冗余的症状进行一个降维处理,有些不需要采集的症状可以剔除,大大的降低了采集过程中的工作量,从而在一定程度上达到减少信息冗余的效果,为后期医学上的复杂分析降低维度。

An analysis method for symptom dimensionality reduction based on symptom correlation

The present invention relates to an analysis method of dimensionality reduction of symptoms based on symptom correlation, and belongs to the field of large data analysis technology. The invention comprises the following steps: firstly, establishing a symptom incidence database; screening and processing the collected symptoms information, i.e., eliminating symptoms that are not in it according to the required symptoms; conducting a series of correlation analysis of symptoms; judging the results of correlation analysis, comparing the size of the correlation with the threshold value, and judging that: No symptoms can be reduced. The present invention is to reduce the dimension of redundant symptoms when collecting symptoms in the case of unknown and exact diseases. Some symptoms that do not need to be collected can be eliminated, which greatly reduces the workload in the process of collecting, thus achieving the effect of reducing information redundancy to a certain extent, and is complex in later medicine. Analysis of reduced dimensions.

【技术实现步骤摘要】
一种基于症状相关性对症状降维的分析方法
本专利技术涉及一种基于症状相关性对症状降维的分析方法,属于大数据分析

技术介绍
随着社会的发展,各种传染病肆虐着人类的身体,给无数的家庭带来了极大痛苦,并且随着社会的进步,人员流动水平和速度逐渐提升,也使得传染病在人们之间的扩散得以加剧,因此有很多部门做出传染病疫情预警的实施方案,但是由于症状的繁多,数据处理起来极为麻烦,因此本基于症状相关性对症状降维的一种分析方法,以提高疫情预警的效果和效率为目的产生。
技术实现思路
本专利技术提供了一种基于症状相关性对症状降维的分析方法,本专利技术通过对未知确切疾病的情况下采集症状分析时对冗余的症状进行降维处理,有些不需要采集的症状可以剔除,大大的降低了采集过程中的工作量,从而在一定程度上达到减少信息冗余的效果,为后期医学上的复杂分析降低维度。本专利技术的技术方案是:一种基于症状相关性对症状降维的分析方法,首先建立症状发病量数据库;对采集到的症状信息进行筛选处理,即根据所需求的症状信息剔除不在其中的症状信息;对症状信息进行一系列相关性分析;对相关性分析的结果进行判断,比较其与阈值的大小,进行判断是否可以对该症状进行降维。所述方法的具体步骤如下:Step1、建立症状发病量的数据库:收集某地区某段时间内疾病的症状发病量情况建立一个时间轴上的症状发病量信息表;症状发病量信息表包括:症状种类、编号、时间、症状对应的发病数量;Step2、症状数据预处理:对采集到的疾病症状信息字段,根据所需求的症状信息和收集到的症状信息进行对比,剔除掉无需进行相关性分析的无用症状信息;Step3、对症状信息进行相关性分析:根据Step2筛选好的症状对应的发病数量,采集到的数据为一段时间内每天各个症对应的数量依次为其中第一个症状X的样本设为第二个症状Y的样本设为第三个症状Z的样本设为……以此类推;当进行分析两种症状的相关性的时候,计算两种症状数据之间的协方差,其计算任意两种症状数据样本协方差的方式一样;当进行多种症状之间的相关性的时候计算多种症状中任意两种症状数据的协方差;计算好的协方差cov(X,Y),如果cov(X,Y)>0则说明此两种症状正相关,如果cov(X,Y)<0则说明此两种症状负相关;然后需要衡量正相关症状的相关性的密切程度,通过计算两种症状之间的相关系数rxy,任意两种症状之间的相关系数的计算方式均相同;Step4、判断是否可以降维:设定一个阈值h,当症状相关系数rxy>h,则判定此两种症状相关性极高,可以对症状进行降维,否则不进行降维。所述步骤Step3中,对Step3中两种症状样本X、Y进行协方差计算公式为:其中分别为样本X,Y的均值。所述具体步骤Step3中,对Step3中两种症状进行相关系数的计算公式为:其中cov(X,Y)为样本X,Y的协方差,计算公式为:其中Sx为样本X的标准差,计算公式为:其中Sy为样本Y的标准差,计算公式为:其中两种症状进行相关系数rxy>h时,则判定此两种症状相关性高,可以对症状进行降维,否则不进行降维,其中h=0.8。本专利技术的有益效果是:本专利技术是通过对未知确切疾病的情况下采集症状分析时对冗余的症状进行一个降维处理,有些不需要采集的症状可以剔除,大大的降低了采集过程中的工作量,从而在一定程度上达到减少信息冗余的效果,为后期医学上的复杂分析降低维度。附图说明图1是本专利技术总流程图;图2是Step3中的详细流程图。具体实施方式实施例1:如图1-2所示,一种基于症状相关性对症状降维的分析方法,首先建立症状发病量数据库;对采集到的症状信息进行筛选处理,即根据所需求的症状剔除不在其中的症状;对症状进行一系列相关性分析;对相关性分析的结果进行判断,比较其与阈值的大小,进行判断是否可以对该症状进行降维。所述方法的具体步骤如下:Step1、建立症状发病量的数据库:收集某地区某段时间内疾病的症状发病量情况建立一个时间轴上的症状发病量信息表;症状发病量信息表包括:症状种类、编号、时间、症状对应的发病数量;症状发病量的数据如表1所示,原始数据为一个月的发热,头痛,咳嗽,咽痛,腹痛和腹泻五种症状的每天发病人数:表1Step2、症状数据预处理:对采集到的疾病症状信息字段,根据所需求的症状和收集到的症状进行对比,剔除掉无需进行相关性分析的无用症状信息;Step3、对症状信息进行相关性分析:根据Step2筛选好的症状对应的发病数量,采集到的数据为一段时间内每天各个症对应的数量依次为其中第一个症状X的样本设为第二个症状Y的样本设为第三个症状Z的样本设为……以此类推;当进行分析两种症状的相关性的时候,计算两种症状数据之间的协方差,其计算任意两种症状数据样本协方差的方式一样;当进行多种症状之间的相关性的时候计算多种症状中任意两种症状数据的协方差;计算好的协方差cov(X,Y),如果cov(X,Y)>0则说明此两种症状正相关,如果cov(X,Y)<0则说明此两种症状负相关;然后需要衡量正相关症状的相关性的密切程度,通过计算两种症状之间的相关系数rxy,任意两种症状之间的相关系数的计算方式均相同;所述步骤Step3中,对Step3中两种症状样本X、Y进行协方差计算公式为:其中分别为样本X,Y的均值。所述具体步骤Step3中,对Step3中两种症状进行相关系数的计算公式为:其中cov(X,Y)为样本X,Y的协方差,计算公式为:其中Sx为样本X的标准差,计算公式为:其中Sy为样本Y的标准差,计算公式为:其中两种症状进行相关系数rxy>h时,则判定此两种症状相关性高,可以对症状进行降维,否则不进行降维,其中症状协方差结果和症状相关性系数结果分别如表2和表3。表2表3Step4、判断是否可以降维:设定一个阈值h,h=0.8,当症状相关系数rxy>h,则判定此两种症状相关性极高,可以对症状进行降维,否则不进行降维。根据表3:症状相关性系数计算结果,可以看出咽痛和咳嗽的相关性系数rxy=0.838,大于设定的阈值h=0.8。这就在一定程度上表明咽痛发生的同时,伴随着咳嗽发生的概率就非常大,从信息论的角度分析可以得出咽痛和咳嗽之间存在的信息量非常少,因此可以对二者进行降维处理,有些不需要采集的症状可以剔除,大大的降低了采集过程中的工作量,在一定程度上减少信息的冗余,为后期医学上的复杂分析降低维度。上面结合附图对本专利技术的具体实施方式作了详细说明,但是本专利技术并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本专利技术宗旨的前提下作出各种变化。本文档来自技高网...

【技术保护点】
1.一种基于症状相关性对症状降维的分析方法,其特征在于:首先建立症状发病量数据库;对采集到的症状信息进行筛选处理,即根据所需求的症状信息剔除不在其中的症状信息;对症状信息进行一系列相关性分析;对相关性分析的结果进行判断,比较其与阈值的大小,进行判断是否可以对该症状进行降维。

【技术特征摘要】
1.一种基于症状相关性对症状降维的分析方法,其特征在于:首先建立症状发病量数据库;对采集到的症状信息进行筛选处理,即根据所需求的症状信息剔除不在其中的症状信息;对症状信息进行一系列相关性分析;对相关性分析的结果进行判断,比较其与阈值的大小,进行判断是否可以对该症状进行降维。2.根据权利要求1所述的基于症状相关性对症状降维的分析方法,其特征在于:所述方法的具体步骤如下:Step1、建立症状发病量的数据库:收集某地区某段时间内疾病的症状发病量情况建立一个时间轴上的症状发病量信息表;症状发病量信息表包括:症状种类、编号、时间、症状对应的发病数量;Step2、症状数据预处理:对采集到的疾病症状信息字段,根据所需求的症状信息和收集到的症状信息进行对比,剔除掉无需进行相关性分析的无用症状信息;Step3、对症状信息进行相关性分析:根据Step2筛选好的症状对应的发病数量,采集到的数据为一段时间内每天各个症对应的数量依次为其中第一个症状X的样本设为第二个症状Y的样本设为第三个症状Z的样本设为……以此类推;当进行分析两种症状的相关性的时候,计算两种症状数据之间的协方差,其计算任意两种症状数据样本协方差的方式一样;当进行多种症状...

【专利技术属性】
技术研发人员:粘冬晓杜庆治张漪龙华邵玉斌
申请(专利权)人:昆明理工大学
类型:发明
国别省市:云南,53

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1