基于医疗单据的可视化报表的方法和系统技术方案

技术编号:20007279 阅读:34 留言:0更新日期:2019-01-05 18:46
本发明专利技术涉及基于医疗单据的可视化报表的方法。本发明专利技术的方法包括如下步骤:1)采集医疗单据的数据;2)将医疗单据的数据分为疾病数据和患者数据;3)对疾病类别数据进行分析,采用聚类算法,然后用疾病类别分布图谱的方式来呈现分析的结果;4)对疾病人群的数据进行分析,采用人群属性标签算法和关联规则挖掘算法,然后用疾病人群的网络关系图的方法来呈现分析的结果;其中,所述疾病类别数据分析采用聚类算法;所述对疾病人群的数据进行分析是采用Apriori算法做关联规则挖掘。本发明专利技术针对医疗大数据的特定性,提出了对这些不同的维度,以统一的方式呈现出来便于疾病防控的分析的解决方案。

Method and System of Visual Report Based on Medical Documents

The present invention relates to a method of visual report based on medical documents. The method of the invention includes the following steps: 1) collecting the data of medical documents; 2) dividing the data of medical documents into disease data and patient data; 3) analyzing the data of disease category, adopting clustering algorithm, and presenting the results of analysis by means of disease category distribution map; 4) analyzing the data of disease population, adopting population attribute labeling algorithm and association rules. Mining algorithm, and then use the method of network graph of disease population to present the results of analysis; among them, the disease category data analysis adopts clustering algorithm; the data analysis of disease population uses Apriori algorithm to do association rule mining. In view of the specificity of large medical data, the present invention proposes a solution for the analysis of these different dimensions in a unified manner, which is convenient for disease prevention and control.

【技术实现步骤摘要】
基于医疗单据的可视化报表的方法和系统
本专利技术属于数据或信息处理
,具体涉及医疗大数据的处理,更具体涉及医疗单据的可视化报表的方法和系统。
技术介绍
在医疗行业,医疗数据有医院的具体诊疗数据,这类数据一般专业性高,而且主要在医院各科室存储所以普通渠道不易获取。但是医疗单据数据(发票、处方等),由于全部要交给患者持有,所以采集容易,比如保险公司理赔渠道都能获取这类数据。因此,这类医疗单据数据正在呈几何级数的增长。随之而来的问题是:医疗单据大数据可视化系统的极度匮乏。因为面对海量数据的时候,逐条浏览数据变得没有任何意义。需要可视化系统来生成。而对于可视化系统来说,不同的行业的数据以及数据维度,会带来最终报表呈现上的天壤之别。随着现在大数据概念的兴起,各行各业开始高度重视本行业各类数据的采集和存储。已知的大数据分析已有一定的应用,如申请号为201610497249的专利申请涉及基于大数据分析建立疾病云图的方法,申请号为201710150587.8的专利申请涉及智慧环保大数据可视化方法。但是医疗大数据具有其特定性,比如涉及有疾病,疾病类别,患者有年龄、性别等属性。如何将这些不同的维度,以统一的方式呈现出来便于疾病防控的分析,是一个需要解决的问题。
技术实现思路
针对上述需求,本专利技术提供一种基于医疗单据的可视化报表的方法。本专利技术的一种基于医疗单据的可视化报表的方法,主要包括下述流程:1)采集医疗单据的数据2)将医疗单据的数据分为疾病数据和患者数据3)对疾病类别数据进行分析,采用聚类算法,然后用疾病类别分布图谱的方式来呈现分析的结果4)对疾病人群的数据进行分析,采用人群属性标签算法和关联规则挖掘算法,然后用疾病人群的网络关系图的方法来呈现分析的结果其中,上述疾病类别数据分析的方法如下:根据医疗单据上的处方和诊断证明中的疾病名称来获得疾病数据的来源。主要使用ICD10医疗目录,作为树状结构目录,然后将具体疾病,这个目录树上做聚类算法。具体过程为:A)以关系型数据方式整理出icd10目录,分DS1,DS2,DS3三个级别B)以相似度查找的方法,同时加以纠错的方式定位到具体的疾病记录DS3查找的具体方法,是遍历单据上疾病,计算它和DS3级别疾病的编辑距离。算法如下:B1)str1或str2的长度为0返回另一个字符串的长度。if(str1.length==0)returnB2)初始化(n+1)*(m+1)的矩阵d,并让第一行和列的值从0开始增长。扫描两字符串(n*m级的),如果:str1[i]==str2[j],用temp记录它,为0。否则temp记为1。然后在矩阵d[i,j]赋于d[i-1,j]+1、d[i,j-1]+1、d[i-1,j-1]+temp三者的最小值。B3)扫描完后,返回矩阵的最后一个值d[n][m]即是它们的距离。B4)和所有DS3级别比较距离,距离为0或低于一个阈值的,命中,可以认为单据上的疾病就是此DS3的疾病。C)对DS3,记录病患的次数。D)在DS2级别上,汇总DS3级别的所有次数;在DS1级别上汇总DS2的所有数据。这样,无论哪一级数据都能得出病患次数。E)最终,能按树状结构汇总出疾病的发病次数和人数。通过上述方法,最终以基于疾病类别分布图谱的可视化报表呈现。本专利技术采用矩形树图的方式,呈现出各类疾病的发病数量,区域面积越大的,代表发病多。矩形树图主要目的就是要在一张图内一目了然整体的状况,由各个元件量的大小决定图示大小,并具有群组功能。具体做图方法为:首先,按照第三级疾病的发病数,计算出发病的总比例,然后根据总比例数确定出第三级每种疾病在一个矩形上的面积。一旦所有第三级的疾病的矩形面积确定,那么第二级疾病的面积和第一级疾病的面积也随之确定。疾病数据按照icd10的目录分为三级。第一级疾病,用不同颜色的区域呈现。如图2所示的例图。第二级和第三级疾病,都在第一级区域中用细分的区域展现。点击任何第一级区域,会聚焦到这个级别专门展现其信息。如点击后呼吸系统疾病,会呈现这个类别的更进一步信息。上述患者人群数据分析的方法如下:数据来源包括:一是每例疾病的树状结构(用上述的疾病数据分析方法得到的),二是患者数据的人群属性标签。患者人群属性标签的数据源,来自医疗单据(如病历卡)中的患者的年龄,性别,医保卡号,然后按年龄和性别,组成不同的用户群组。然后,用疾病和患者这两方面的数据做关联规则挖掘。具体方法是主要采用Apriori算法做关联规则挖掘。Apriori算法是一种最有影响的挖掘布尔关联规则频繁项集的算法。是基于这样的事实:算法使用频繁项集性质的先验知识。Apriori使用一种称作逐层搜索的迭代方法,k-项集用于探索(k+1)-项集。首先,找出频繁1-项集的集合。该集合记作L1。L1用于找频繁2-项集的集合L2,而L2用于找L3,如此下去,直到不能找到频繁k-项集。找每个Lk需要一次数据库扫描。首先扫描所有事务,得到1-项集C1,根据支持度要求滤去不满足条件项集,得到频繁1-项集。接下来进行递归运算:已知频繁k-项集(频繁1-项集已知),根据频繁k-项集中的项,连接得到所有可能的K+1_项,并进行剪枝(如果该k+1_项集的所有k项子集不都能满足支持度条件,那么该k+1_项集被剪掉),得到Ck+1项集,然后滤去该Ck+1项集中不满足支持度条件的项得到频繁k+1-项集。如果得到的Ck+1项集为空,则算法结束。连接的方法为:假设Lk项集中的所有项都是按照相同的顺序排列的,那么如果Lk[i]和Lk[j]中的前k-1项都是完全相同的,而第k项不同,则Lk[i]和Lk[j]是可连接的。比如L2中的{I1,I2}和{I1,I3}就是可连接的,连接之后得到{I1,I2,I3},但是{I1,I2}和{I2,I3}是不可连接的,否则将导致项集中出现重复项。关于剪枝再举例说明一下,如在由L2生成K3的过程中,列举得到的3_项集包括{I1,I2,I3},{I1,I3,I5},{I2,I3,I4},{I2,I3,I5},{I2,I4,I5},但是由于{I3,I4}和{I4,I5}没有出现在L2中,所以{I2,I3,I4},{I2,I3,I5},{I2,I4,I5}被剪枝掉了。通过上述方法,最终以疾病人群的网络关系图呈现。其中通过关联规则挖掘,可以找出疾病类别和易感人群属性的内在联系。具体方法如下:首先,对每一例疾病,能计算出疾病类别的一级编码DS1,也能计算出患者的人群属性的组别编码PG,构建一个一维数组放入[DS1,PG];然后,扫描所有疾病记录,把第一步的一维数组的输入填充到一个新数组,构建成一个高维数组;再次,对高维数组进行关联规则挖掘计算,最终会得到DS1,PG不同组合数据的频度权重值FP。由于是分析高频关系,所以取最高频的80组结果,填充为Gexf格式数据。Gexf是一种用来描述复杂网络关系的特殊的xml语言,gexf中一般是先说明节点(nodes),然后再建立结点间的关系(edges)。将DS3,PG作为Gexf的Node填入,把其对应的FP值作为Edge填入。最后,用Gexf数据做关系图的渲染。其中红色为疾病类别,深蓝为人群属性。其中,人群属性,按照年龄段和性别来分组。疾病类别,按icd10的一级目录来分本文档来自技高网...

【技术保护点】
1.一种基于医疗单据的可视化报表的方法,其特征在于,包括如下步骤:1)采集医疗单据的数据;2)将医疗单据的数据分为疾病数据和患者数据;3)对疾病类别数据进行分析,采用聚类算法,然后用疾病类别分布图谱的方式来呈现分析的结果;4)对疾病人群的数据进行分析,采用人群属性标签算法和关联规则挖掘算法,然后用疾病人群的网络关系图的方法来呈现分析的结果;其中,所述疾病类别数据分析使用ICD10医疗目录,作为树状结构目录,然后将具体疾病在目录树上做聚类算法;所述对疾病人群的数据进行分析是用疾病和患者两方面的数据做关联规则挖掘,其是采用Apriori算法做关联规则挖掘。

【技术特征摘要】
1.一种基于医疗单据的可视化报表的方法,其特征在于,包括如下步骤:1)采集医疗单据的数据;2)将医疗单据的数据分为疾病数据和患者数据;3)对疾病类别数据进行分析,采用聚类算法,然后用疾病类别分布图谱的方式来呈现分析的结果;4)对疾病人群的数据进行分析,采用人群属性标签算法和关联规则挖掘算法,然后用疾病人群的网络关系图的方法来呈现分析的结果;其中,所述疾病类别数据分析使用ICD10医疗目录,作为树状结构目录,然后将具体疾病在目录树上做聚类算法;所述对疾病人群的数据进行分析是用疾病和患者两方面的数据做关联规则挖掘,其是采用Apriori算法做关联规则挖掘。2.如权利要求1所述的方法,其特征在于,所述疾病类别数据分析的方法具体为:根据医疗单据上的处方和诊断证明中的疾病名称来获得疾病数据的来源;使用ICD10医疗目录,作为树状结构目录,然后将具体疾病目录树上做聚类算法,具体聚类算法过程为:A)以关系型数据方式整理出icd10目录,分DS1,DS2,DS3三个级别;B)以相似度查找的方法,同时加以纠错的方式定位到具体的疾病记录DS3,查找的具体方法,是遍历单据上疾病,计算它和DS3级别疾病的编辑距离;C)对DS3,记录病患的次数;D)在DS2级别上,汇总DS3级别的所有次数;在DS1级别上汇总DS2的所有数据。这样,无论哪一级数据都能得出病患次数;E)最终,能按树状结构汇总出疾病的发病次数和人数。3.如权利要求2所述的方法,其特征在于,第B)中的具体算法如下:B1)str1或str2的长度为0返回另一个字符串的长度:if(str1.length==0)returnB2)初始化(n+1)*(m+1)的矩阵d,并让第一行和列的值从0开始增长;扫描两字符串(n*m级的),如果:str1[i]==str2[j],用temp记录它,为0;否则temp记为1;然后在矩阵d[i,j]赋于d[i-1,j]+1、d[i,j-1]+1、d[i-1,j-1]+temp三者的最小值;B3)扫描完后,返回矩阵的最后一个值d[n][m]即是它们的距离;B4)和所有DS3级别比较距离,距离为0或低于一个阈值的,命中,可以认为单据上的疾病就是此DS3的疾病。4.如权利要求1所述的方法,其特征在于,所述疾病人群的数据进行分析的方...

【专利技术属性】
技术研发人员:孙字弋
申请(专利权)人:北京众信易保科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1