一种基于海量数据提取异常疾病数据的计算方法技术

技术编号:30441434 阅读:21 留言:0更新日期:2021-10-24 18:29
本发明专利技术提出了一种基于海量数据提取异常疾病数据的计算方法,包括如下步骤:S1,获取患者病例数据,对病例数据中的文本数据和数值数据分别进行提取,S2,将提取的文本数据和数值数据进行特征抽样。数据进行特征抽样。数据进行特征抽样。

【技术实现步骤摘要】
一种基于海量数据提取异常疾病数据的计算方法


[0001]本专利技术涉及数据分析领域,尤其涉及一种基于海量数据提取异常疾病数据的计算方法。

技术介绍

[0002]由于生活水平的提高,人们在生活中会摄入大量的碳水化合物和糖类食品,这些食品在身体内如果堆积过量,必然会导致消化系统紊乱,而且严重者会诱发糖尿病,如何在前期的数据中提炼出关键数据,并对相应数据进行归类和分析,并对分析的数据进行筛选推荐,虽然现有技术中通过神经网络学习能够简单获取提炼的糖尿病样本数据,但是无法进行实时数据与样本数据的比对,这就亟需本领域技术人员解决相应的技术问题。

技术实现思路

[0003]本专利技术旨在至少解决现有技术中存在的技术问题,特别创新地提出了一种基于海量数据提取异常疾病数据的计算方法。
[0004]为了实现本专利技术的上述目的,本专利技术提供了一种基于海量数据提取异常疾病数据的计算方法,其特征在于,包括如下步骤:
[0005]S1,获取患者病例数据,对病例数据中的文本数据和数值数据分别进行提取,
[0006]S2,将提取的文本数据和数值数据进行特征抽样阈值判断。
[0007]优选的,所述S1包括:
[0008]S1

1,获取病例数据中患者检查项,针对文本数据和数值数据进行归一化处理,计算条件概率D
ij

[0009]其中,V
i
为病例数据的文本数据集,V
j
为病例数据的数值数据集,M
ij<br/>为病例类别权重;b是搜索文字关键词的二值化页面参数,C是调节因子,d
k
为选择的病例关键词,其中V
i
·
(b|d
k
)+V
j
·
β是获取的文本数据集V
i
和数值数据集V
j
的匹配度,β为数值有效性权重。
[0010]优选的,所述S1还包括:
[0011]S1

2,将归一化处理的数据集,进行数据相似度判断,提取文本数据分布函数E
i
和数值数据分布函数E
j
度量数据相似性,W
s
为病例评测的权重集合,s∈{1,2,

n};
[0012]计算高斯分布
[0013]将B的平滑部分和高斯混合模型的似然估计进行线性组合,获得高斯分布。
[0014]优选的,所述S2还包括:
[0015]形成的文本数据和数值数据数据节点,通过B的高斯分布进行特征抽样,根据抽样
后的节点特征A进行阈值判断,从而对抽样的节点进行收敛,防止回溯,
[0016][0017]其中,u+v是抽样后的文本数据和数值数据数据节点总数量,class(u)是文本数据抽样u的级别,class(v)是数值数据抽样v的级别,α文本数据扰动因子,|L为相似文本数据的间隔长度的绝对值,μ为数值文本扰动因子;
[0018]u和v的邻居节点并不重合,当u和v的级别都到达最小时,调节相应的扰动因子,让u和v的邻居节点数唯一,当u和v的级别都到达最大时,对抽样的节点进行收敛形成指标数据集。
[0019]综上所述,由于采用了上述技术方案,本专利技术的有益效果是:
[0020]通过对海量数据进行比对分析,能够快速准确得到糖尿病提炼数据,并对该提炼数据进行阈值判断,从而形成推荐数据,并发送至用户端进行参考。
[0021]本专利技术的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本专利技术的实践了解到。
附图说明
[0022]本专利技术的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
[0023]图1是本专利技术具体实施方式流程图;
[0024]图2是本专利技术总体流程图。
具体实施方式
[0025]下面详细描述本专利技术的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本专利技术,而不能理解为对本专利技术的限制。
[0026]如图1和2所示,本专利技术公开一种基于海量数据提取异常疾病数据的计算方法,包括如下步骤:
[0027]S1,获取患者病例数据,对病例数据中的文本数据和数值数据分别进行提取,将提取的文本数据和数值数据进行特征抽样;
[0028]S2,将特征抽样数据建立指标数据集,对指标数据集建立目标函数,根据目标函数进行数据筛选;
[0029]S3,对数据筛选后通过聚类算法进行患者病例数据指标判断。
[0030]所述S1包括:
[0031]S1

1,获取病例数据中患者检查项,由于检测出的数据包括检查项的中文名称也
有针对中文名称对应的数字,分别定义为文本数据和数值数据,针对文本数据和数值数据进行归一化处理,计算条件概率D
ij

[0032]其中,V
i
为病例数据的文本数据集,V
j
为病例数据的数值数据集,M
ij
为病例类别权重;b是搜索文字关键词的二值化页面参数,C是调节因子,d
k
为选择的病例关键词,其中V
i
·
(b|d
k
)+V
j
·
β是获取的文本数据集V
i
和数值数据集V
j
的匹配度,β为数值有效性权重;
[0033]S1

2,将归一化处理的数据集,进行数据相似度判断,提取文本数据分布函数E
i
和数值数据分布函数E
j
度量数据相似性,W
s
为病例评测的权重集合,s∈{1,2,

n};
[0034]计算高斯分布
[0035]将B的平滑部分和高斯混合模型的似然估计进行线性组合,获得高斯分布,结合W
s
的权重集合该算法形成文本数据和数值数据的正态分布信息,以及数据间的几何结构信息,能够通过E
i
和E
j
来度量B的平滑性。
[0036]S1

3,形成的文本数据和数值数据数据节点,通过B的高斯分布进行特征抽样,根据抽样后的节点特征A进行阈值判断,从而对抽样的节点进行收敛,防止回溯,
[0037][0038]其中,u+v是抽样后的文本数据和数值数据数据节点总数量,class(u)是文本数据抽样u的级别,class(v)是数值数据抽样v的级别,α文本数据扰动因子,|L|为相似文本数据的间隔长度的绝对值,μ为数值文本扰动因子;
[0039]u和v的邻居节点并不重合,当u和v的级别都到达最小时,调节相应的扰动因子,让u和v的邻居节点数本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于海量数据提取异常疾病数据的计算方法,其特征在于,包括如下步骤:S1,获取患者病例数据,对病例数据中的文本数据和数值数据分别进行提取,S2,将提取的文本数据和数值数据进行特征抽样阈值判断。2.根据权利要求1所述的基于海量数据提取异常疾病数据的计算方法,其特征在于,所述S1包括:S1

1,获取病例数据中患者检查项,针对文本数据和数值数据进行归一化处理,计算条件概率D
ij
,其中,V
i
为病例数据的文本数据集,V
j
为病例数据的数值数据集,M
ij
为病例类别权重;b是搜索文字关键词的二值化页面参数,C是调节因子,d
k
为选择的病例关键词,其中V
i
·
(b|d
k
)+V
j
·
β是获取的文本数据集V
i
和数值数据集V
j
的匹配度,β为数值有效性权重。3.根据权利要求2所述的基于海量数据提取异常疾病数据的计算方...

【专利技术属性】
技术研发人员:刘玉蓉
申请(专利权)人:重庆真逆思维科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1