当前位置: 首页 > 专利查询>文丹专利>正文

一种医疗健康大数据的分类方法技术

技术编号:19263554 阅读:25 留言:0更新日期:2018-10-27 02:25
本发明专利技术公开了健康数据处理技术领域的一种医疗健康大数据的分类方法,该方法的具体步骤如下:S1:分类数据预处理;S2:数据的近邻分类;S3:特征选择:按照特征词的权重的大小排序,选择具有较大的权重词作为该数据的特征词,降低文本表示向量的维度;S4:文档数据库建立:根据数据索引和动态查询的需求,并以单个文档数据的形式建立存储数据库,本发明专利技术结合医疗健康资讯类数据的特点,运行改进型的特征提取算法,更合理的计算医疗健康资讯的特征词权重,从而使特征选择更加准确,同时根据医疗健康资讯的动态变化特点,引入增量学习的方法到特征提取过程中,解决了训练文本集动态变化,提高训练分类的准确性。

A classification method of medical health big data

The invention discloses a classification method for large medical and health data in the field of health data processing technology. The specific steps of the method are as follows: S1: classification data preprocessing; S2: data nearest neighbor classification; S3: feature selection: sorting according to the weight of feature words, selecting the words with larger weight as the data. S4: Document database establishment: According to the requirement of data index and dynamic query, a storage database is established in the form of a single document data. The invention combines the characteristics of medical health information data, and runs an improved feature extraction algorithm to calculate medical health more reasonably. Meanwhile, according to the dynamic characteristics of medical and health information, the incremental learning method is introduced into the feature extraction process, which solves the dynamic changes of training text set and improves the accuracy of training classification.

【技术实现步骤摘要】
一种医疗健康大数据的分类方法
本专利技术公开了一种医疗健康大数据的分类方法,具体为健康数据处理

技术介绍
随着物质生活水平的提高,人们对于健康的关注程度有了很大的提高。医疗健康类网站大量出现,人们可以很方便的从网上得到很多健康资讯类的信息。大量的健康资讯类数据在给人们带来健康知识的同时也带来了不便,怎样才能从这庞大的信息中找到人们所关注的某一部分资讯,怎样快速有效的找到人们所真正关注的信息成为现阶段所急需要解决的问题。为此,我们提出了一种医疗健康大数据的分类方法投入使用,以解决上述问题。
技术实现思路
本专利技术的目的在于提供一种医疗健康大数据的分类方法,以解决上述
技术介绍
中提出的问题。为实现上述目的,本专利技术提供如下技术方案:一种医疗健康大数据的分类方法,该方法的具体步骤如下:S1:分类数据预处理:针对分类前的数据减少或清除噪声以及处理缺失值,使用神经网络对数据进行归一化变化;S2:数据的近邻分类:给定一个特定分类样本,从数据集中找出与之最近的前K个邻居,然后根据这些邻居的类别来判定该样本的类别;S3:特征选择:按照特征词的权重的大小排序,选择具有较大的权重词作为该数据的特征词,降低文本表示向量的维度,从而降低计算机的计算复杂程度;S4:文档数据库建立:根据数据索引和动态查询的需求,并以单个文档数据的形式建立存储数据库。优选的,所述步骤S1中,在处理缺失值时,使用该数据属性出现最多的值或最可能出现的值来替代缺失值,而在对数据进行归一化变化时,将所给的数据属性值按比例缩放,使所有的数据落入到一个较小的直径区间内,通过小波变换聚类对数据进行规约。优选的,所述步骤S2中,近邻分类的具体步骤如下:S21:计算没类文本集所有训练文本向量简单的算数平均作为每个类别的中心向量;S22:将待分类的文本分词,用特征向量表示该文本;S23:根据公式其中di是待分类文本的特征向量,wik表示待分类文本i的第k维,dj是类别j的中心向量,wjk为类别j的中心向量的第K维,N为特征向量的维数;S24:在K个近邻中,计算每个类别的权重,其公式为S25:比较权重,权重最大的类别就是待分类文本的类别。优选的,所述步骤S3中,在进行权重大小的选择时,基于特征词t与文档类别Ti之间的相关程度其中n表示文档类别的数量。优选的,所述步骤S4中,数据库由医疗健康数据的独立基本类型属性、文档数目以及内嵌文档组成,同时支持二进制数据对象的存储。与现有技术相比,本专利技术的有益效果是:本专利技术结合医疗健康资讯类数据的特点,运行改进型的特征提取算法,更合理的计算医疗健康资讯的的特征词权重,从而使特征选择更加准确,同时根据医疗健康资讯的动态变化特点,引入增量学习的方法到特征提取过程中,解决了训练文本集动态变化,提高训练分类的准确性。附图说明图1为本专利技术工作流程图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。请参阅图1,本专利技术提供一种技术方案:一种医疗健康大数据的分类方法,该方法的具体步骤如下:S1:分类数据预处理:针对分类前的数据减少或清除噪声以及处理缺失值,使用神经网络对数据进行归一化变化,在处理缺失值时,使用该数据属性出现最多的值或最可能出现的值来替代缺失值,而在对数据进行归一化变化时,将所给的数据属性值按比例缩放,使所有的数据落入到一个较小的直径区间内,通过小波变换聚类对数据进行规约;S2:数据的近邻分类:给定一个特定分类样本,从数据集中找出与之最近的前K个邻居,然后根据这些邻居的类别来判定该样本的类别,近邻分类的具体步骤如下:S21:计算没类文本集所有训练文本向量简单的算数平均作为每个类别的中心向量;S22:将待分类的文本分词,用特征向量表示该文本;S23:根据公式其中di是待分类文本的特征向量,wik表示待分类文本i的第k维,dj是类别j的中心向量,wjk为类别j的中心向量的第K维,N为特征向量的维数;S24:在K个近邻中,计算每个类别的权重,其公式为S25:比较权重,权重最大的类别就是待分类文本的类别;S3:特征选择:按照特征词的权重的大小排序,选择具有较大的权重词作为该数据的特征词,降低文本表示向量的维度,从而降低计算机的计算复杂程度,在进行权重大小的选择时,基于特征词t与文档类别Ti之间的相关程度其中n表示文档类别的数量;S4:文档数据库建立:根据数据索引和动态查询的需求,并以单个文档数据的形式建立存储数据库,数据库由医疗健康数据的独立基本类型属性、文档数目以及内嵌文档组成,同时支持二进制数据对象的存储。本专利技术结合医疗健康资讯类数据的特点,运行改进型的特征提取算法,更合理的计算医疗健康资讯的的特征词权重,从而使特征选择更加准确,同时根据医疗健康资讯的动态变化特点,引入增量学习的方法到特征提取过程中,解决了训练文本集动态变化,提高训练分类的准确性。尽管已经示出和描述了本专利技术的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本专利技术的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本专利技术的范围由所附权利要求及其等同物限定。本文档来自技高网...

【技术保护点】
1.一种医疗健康大数据的分类方法,其特征在于:该方法的具体步骤如下:S1:分类数据预处理:针对分类前的数据减少或清除噪声以及处理缺失值,使用神经网络对数据进行归一化变化;S2:数据的近邻分类:给定一个特定分类样本,从数据集中找出与之最近的前K个邻居,然后根据这些邻居的类别来判定该样本的类别;S3:特征选择:按照特征词的权重的大小排序,选择具有较大的权重词作为该数据的特征词,降低文本表示向量的维度,从而降低计算机的计算复杂程度;S4:文档数据库建立:根据数据索引和动态查询的需求,并以单个文档数据的形式建立存储数据库。

【技术特征摘要】
1.一种医疗健康大数据的分类方法,其特征在于:该方法的具体步骤如下:S1:分类数据预处理:针对分类前的数据减少或清除噪声以及处理缺失值,使用神经网络对数据进行归一化变化;S2:数据的近邻分类:给定一个特定分类样本,从数据集中找出与之最近的前K个邻居,然后根据这些邻居的类别来判定该样本的类别;S3:特征选择:按照特征词的权重的大小排序,选择具有较大的权重词作为该数据的特征词,降低文本表示向量的维度,从而降低计算机的计算复杂程度;S4:文档数据库建立:根据数据索引和动态查询的需求,并以单个文档数据的形式建立存储数据库。2.根据权利要求1所述的一种医疗健康大数据的分类方法,其特征在于:所述步骤S1中,在处理缺失值时,使用该数据属性出现最多的值或最可能出现的值来替代缺失值,而在对数据进行归一化变化时,将所给的数据属性值按比例缩放,使所有的数据落入到一个较小的直径区间内,通过小波变换聚类对数据进行规约。3.根据权利要求1所...

【专利技术属性】
技术研发人员:文丹
申请(专利权)人:文丹
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1