The invention discloses a classification method for large medical and health data in the field of health data processing technology. The specific steps of the method are as follows: S1: classification data preprocessing; S2: data nearest neighbor classification; S3: feature selection: sorting according to the weight of feature words, selecting the words with larger weight as the data. S4: Document database establishment: According to the requirement of data index and dynamic query, a storage database is established in the form of a single document data. The invention combines the characteristics of medical health information data, and runs an improved feature extraction algorithm to calculate medical health more reasonably. Meanwhile, according to the dynamic characteristics of medical and health information, the incremental learning method is introduced into the feature extraction process, which solves the dynamic changes of training text set and improves the accuracy of training classification.
【技术实现步骤摘要】
一种医疗健康大数据的分类方法
本专利技术公开了一种医疗健康大数据的分类方法,具体为健康数据处理
技术介绍
随着物质生活水平的提高,人们对于健康的关注程度有了很大的提高。医疗健康类网站大量出现,人们可以很方便的从网上得到很多健康资讯类的信息。大量的健康资讯类数据在给人们带来健康知识的同时也带来了不便,怎样才能从这庞大的信息中找到人们所关注的某一部分资讯,怎样快速有效的找到人们所真正关注的信息成为现阶段所急需要解决的问题。为此,我们提出了一种医疗健康大数据的分类方法投入使用,以解决上述问题。
技术实现思路
本专利技术的目的在于提供一种医疗健康大数据的分类方法,以解决上述
技术介绍
中提出的问题。为实现上述目的,本专利技术提供如下技术方案:一种医疗健康大数据的分类方法,该方法的具体步骤如下:S1:分类数据预处理:针对分类前的数据减少或清除噪声以及处理缺失值,使用神经网络对数据进行归一化变化;S2:数据的近邻分类:给定一个特定分类样本,从数据集中找出与之最近的前K个邻居,然后根据这些邻居的类别来判定该样本的类别;S3:特征选择:按照特征词的权重的大小排序,选择具有较大的权重词作为该数据的特征词,降低文本表示向量的维度,从而降低计算机的计算复杂程度;S4:文档数据库建立:根据数据索引和动态查询的需求,并以单个文档数据的形式建立存储数据库。优选的,所述步骤S1中,在处理缺失值时,使用该数据属性出现最多的值或最可能出现的值来替代缺失值,而在对数据进行归一化变化时,将所给的数据属性值按比例缩放,使所有的数据落入到一个较小的直径区间内,通过小波变换聚类对数据进行规约。优选 ...
【技术保护点】
1.一种医疗健康大数据的分类方法,其特征在于:该方法的具体步骤如下:S1:分类数据预处理:针对分类前的数据减少或清除噪声以及处理缺失值,使用神经网络对数据进行归一化变化;S2:数据的近邻分类:给定一个特定分类样本,从数据集中找出与之最近的前K个邻居,然后根据这些邻居的类别来判定该样本的类别;S3:特征选择:按照特征词的权重的大小排序,选择具有较大的权重词作为该数据的特征词,降低文本表示向量的维度,从而降低计算机的计算复杂程度;S4:文档数据库建立:根据数据索引和动态查询的需求,并以单个文档数据的形式建立存储数据库。
【技术特征摘要】
1.一种医疗健康大数据的分类方法,其特征在于:该方法的具体步骤如下:S1:分类数据预处理:针对分类前的数据减少或清除噪声以及处理缺失值,使用神经网络对数据进行归一化变化;S2:数据的近邻分类:给定一个特定分类样本,从数据集中找出与之最近的前K个邻居,然后根据这些邻居的类别来判定该样本的类别;S3:特征选择:按照特征词的权重的大小排序,选择具有较大的权重词作为该数据的特征词,降低文本表示向量的维度,从而降低计算机的计算复杂程度;S4:文档数据库建立:根据数据索引和动态查询的需求,并以单个文档数据的形式建立存储数据库。2.根据权利要求1所述的一种医疗健康大数据的分类方法,其特征在于:所述步骤S1中,在处理缺失值时,使用该数据属性出现最多的值或最可能出现的值来替代缺失值,而在对数据进行归一化变化时,将所给的数据属性值按比例缩放,使所有的数据落入到一个较小的直径区间内,通过小波变换聚类对数据进行规约。3.根据权利要求1所...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。