一种基于大数据的血液病智能分类系统及方法技术方案

技术编号:15792313 阅读:329 留言:0更新日期:2017-07-10 00:10
本发明专利技术涉及一种基于大数据的血液病智能分类系统,包括服务器、信息输入装置、显示装置;服务器包括数据采集模块、数据存储模块、数据分割模块、特征病理信息提取模块、数据预处理模块、特征数值生成模块、分类器模型训练模块、分类器模型测试模块、病例分类模块。服务器将采集的血液病病例的电子数据分为训练集和测试集,提取训练集中病例的特征病理信息,预处理并生成特征数值,训练血液病病理分类器,并根据用户输入信息得出血液病分类结果;信息输入装置用于用户输入诊断为血液病的病例历史电子数据和待分类的血液病病例电子数据;显示装置对血液病分类结果进行显示。本发明专利技术不依赖医生的主观判断和工作经验,提高了诊断的准确性和及时性。

【技术实现步骤摘要】
一种基于大数据的血液病智能分类系统及方法
本专利技术涉及数据处理
,尤其涉及一种基于大数据的血液病智能分类系统及方法。
技术介绍
目前,正处于大数据时代,到处都有大规模数据量的数据,现有技术中的简单规则处理难以发挥这些数据的价值。硬件的高速发展给大数据的应用提供了条件。高性能计算使得基于大规模数据的数据学习时间和数据处理代价大大降低了;大规模数据存储,使得能够更快、代价更小地处理大规模数据。由于硬件和算法的发展,使得在使用机器学习解决数据分析的问题后,能获得更加丰厚收益。现有的机器学习技术主要运用到新闻、电子商务等互联网领域,在传统领域,尤其是医学领域的应用十分匮乏。因此,本专利技术提供一种将机器学习方法运用到医学领域中,进行血液病病理类型的智能分类方法,以弥补现有技术中,血液病的分类主要依赖医生的主观判断,判断的准确性取决于医生的工作经验,不同的医生对患者病情的判断结果可能会不一致,这容易导致误诊,甚至可能会延误患者病情的问题。
技术实现思路
鉴于上述的分析,本专利技术旨在提供一种基于大数据的血液病智能分类系统及方法,用以解决因医生的工作经验导致对患者病情诊断结果准确性不高的问题。本专利技术的目的主要是通过以下技术方案实现的:一种基于大数据的血液病智能分类系统,包括服务器、信息输入装置和显示装置;所述信息输入装置用于用户输入诊断为血液病的病例历史电子数据和待分类的血液病病例电子数据;所述服务器包括数据采集模块、数据存储模块、数据分割模块、特征病理信息提取模块、数据预处理模块、特征数值生成模块、分类器模型训练模块、分类器模型测试模块和病例分类模块,用于训练血液病病理分类器,并利用训练好的血液病病理分类器对用户输入的待分类的血液病病例电子数据进行分类,得到血液病分类结果;所述显示装置用于对血液病分类结果进行显示。所述数据采集模块用于获取诊断为血液病的病例历史电子数据和待分类的血液病病例电子数据,并存储到数据存储模块;所述数据分割模块用于将电子数据分割为训练集和测试集;所述特征病理信息提取模块用于提取训练集和测试集中的每个病例的特征病理信息,将提取的特征病理信息逐个与预先判定的血液病分类结果对应;所述数据预处理模块用于对训练集和测试集中的特征病理信息进行预处理,生成训练用和测试用特征词集合;所述特征数值生成模块用于为训练用和测试用特征词集合中的特征词生成对应的特征数值,利用计算得到的特征数值对词条进行特征表示;所述分类器模型训练模块用于训练血液病分类分析模型,得到血液病病理分类器;所述病例分类模块用于根据待分类信息的特征数值,利用血液病病理分类器得出根据用户输入信息的血液病分类结果。所述预处理包括分词、噪声词剔除和同义词处理操作,生成训练用和测试用特征词集合。使用分词工具对提取的病理信息中的每条信息进行分词,获得文本词集。对分词结果进行噪声词剔除处理,包括去除没有实际意义的字或词,以及生僻字和特殊符号,还去除与血液病信息无关的词汇。噪声词剔除处理通过建立噪声词表的方式进行匹配和剔除。使用预先建立的同义词表对特征词集合中的同义词进行替换,使得所有同义词均用一个词来表示,得到训练用和测试用特征词集合。对训练用特征词集合中的特征词进行特征选择。采用Hash算法为训练用和测试用特征词集合中的每一病理的特征词生成对应的特征数值。一种基于大数据的血液病智能分类方法,包括以下步骤:步骤S1、数据采集模块获取诊断为血液病的病例历史电子数据,并存储到数据存储模块;步骤S2、特征病理信息提取模块提取训练集中的每个病例的特征病理信息,将提取的特征病理信息逐个与预先判定的血液病分类结果对应;步骤S3、对训练集中的特征病理信息进行预处理,生成训练用特征词集合;步骤S4、为训练用特征词集合中的特征词生成对应的特征数值,利用计算得到的特征数值对词条进行特征表示;步骤S5、利用步骤S4生成的特征数值训练血液病分类分析模型,得到血液病病理分类器;步骤S6、将根据测试集生成的测试用特征数值输入到血液病病理分类器中,分类器模型测试模块将所述测试用特征数值与标准结果进行对比,得到测试结果;步骤S7、接收用户输入的待分类的血液病病例电子数据;步骤S8、对用户的输入信息进行特征病理信息提取、预处理和生成特征数值的处理,得到待分类信息的特征词集合和对应的特征数值;步骤S9、血液病病理分类器根据待分类信息的特征数值,得出根据用户输入信息的血液病分类结果。本专利技术有益效果如下:本专利技术公开了一种基于大数据的血液病智能分类系统及方法,利用本专利技术得到的血液病病理分类器对病例进行分类,不依赖医生的主观判断和工作经验,针对相对症状的病人可以给出病症的分类,给医生的诊断提供参考,提高了诊断的准确性和及时性。本专利技术的其他特征和优点将在随后的说明书中阐述,并且,部分的从说明书中变得显而易见,或者通过实施本专利技术而了解。本专利技术的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。附图说明附图仅用于示出具体实施例的目的,而并不认为是对本专利技术的限制,在整个附图中,相同的参考符号表示相同的部件。图1为基于大数据的血液病智能分类系统;图2为基于大数据的血液病智能分类方法流程图。具体实施方式下面结合附图来具体描述本专利技术的优选实施例,其中,附图构成本申请一部分,并与本专利技术的实施例一起用于阐释本专利技术的原理。本专利技术实施例提供了一种基于大数据的血液病智能分类系统,如图1所示,包括服务器、信息输入装置和显示装置;所述服务器包括数据采集模块、数据存储模块、数据分割模块、特征病理信息提取模块、数据预处理模块、特征数值生成模块、分类器模型训练模块、分类器模型测试模块和病例分类模块;所述数据采集模块用于获取用户输入的诊断为血液病的病例历史电子数据和待分类的血液病病例电子数据,并存储到数据存储模块;诊断为血液病的病例历史电子数据来源于过往纸质病历的电子化文本、现有电子病历和医院内部的研究统计文本;所述数据存储模块用于存储数据采集模块采集的诊断为血液病的病例历史电子数据和待分类的血液病病例电子数据;所述数据分割模块用于将病例历史电子数据分割为训练集和测试集;所述特征病理信息提取模块用于提取训练集和测试集中的每个病例的特征病理信息,将提取的特征病理信息逐个与预先判定的血液病分类结果对应;具体提取的特征病理信息包括:病例中血液病的病理名称、病理描述和病理归属分类等;所述数据预处理模块用于对训练集和测试集中的特征病理信息进行预处理,将提取的特征病理信息解析成词条,其中每一个病例对应多个词条;进一步地,所述预处理包括分词、噪声词剔除和同义词处理等操作,生成训练用和测试用特征词集合,具体包括以下步骤:1、使用分词工具对提取的病理信息中的每条信息进行分词,获得文本词集,如果文本是中文,则采用中文分词器;如果是英文,则使用空格进行分词,且在英文分词完成后使用词干提取的方式归一化时态和单复数;具体地,可以采用ICTCLAS(InstituteofComputingTechnology,ChineseLexicalAnalysisSystem,汉语词法分析系统)和IKAnalyzer(IK分词器)等分词工具作为中文分词器。2、对分词结果进行噪声词剔除处理,包括去除没有实际意义的字或词,如“本文档来自技高网...
一种基于大数据的血液病智能分类系统及方法

【技术保护点】
一种基于大数据的血液病智能分类系统,其特征在于,包括服务器、信息输入装置和显示装置;所述信息输入装置用于用户输入诊断为血液病的病例历史电子数据和待分类的血液病病例电子数据;所述服务器包括数据采集模块、数据存储模块、数据分割模块、特征病理信息提取模块、数据预处理模块、特征数值生成模块、分类器模型训练模块、分类器模型测试模块和病例分类模块,用于训练血液病病理分类器,并利用训练好的血液病病理分类器对用户输入的待分类的血液病病例电子数据进行分类,得到血液病分类结果;所述显示装置用于对血液病分类结果进行显示。

【技术特征摘要】
1.一种基于大数据的血液病智能分类系统,其特征在于,包括服务器、信息输入装置和显示装置;所述信息输入装置用于用户输入诊断为血液病的病例历史电子数据和待分类的血液病病例电子数据;所述服务器包括数据采集模块、数据存储模块、数据分割模块、特征病理信息提取模块、数据预处理模块、特征数值生成模块、分类器模型训练模块、分类器模型测试模块和病例分类模块,用于训练血液病病理分类器,并利用训练好的血液病病理分类器对用户输入的待分类的血液病病例电子数据进行分类,得到血液病分类结果;所述显示装置用于对血液病分类结果进行显示。2.根据权利要求1所述的系统,其特征在于,所述数据采集模块用于获取诊断为血液病的病例历史电子数据和待分类的血液病病例电子数据,并存储到数据存储模块;所述数据分割模块用于将电子数据分割为训练集和测试集;所述特征病理信息提取模块用于提取训练集和测试集中的每个病例的特征病理信息,将提取的特征病理信息逐个与预先判定的血液病分类结果对应;所述数据预处理模块用于对训练集和测试集中的特征病理信息进行预处理,生成训练用和测试用特征词集合;所述特征数值生成模块用于为训练用和测试用特征词集合中的特征词生成对应的特征数值,利用计算得到的特征数值对词条进行特征表示;所述分类器模型训练模块用于训练血液病分类分析模型,得到血液病病理分类器;所述病例分类模块用于根据待分类信息的特征数值,利用血液病病理分类器得出根据用户输入信息的血液病分类结果。3.根据权利要求1所述的系统,其特征在于,所述预处理包括分词、噪声词剔除和同义词处理操作,生成训练用和测试用特征词集合。4.根据权利要求3所述的系统,其特征在于,使用分词工具对提取的病理信息中的每条信息进行分词,获得文本词集。5.根据权利要求3或4所述的系统,其特征在...

【专利技术属性】
技术研发人员:邝璞高彦回张洋刘为
申请(专利权)人:思派北京网络科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1