当前位置: 首页 > 专利查询>苏州大学专利>正文

一种样本检测模型的构建方法和系统技术方案

技术编号:13462993 阅读:74 留言:0更新日期:2016-08-04 15:45
本发明专利技术公开了检测一种样本检测模型的构建方法和系统,从预设的训练样本集中确定多个类别的训练样本;基于余弦去中心相似性原理,并根据多个类别的训练样本的同类相似样本集和异类相似样本集,建立低维特征空间的投影矩阵;依据投影矩阵以及多个类别的训练样本构建样本检测模型;样本检测模型用于检测待测样本的类别参数。本发明专利技术基于余弦去中心相似性原理来度量待测样本与训练样本之间的相似度,与采用欧氏距离的现有技术相比,本申请方案的相似度的度量精度更高,从而可以提高对待测样本的检测精度。

【技术实现步骤摘要】
【专利摘要】本专利技术公开了检测一种样本检测模型的构建方法和系统,从预设的训练样本集中确定多个类别的训练样本;基于余弦去中心相似性原理,并根据多个类别的训练样本的同类相似样本集和异类相似样本集,建立低维特征空间的投影矩阵;依据投影矩阵以及多个类别的训练样本构建样本检测模型;样本检测模型用于检测待测样本的类别参数。本专利技术基于余弦去中心相似性原理来度量待测样本与训练样本之间的相似度,与采用欧氏距离的现有技术相比,本申请方案的相似度的度量精度更高,从而可以提高对待测样本的检测精度。【专利说明】-种样本检测模型的构建方法和系统
本申请设及检测
,更具体地设及一种样本检测模型的构建方法和系统。
技术介绍
白血病是一类造血干细胞恶性克隆性疾病。克隆性白血病细胞因为增殖失控、分 化障碍、调亡受阻等机制在骨髓和其他造血组织中大量增殖累积,并浸润其他组织和器官, 同时正常造血受抑制。由于白血病分型和预后分层复杂,没有千篇一律的治疗方法,需要结 合细致的分型和预后分层制定治疗方案。因此对白血病的待测样本的类别进行检测是一项 重要的工作。 随着科技的不断发展W及人工智能在医院领域的应用,越来越多的机器学习方法 可被用来进行智能检测。白血病的待测样本的类别检测也可借助计算机的帮助,采用机器 学习的方法实现对白血病的待测样本的类别检测。为了更好地检测出白血病的待测样本的 类别,可W采用DNA微阵列技术来获取基因表达数据,利用基因忍片进行的表达水平检测可 W自动、快速、高效地检测成千上万个基因的表达情况。通过检测基因的表达水平,可W进 行肿瘤检测、类别预测等等。 对白血病的待测样本进行类别检测时使用的待测样本通常为人体的基因表达数 据,该数据为典型的高维数据,即包括多个特征。为了减少计算复杂度、存储复杂度,对基因 表达数据的维数约简是必不可少的步骤。当前主要采用基于双图模式的判别近邻嵌入方 法,该方法可有效地对数据进行降维。该方法在确定投影矩阵时采用欧氏距离确定训练样 本的同类相似样本集和异类相似样本集,其检测精度低。
技术实现思路
有鉴于此,本专利技术提供了一种样本检测模型的构建方法和系统,W提高对待测样 本的检测精度。 为实现上述目的,本专利技术提供如下技术方案: -种样本检测模型的构建方法,包括: 从预设的训练样本集中确定多个类别的训练样本; 基于余弦去中屯、相似性原理,并根据多个类别的所述训练样本的同类相似样本集 和异类相似样本集,建立低维特征空间的投影矩阵; 依据所述投影矩阵W及多个类别的所述训练样本构建样本检测模型;所述样本检 测模型用于检测待测样本的类别参数。 优选地,所述从预设的训练样本集中确定多个类别的训练样本,包括: 获取预设的所述训练样本集,从所述训练样本集中抽取多个特征值; 将抽取的多个所述特征值进行归一化处理,形成多个类别的所述训练样本。 优选地,所述基于余弦去中屯、相似性原理,并根据多个类别的所述训练样本的同 类相似样本集和异类相似样本集,建立低维特征空间的投影矩阵,包括:[001引根据同类相似样本集和异类相似样本集,构建类内相似矩阵和类间相似矩阵:[001引其中,3(厶方^)为基于余弦去中屯、相似性原理构建的余弦去中屯、相似性函数,且是多个类别的所述训练样本的中屯、,巧/表示类内 相似矩阵,if表示类间相似矩阵,χ/1表示训练样本i,χ/ J表示训练样本j,(/)表示训练 样本j的同类相似样本集,Λ^(;0表示训练样本i的同类相似样本集,A^(y')表示训练样本j 的异类相似样本集,W表示训练样本i的异类相似样本集; 根据所述类内相似矩阵和所述类间相似矩阵,构建类间局部散度矩阵和类内局部 散度矩阵: Sw=X(DW-FW)xT; Sb = X(Db-Fb 巧 T; 其中,Sw表示类内局部散度矩阵,Sb表示类间局部散度矩阵,X表示样本的基因表达 数据,F"表示类内相似矩阵,Fb表示类间相似矩阵,D"和〇b表示对角矩阵, 对所述类间局部散度矩阵和所述类内局部散度矩阵进行特征分解,按照从大到小 的顺序获取若干个特征值,根据所述若干个特征值对应的特征向量建立所述低维特征空间 的所述投影矩阵,并根据呆证类间距离与类内距离的比值最大化; 其中,trace(.)是指求矩阵的迹。 优选地,所述依据所述投影矩阵W及多个类别的所述训练样本构建样本检测模 型,包括: 利用所述投影矩阵将多个类别的所述训练样本投影到所述低维特征空间,形成多 个投影训练样本; 在所述低维特征空间内,利用最近邻分类器和多个所述投影训练样本构建样本检 测模型。[002引优选地,还包括: 将抽取的多个所述特征值的位置记录为特征位置集; 根据所述特征位置集对原始样本进行所述归一化处理,形成所述待测样本; 利用所述投影矩阵将所述待测样本投影到所述低维特征空间,形成投影待测样 本; 根据所述样本检测模型,在所述低维特征空间内,利用所述最近邻分类器从多个 所述投影训练样本中确定与所述投影待测样本距离最近的所述投影训练样本,并将确定的 所述投影训练样本对应的所述训练样本的类别赋予所述待测样本,完成对所述待测样本的 类别参数的检测。 -种样本检测模型的构建系统,包括: 获取模块,用于从预设的训练样本集中确定多个类别的训练样本; 矩阵建立模块,用于基于余弦去中屯、相似性原理,并根据多个类别的所述训练样 本的同类相似样本集和异类相似样本集,建立低维特征空间的投影矩阵; 模型构建模块,用于依据所述投影矩阵W及多个类别的所述训练样本构建样本检 测模型;所述样本检测模型用于检测待测样本的类别参数。 优选地,所述获取模块,包括: 获取单元,用于获取预设的所述训练样本集,从所述训练样本集中抽取多个特征 值; 处理单元,用于将抽取的多个所述特征值进行归一化处理,形成多个类别的所述 训练样本。 优选地,所述矩阵建立模块,包括:第一构建单元,用于根据同类相似样本集和异类相似样本集,构建类内相似矩阵 和类间相似矩阵: 其中,3(χ/ι,χ/^)为基于余弦去中屯、相似性原理构建的余弦去中屯、相似性函数,且是多个类别的所述训练样本的中屯、,表示类内 相似矩阵,表示类间相似矩阵,χ/ 1表示训练样本i,χ/ 1表示训练样本j,AC GO表示训练 样本j的同类相似样本集,表示训练样本i的同类相似样本集,表示训练样本j 的异类相似样本集,?Ο表示训练样本i的异类相似样本集; 第二构建单元,用于根据所述类内相似矩阵和所述类间相似矩阵,构建类间局部 散度矩阵和类内局部散度矩阵: Sw=X(DW-FW)xT; Sb = X(Db-Fb 巧 T;[004引其中,Sw表示类内局部散度矩阵,Sb表示类间局部散度矩阵,X表示样本的基因表达 数据,FW表示类内相似矩阵,Fb表示类间相似矩阵,DW和0b表示对角矩阵,特征分解单元,用于对所述类间局部散度矩阵和所述类内局部散度矩阵进行特征 分解,按照从大到小的顺序获取若干个特征值,根据所述若干个特征值对应的特征向量建 立所述低维特征空间的所述投影矩阵,并根据巧证类间距离与类内距 离的比值最大化;其中,trace( ·)是指求矩阵的迹。优选地,所述模型构建模块,包括: 投影单元,用于利用所述投影矩阵将多个类别的所述训练样本投影到所述低维特 征空间本文档来自技高网
...

【技术保护点】
一种样本检测模型的构建方法,其特征在于,包括:从预设的训练样本集中确定多个类别的训练样本;基于余弦去中心相似性原理,并根据多个类别的所述训练样本的同类相似样本集和异类相似样本集,建立低维特征空间的投影矩阵;依据所述投影矩阵以及多个类别的所述训练样本构建样本检测模型;所述样本检测模型用于检测待测样本的类别参数。

【技术特征摘要】

【专利技术属性】
技术研发人员:张莉周伟达王邦军张召李凡长杨季文
申请(专利权)人:苏州大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1