一种检测数据的处理方法和装置制造方法及图纸

技术编号:15262690 阅读:209 留言:0更新日期:2017-05-03 18:36
本公开涉及一种检测数据的处理方法和装置,该方法包括:采集预设时间段内多个检测数据样本,对该多个检测数据样本进行预处理得到多个文本字符样本,并建立每个文本字符样本的字符索引图,根据建立的字符索引图获取多个文本字符样本的匹配文本集,其中,该匹配文本集包括在该多个文本字符样本中每两个文本字符样本中都存在的文本字符,然后根据该匹配文本集建立文本特征矩阵,并通过该文本特征矩阵对自组织神经网络进行训练,得到训练模型,最后获取当前检测数据,并通过该训练模型得到当前检测结果,从而提高检测结果判断的准确性。

Processing method and device for detecting data

The present invention relates to a method and device for processing test data, the method comprises: collecting a preset period of time, a plurality of detection data of the plurality of detection data samples were pretreated by multiple text samples, character index charts and established each text character sample, according to the character index chart is established to obtain more a text sample text matching sets, among them, the text set, including all exist in the plurality of text characters in the sample every two characters of text sample text characters, then according to the text, the set of text feature matrix, and the training of self organizing neural network through the text feature matrix and get the training model, finally get the current test data, and get the test results through the training model, so as to improve the accuracy of judging test results.

【技术实现步骤摘要】

本公开涉及数据处理领域,具体地,涉及一种检测数据的处理方法和装置
技术介绍
随着信息时代数据量的爆炸式增长,检测数据也展现出容量大、增速快、形式多样和潜在价值高等特点,并且检测数据的载体已经由传统纸质转变为电子文本,因此对这些检测数据进行数据挖掘显得尤为重要,通过数据挖掘技术可以对检测数据进行分析。在医疗数据处理过程中,医务人员通常以患者对病状的描述、观察症状和检查结果对患者的病情进行判断,因而判断的准确性主要依赖于医务人员的个人经验和专业素质,由于医务人员的经验有限,因此对患者的病情的判断可能会存在偏差,导致判断结果不准确。
技术实现思路
本公开的目的是提供一种检测数据的处理方法和装置,能够提高根据检测数据得到的检测结果的准确性。为了实现上述目的,本公开提供一种检测数据的处理方法,应用于数据处理设备,所述方法包括采集预设时间段内多个检测数据样本,并对所述多个检测数据样本进行预处理得到多个文本字符样本,其中,所述文本字符样本包括文本字符和所述文本字符对应的检测结果的文本字符;建立每个文本字符样本的字符索引图,其中,所述字符索引图包括所述文本字符和字符路径;其中,所述字符路径指示所述文本字符对应的检测结果的文本字符;根据建立的字符索引图获取所述多个文本字符样本的匹配文本集,其中,所述匹配文本集包括在所述多个文本字符样本中每两个文本字符样本中都存在的文本字符;根据所述匹配文本集建立文本特征矩阵,并通过所述文本特征矩阵对自组织神经网络进行训练,得到训练模型;获取当前检测数据,并通过所述训练模型得到当前检测结果。可选地,所述对所述多个检测数据样本进行预处理得到多个文本字符样本包括获取所述检测数据样本的文本特征;通过将所述文本特征进行编码处理得到文本字符样本。可选地,所述根据建立的字符索引图获取所述多个文本字符样本的匹配文本集包括根据所述字符索引图获取所述多个文本字符样本中每两个文本字符样本中都存在的文本字符,得到多个文本字符集;根据所述多个文本字符集组成所述匹配文本集,其中,所述匹配文本集中的文本字符各不相同。可选地,所述根据所述匹配文本集构建文本特征矩阵包括获取所述匹配文本集中每个文本字符在每个文本字符样本中出现的次数;根据所述匹配文本集中每个文本字符在每个文本字符样本中出现的次数构建所述每个文本字符样本的文本向量;根据所述检测结果相同的文本字符样本的文本向量构建文本特征矩阵。可选地,所述通过所述文本特征矩阵对自组织神经网络模型进行训练,得到训练模型包括将所述文本特征矩阵进行奇异值分解,得到所述检测结果相同的文本字符样本对应的特征向量;通过所述特征向量对自组织神经网络模型进行训练,得到训练模型。可选地,所述通过所述特征向量对自组织神经网络模型进行训练,得到训练模型包括获取所述自组织神经网络中获胜的神经元的邻域函数和学习率函数;将所述特征向量和所述自组织神经网络中的神经元对应的多个权向量分别进行归一化处理;计算所述归一化处理后的特征向量和所述归一化处理后的特征向量对应的每一个权向量的内积,得到获胜的第一神经元的权向量;根据所述学习率函数调整所述获胜的第一神经元的权向量得到调整权向量;在所述调整权向量满足预设条件时,根据所述调整权向量得到训练模型。可选地,所述通过所述特征向量对自组织神经网络模型进行训练,得到训练模型还包括在所述调整权向量不满足所述预设条件时,继续根据所述获胜的神经元的邻域函数,调整所述获胜的第一神经元邻域的权向量得到邻域权向量,并对所述调整权向量、邻域权向量和除所述调整权向量、邻域权向量的其他权向量全部进行归一化处理,获得归一化处理后的第二权向量,计算所述归一化处理后的特征向量和所述归一化处理后的特征向量对应的每个第二权向量的内积,确定获胜的第二神经元,并调整所述获胜的第二神经元的权向量得到新的调整权向量,直至所述新的调整权向量满足预设条件,则获得训练模型。根据本公开实施例的第二方面,提供一种检测数据的处理装置,应用于数据处理设备,所述装置包括处理模块,用于采集预设时间段内多个检测数据样本,并对所述多个检测数据样本进行预处理得到多个文本字符样本,其中,所述文本字符样本包括文本字符和所述文本字符对应的检测结果的文本字符;建立模块,用于建立每个文本字符样本的字符索引图,其中,所述字符索引图包括所述文本字符和字符路径;其中,所述字符路径指示所述文本字符对应的检测结果的文本字符;获取模块,用于根据建立的字符索引图获取所述多个文本字符样本的匹配文本集,其中,所述匹配文本集包括在所述多个文本字符样本中每两个文本字符样本中都存在的文本字符;训练模块,用于根据所述匹配文本集建立文本特征矩阵,并通过所述文本特征矩阵对自组织神经网络进行训练,得到训练模型;检测模块,用于获取当前检测数据,并通过所述训练模型得到当前检测结果。可选地,所述处理模块包括第一获取子模块,用于获取所述检测数据样本的文本特征;编码子模块,用于通过将所述文本特征进行编码处理得到文本字符样本。可选地,所述获取模块包括第二获取子模块,用于根据所述字符索引图获取所述多个文本字符样本中每两个文本字符样本中都存在的文本字符,得到多个文本字符集;组成子模块,用于根据所述多个文本字符集组成所述匹配文本集,其中,所述匹配文本集中的文本字符各不相同。可选地,所述训练模块包括第三获取子模块,用于获取所述匹配文本集中每个文本字符在每个文本字符样本中出现的次数;第一构建子模块,用于根据所述匹配文本集中每个文本字符在每个文本字符样本中出现的次数构建所述每个文本字符样本的文本向量;第二构建子模块,用于根据所述检测结果相同的文本字符样本的文本向量构建文本特征矩阵。可选地,所述训练模块还包括分解子模块,用于将所述文本特征矩阵进行奇异值分解,得到所述检测结果相同的文本字符样本对应的特征向量;训练子模块,用于通过所述特征向量对自组织神经网络模型进行训练,得到训练模型。可选地,所述训练子模块用于获取所述自组织神经网络中获胜的神经元的邻域函数和学习率函数;将所述特征向量和所述自组织神经网络中的神经元对应的多个权向量分别进行归一化处理;计算所述归一化处理后的特征向量和所述归一化处理后的特征向量对应的每一个权向量的内积,得到获胜的第一神经元的权向量;根据所述学习率函数调整所述获胜的第一神经元的权向量得到调整权向量;在所述调整权向量满足预设条件时,根据所述调整权向量得到训练模型。可选地,所述训练子模块还用于在所述调整权向量不满足所述预设条件时,继续根据所述获胜的神经元的邻域函数,调整所述获胜的神经元邻域的权向量得到邻域权向量,并对所述调整权向量、邻域权向量和除所述调整权向量、邻域权向量的其他权向量全部进行归一化处理,获得归一化处理后的第二权向量,计算所述归一化处理后的特征向量和所述归一化处理后的特征向量对应的每个第二权向量的内积,确定获胜的第二神经元,并调整所述获胜的第二神经元的权向量得到新的调整权向量,直至所述新的调整权向量满足预设条件,则获得训练模型。通过上述技术方案,本公开的实施例提供的技术方案可以包括以下有益效果:数据处理设备采集预设时间段内多个检测数据样本,并对所述多个检测数据样本进行预处理得到多个文本字符样本,其中,所述文本字符样本包括文本字符和所述文本字符对应的本文档来自技高网...

【技术保护点】
一种检测数据的处理方法,其特征在于,应用于数据处理设备,包括:采集预设时间段内多个检测数据样本,并对所述多个检测数据样本进行预处理得到多个文本字符样本,其中,所述文本字符样本包括文本字符和所述文本字符对应的检测结果的文本字符;建立每个文本字符样本的字符索引图,其中,所述字符索引图包括所述文本字符和字符路径;其中,所述字符路径指示所述文本字符对应的检测结果的文本字符;根据建立的字符索引图获取所述多个文本字符样本的匹配文本集,其中,所述匹配文本集包括在所述多个文本字符样本中每两个文本字符样本中都存在的文本字符;根据所述匹配文本集建立文本特征矩阵,并通过所述文本特征矩阵对自组织神经网络进行训练,得到训练模型;获取当前检测数据,并通过所述训练模型得到当前检测结果。

【技术特征摘要】
1.一种检测数据的处理方法,其特征在于,应用于数据处理设备,包括:采集预设时间段内多个检测数据样本,并对所述多个检测数据样本进行预处理得到多个文本字符样本,其中,所述文本字符样本包括文本字符和所述文本字符对应的检测结果的文本字符;建立每个文本字符样本的字符索引图,其中,所述字符索引图包括所述文本字符和字符路径;其中,所述字符路径指示所述文本字符对应的检测结果的文本字符;根据建立的字符索引图获取所述多个文本字符样本的匹配文本集,其中,所述匹配文本集包括在所述多个文本字符样本中每两个文本字符样本中都存在的文本字符;根据所述匹配文本集建立文本特征矩阵,并通过所述文本特征矩阵对自组织神经网络进行训练,得到训练模型;获取当前检测数据,并通过所述训练模型得到当前检测结果。2.根据权利要求1所述的方法,其特征在于,所述对所述多个检测数据样本进行预处理得到多个文本字符样本,包括:获取所述检测数据样本的文本特征;通过将所述文本特征进行编码处理得到文本字符样本。3.根据权利要求1所述的方法,其特征在于,所述根据建立的字符索引图获取所述多个文本字符样本的匹配文本集,包括:根据所述字符索引图获取所述多个文本字符样本中每两个文本字符样本中都存在的文本字符,得到多个文本字符集;根据所述多个文本字符集组成所述匹配文本集,其中,所述匹配文本集中的文本字符各不相同。4.根据权利要求1所述的方法,其特征在于,所述根据所述匹配文本集构建文本特征矩阵,包括:获取所述匹配文本集中每个文本字符在每个文本字符样本中出现的次数;根据所述匹配文本集中每个文本字符在每个文本字符样本中出现的次数构建所述每个文本字符样本的文本向量;根据所述检测结果相同的文本字符样本的文本向量构建文本特征矩阵。5.根据权利要求1所述的方法,其特征在于,所述通过所述文本特征矩阵对自组织神经网络模型进行训练,得到训练模型,包括:将所述文本特征矩阵进行奇异值分解,得到所述检测结果相同的文本字符样本对应的特征向量;通过所述特征向量对自组织神经网络模型进行训练,得到训练模型。6.根据权利要求5所述的方法,其特征在于,所述通过所述特征向量对自组织神经网络模型进行训练,得到训练模型,包括:获取所述自组织神经网络中获胜的神经元的邻域函数和学习率函数;将所述特征向量和所述自组织神经网络中的神经元对应的多个权向量分别进行归一化处...

【专利技术属性】
技术研发人员:黄亦谦
申请(专利权)人:北京千安哲信息技术有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1