当前位置: 首页 > 专利查询>精科睿思专利>正文

利用自动阈值的数据处理方法及系统技术方案

技术编号:33512729 阅读:19 留言:0更新日期:2022-05-19 01:21
本发明专利技术公开了自动算出用于从作为基准的数据集区分群集的阈值并利用其来处理数据的方法及执行其的系统。根据本发明专利技术的一实施方式,本发明专利技术提供了利用自动阈值的数据处理方法,上述利用自动阈值的数据处理方法包括如下的步骤:上述数据处理系统接收包含在具有2个以上群集的基准数据集的多个个别数值;以包含在所接收的上述基准数据集的各个数值为基础来算出用于分割上述基准数据集所具有的群集的阈值;以及针对至少一个分析对象数据集,上述数据处理系统利用上述阈值来将具有多个个别数值的上述分析对象数据集分割成不同的群集。集。集。

【技术实现步骤摘要】
【国外来华专利技术】利用自动阈值的数据处理方法及系统


[0001]本专利技术涉及利用自动阈值(auto

thresholding)的数据处理方法及执行其的数据处理系统。更详细地,涉及自动算出用于从作为基准的数据集区分群集的阈值并利用其来处理数据的方法及执行其的系统。

技术介绍

[0002]在众多技术或服务领域中分析多个数据并加以利用。例如,分析特定医疗数据来确定是否对每个患者应用药物或者针对个体应用特定治疗法等的方式正在积极应用。
[0003]图1a示出在规定的伴随诊断试剂盒中所使用的医疗数据的一例,上述试剂盒为用于筛选适合于对规定的靶向抗癌剂进行处方的患者的手段。
[0004]图1a作为一实施例,是使用检查试剂盒(例如,GenesWell
TM ddEGFR突变测试(Mutation Test))获取的医疗数据,上述测试试剂盒表明EGFR基因的外显子(exon)18、19、20、21中是否存在突变,上述EGFR基因为肺癌的代表性生物标志物,图1b是作为GenesWell
TM ddEGFR突变测试的检查方法的Droplet Digital
TM
聚合酶链反应(ddPCR
TM
)的一实验数据。例如,通过分析这种医疗数据来筛选在进行手术之后在靶向抗癌剂处方之前对治疗剂产生效果的患者或者可用于判断突变的表达与否。但是,本专利技术的技术思想并不局限于这些实施例,亦可用于多种数据分析。
[0005]另一方面,在如图1a及图1b所示的图表中,x轴为各个医疗数据的事件编号,y轴为医疗数据的数值的大小(振幅(Amplitude))。各个点(spot)表示个别的医疗数据。而且,在实施例中,如图1a及图1b所示,在坐标系中,医疗数据可以群集化成至少一个群集(例如,在图1a中,3个群集)。
[0006]在此情况下,需要判断用于区分在特定数据群集中的群集的阈值(threshold)或特定群集的终点(例如,在作为第一个群集的最下端数据群集中,存在于最上部的至少一个个别医疗数据(例如,按y轴值最大的顺序的至少一个)或对应医疗数据的数值(y轴值))。但是,仅通过各个个别医疗数据或者数据数值或在坐标系中表示的坐标位置无法得知某种个别医疗数据包含在哪个群集,当在特定数据群集和数据群集之间存在多个个别医疗数据时,这种难度将进一步增加。
[0007]实际上,以往,如图1a及图1b所示,采用了人通过肉眼确认呈现在坐标系的个别医疗数据,并任意画出用于区分阈值或终点(例如,在第一个(最下位)群集中的上端点)的区分线(10或11)的作业方式。
[0008]但是,在此情况下,存在根据作业执行人员阈值或终点有可能改变且准确度降低的问题。

技术实现思路

[0009]技术问题
[0010]本专利技术所要解决的技术问题在于,提供自动算出用于从作为具有2个以上群集的
基准的数据集区分群集的阈值并利用其来处理数据的方法及执行其的系统。
[0011]并且,本专利技术的目的在于,提供如下的方法及系统,即,在存在2个以上数据群集的数据集中可以迅速自动探索特定数据群集的终点,由此可以有效地算出上述阈值。
[0012]技术方案
[0013]根据本专利技术的一实施方式,本专利技术提供利用自动阈值的数据处理方法,上述利用自动阈值的数据处理方法包括如下的步骤:数据处理系统接收包含在具有2个以上群集的基准数据集的多个个别数值;上述数据处理系统以包含在所接收的上述基准数据集的各个数值为基础来算出用于分割上述基准数据集所具有的群集的阈值(threshold);以及针对至少一个分析对象数据集,上述数据处理系统利用上述阈值来将具有多个个别数值的上述分析对象数据集分割成不同的群集。
[0014]在一实施例中,上述利用自动阈值的数据处理方法还可包括如下的步骤,即,上述数据处理系统以包含在所接收的上述基准数据集的各个数值为基础来算出在上述基准数据集所具有的群集中平均值最小的群集的基线值(baseline),上述数据处理系统利用上述阈值来将具有上述多个个别数值的上述分析对象数据集分割成不同的群集的步骤包括如下的步骤:上述数据处理系统以包含在上述分析对象数据集的各个数值为基础来算出在上述分析对象数据集具有的群集中平均值最小的群集的基线值;上述数据处理系统算出以上述基准数据集的基线值与上述分析对象数据集的基线值的差异为基础校正上述阈值的校正阈值;以及上述数据处理系统以上述校正阈值为基准区分包含在上述分析对象数据集的各个数值。
[0015]在一实施例中,包含在上述基准数据集及上述至少一个分析对象数据集的各个数值为如下的值,即,以添加用于检测特定突变的荧光试剂,执行对于与上述特定突变相应的基因序列的聚合酶链反应(polymerase chain reaction;PCR)的各个液滴(droplet)为对象来测定的荧光信号的大小值。
[0016]在一实施例中,上述数据处理系统以包含在所接收的上述基准数据集的各个数值为基础来算出用于分割上述基准数据集所具有的群集的阈值的步骤可包括如下的步骤:上述数据处理系统利用包含在上述基准数据集的各个数值来生成由具有预设的区间宽度的多个区间构成的直方图数据;上述数据处理系统执行在上述直方图数据的各个区间中使具有预设的噪音基准值以下的度数的区间的度数变为0的噪音去除过程来生成去除噪音的直方图数据;上述数据处理系统以去除上述噪音的直方图数据为基础来探索存在于上述基准数据集内的第一群集的左端的第一目标区间;上述数据处理系统以去除上述噪音的直方图数据为基础来探索存在于上述基准数据集内的第二群集的右端的第二目标区间;以及算出作为上述第一目标区间及上述第二目标区间之间的数值中的任一个的上述阈值。
[0017]在一实施例中,上述数据处理系统利用所接收的各个上述数值来生成由具有预设的区间宽度的多个区间构成的直方图数据的步骤可包括如下的步骤:生成包含在上述基准数据集的各个数值中去除上位一部分数值及下位一部分数值的修改数据集;以及利用包含在上述修改数据集的各个数值来生成上述直方图数据。
[0018]在一实施例中,上述数据处理系统利用包含在所接收的上述基准数据集的各个数值来算出用于分割上述基准数据集所具有的群集的阈值的步骤可包括:步骤a),上述数据处理系统利用所接收的各个上述数值来将上述数值能够具有的数值范围分割成具有预设
的区间宽度的多个区间,生成将与所分割的每个区间对应的数值的数量作为度数的直方图数据;步骤b),上述数据处理系统将上述直方图数据平滑化;步骤c),上述数据处理系统差分经平滑化的上述直方图数据;步骤d),上述数据处理系统以差分的直方图数据为基础来探索满足规定的基准条件并存在于上述基准数据集内的第一群集的左端的第一目标区间;步骤e),上述数据处理系统以差分的直方图数据为基础来探索满足上述基准条件并存在于上述基准数据集内的第二群集的右端的第二目标区间;以及步骤f),上述数据处理系统算出作为上述第一目标区间及上述第二目标区间之间的值中的任一个的上述阈值本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种利用自动阈值的数据处理方法,其特征在于,包括如下的步骤:数据处理系统接收包含在具有2个以上群集的基准数据集的多个个别数值;上述数据处理系统以包含在所接收的上述基准数据集的各个数值为基础来算出用于分割上述基准数据集所具有的群集的阈值;以及针对至少一个分析对象数据集,上述数据处理系统利用上述阈值来将具有多个个别数值的上述分析对象数据集分割成不同的群集。2.根据权利要求1所述的利用自动阈值的数据处理方法,其特征在于,上述利用自动阈值的数据处理方法还包括如下的步骤,即,上述数据处理系统以包含在所接收的上述基准数据集的各个数值为基础来算出在上述基准数据集所具有的群集中平均值最小的群集的基线值,上述数据处理系统利用上述阈值来将具有上述多个个别数值的上述分析对象数据集分割成不同的群集的步骤包括如下的步骤:上述数据处理系统以包含在上述分析对象数据集的各个数值为基础来算出在上述分析对象数据集所具有的群集中平均值最小的群集的基线值;上述数据处理系统算出以上述基准数据集的基线值与上述分析对象数据集的基线值的差异为基础校正上述阈值的校正阈值;以及上述数据处理系统以上述校正阈值为基准区分包含在上述分析对象数据集的各个数值。3.根据权利要求1所述的利用自动阈值的数据处理方法,其特征在于,包含在上述基准数据集及上述至少一个分析对象数据集的各个数值为如下的值,即,以添加用于检测特定突变的荧光试剂,执行对于与上述特定突变相应的基因序列的聚合酶链反应的各个液滴为对象来测定的荧光信号的大小值。4.根据权利要求1所述的利用自动阈值的数据处理方法,其特征在于,上述数据处理系统以包含在所接收的上述基准数据集的各个数值为基础来算出用于分割上述基准数据集所具有的群集的阈值的步骤包括如下的步骤:上述数据处理系统利用包含在上述基准数据集的各个数值来生成由具有预设的区间宽度的多个区间构成的直方图数据;上述数据处理系统执行在上述直方图数据的各个区间中使具有预设的噪音基准值以下的度数的区间的度数变为0的噪音去除过程来生成去除噪音的直方图数据;上述数据处理系统以去除上述噪音的直方图数据为基础来探索存在于上述基准数据集内的第一群集的左端的第一目标区间;上述数据处理系统以去除上述噪音的直方图数据为基础来探索存在于上述基准数据集内的第二群集的右端的第二目标区间;以及算出作为上述第一目标区间及上述第二目标区间之间的数值中的任一个的上述阈值。5.根据权利要求4所述的利用自动阈值的数据处理方法,其特征在于,上述数据处理系统利用所接收的各个上述数值来生成由具有预设的区间宽度的多个区间构成的直方图数据的步骤包括如下的步骤:生成包含在上述基准数据集的各个数值中去除上位一部分数值及下位一部分数值的修改数据集;以及
利用包含在上述修改数据集的各个数值来生成上述直方图数据。6.根据权利要求1所述的利用自动阈值的数据处理方法,其特征在于,上述数据处理系统利用包含在所接收的上述基准数据集的各个数值来算出用于分割上述基准数据集所具有的群集的阈值的步骤包括:步骤a),上述数据处理系统利用所接收的各个上述数值来将上述数值能够具有的数值范围分割成具有预设的区间宽度的多个区间,生成将与所分割的每个区间对应的数值的数量作为度数的直方图数据;步骤b),上述数据处理系统将上述直方图数据平滑化;步骤c),上述数据处理系统差分经平滑化的上述直方图数据;步骤d),上述数据处理系统以差分的直方图数据为基础来探索满足规定的基准条件并存在于上述基准数据集内的第一群集的左端的第一目标区间;步骤e),上述数据处理系统以差分的直方图数据为基础来探索满足上述基准条件并存在于上述基准数据集内的第二群集的右端的第二目标区间;以及步骤f),上述数据处理系统算出作为上述第一目标区间及上述第二目标区间之间的值中的任一个的上述阈值。7.根据权利要求6所述的利用自动阈值的数据处理方法,其特征在于,上述利用自动阈值的数据处理方法还包括如下的步骤:当上述数据处理系统利用预设的区间宽度无法探索到满足上述基准条件的第一目标区间或第二目标区间时,将上述区间宽度减少规定尺寸;以及上述数据处理系统利用减少的区间宽度来重新执行上述步骤a)至步骤e)。8.根据权利要求1所述的利用自动阈值的数据处理方法,其特征在于,上述数据处理系统以包含在所接收的上述基准数据集的各个数值来算出用于分割上述基准数据集所具有的群集的阈值的步骤包括:步骤a),上述数据处理系统利用所接收的各个上述数值来将上述数值能够具...

【专利技术属性】
技术研发人员:金知垠姜秉一李昌大赵民芽
申请(专利权)人:精科睿思
类型:发明
国别省市:

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1