稀疏数据集中相关信号的提取制造技术

技术编号:37279231 阅读:10 留言:0更新日期:2023-04-20 23:45
本文讨论的方法可以从稀疏数据集中提取相关信号,例如在密码分析、降噪、模式识别或计算遗传学中。通过减少服务器负载、计算时间和数据存储大小,本发明专利技术的方案可以提高分析设备的技术性能。本发明专利技术的方案可以在大的、稀疏的数据集中识别相关信号,如具有高致病概率的基因变异。因变异。因变异。

【技术实现步骤摘要】
【国外来华专利技术】稀疏数据集中相关信号的提取
相关专利申请的交叉引用
[0001]本申请要求于2020年2月13日提交的美国临时专利申请号62/976,175的优先权的权益,所述美国临时专利申请的全部披露通过引用并入本文。


[0002]本专利技术总体涉及数据处理领域,特别涉及从稀疏数据集中提取相关信号。

技术介绍

[0003]处理大量数据以获得相关信号(例如,用于特定诊断查询的感兴趣数据、包含噪声底限或隐写编码内的隐藏或模糊信号的数据、基于大型巡天的天体物理数据集等)是资源密集型和低效的,需要大量的处理能力、存储器和访问数据服务器的网络带宽,以及大量的下游资源来筛选或审查所得到的数据。在缺乏提取相关信号的方法的情况下,用于数据相关性的下游验证过程也需要低效的、密集的资源使用。提取信号的上游方法可能涉及复杂的机器学习算法,或人工管理和数据库,但这些要么需要大量的计算能力和存储空间,要么需要大量的人工干预,无法实际考虑底层数据集的整体。
[0004]例如,基因测试和计算遗传学通常面临着庞大但稀疏的数据集的问题,这些数据集占用巨大的存储空间,需要巨大的计算能力,但对于特定的科学研究来说,包含的相关数据项相对较少。这种情况尤其如此,因为遗传信息(例如基因变异信息)经常分散在许多内容可能重叠或不重叠的数据库间,以至于要么是冗余的,要么是互补的。
[0005]类似地,通过在时间和/或频率上以各种间隔添加几个比特的隐藏信号,可以将信号隐藏在诸如图像、音频、无线电信号等的其他数据的噪声中。通过将信号作为噪声或其他信号中的稀疏数据提供,信号可以被隐藏而躲过大多数侦听。然而,仍有可能通过强力扫描方法来检测此类信号,尽管这可能需要大量的计算能力和带宽。

技术实现思路

[0006]这里公开的系统和方法提供从稀疏数据集提取相关信号,并且在一些实现中可以从这些数据集过滤或排除噪声。与分析包括低质量、不相关或错误数据的整个数据集相比,这可以减少处理要求,并且可以通过减少花费在可能提供不准确或不相关结果的数据上的计算时间量来提高计算速度。在许多实现中,这些系统和方法还可以相对于处理或传输整个数据集减少存储器和带宽消耗。
[0007]根据本专利技术的至少一个方面,一种从稀疏数据集中提取相关数据的方法可以包括:通过分析设备从第一稀疏数据集中收集数据,所述第一稀疏数据集中的每个数据项包括第一标识符;由所述分析设备将所述第一稀疏数据集的具有用于所述第一标识符的第一值的数据项的数目与预定义阈值进行比较;以及当所述第一稀疏数据集的具有用于所述第一标识符的所述第一值的数据项的数目低于所述预定义阈值时,由所述分析设备从所述至少一个附加数据集收集附加数据,所述至少一个附加数据集包括与所述第一稀疏数据集中
的至少一个数据项对应的数据,并且其中所述至少一个附加数据集中的每个数据项缺少所述第一标识符。所述附加数据集也可以是稀疏的。
[0008]在一些实现方式中,所述第一稀疏数据集包括基因变异数据库。在一些实现方式中,所述至少一个附加数据集包括至少一个附加基因变异数据库。在一些实现方式中,所述基因变异数据库包括人类基因变异数据。在一些实现方式中,所述至少一个附加基因变异数据库包括人类基因变异数据。在一些实现方式中,每个数据项包括识别基因变异的信息。在一些实现方式中,所述第一值包括对应于在所述数据项中识别的基因变异的功能丧失状态的指示。
[0009]在一些实现方式中,用第一组参数执行所述方法以生成第一组相关信号;以及使用至少一组附加参数将所述方法额外执行至少一次,以产生至少一组附加相关信号。
[0010]根据本专利技术的至少一个方面,一种从稀疏数据集中提取相关数据的方法可以包括:由分析设备从第一稀疏数据集中收集多个数据记录,每个数据记录包括第一标识符和至少一个第一值;以及对于每个数据记录,由所述分析设备将所述至少一个第一值与第一预定义信号判据和第一预定义噪声判据进行比较;以及,(i)当所述至少一个第一值对应于所述第一预定义噪声判据时,丢弃所述数据记录;或者(ii)当所述至少一个第一值不对应于所述第一预定义信号判据或所述第一预定义噪声判据时,(1)由所述分析设备从至少一个附加数据集收集附加数据,其中所述至少一个附加数据集包括与所述数据记录的所述第一标识符相对应的附加标识符,并且其中所述附加数据包括至少一个第二值;(2)由所述分析设备将所述至少一个第二值与第二预定义信号判据进行比较;以及(3)除非所述至少一个第二值对应于所述第二预定义信号判据,否则由所述分析设备丢弃所述数据记录。所述附加数据集也可以是稀疏的。
[0011]在一些实现方式中,用第一组参数执行所述方法以生成第一组相关信号;以及使用至少一组附加参数将所述方法额外执行至少一次,以产生至少一组附加相关信号。
[0012]在一些实现方式中,所述至少一个第二值是在从至少一个附加数据集收集附加数据的步骤之后产生的。在一些实现方式中,所述至少一个附加数据集包括多个附加数据集。
[0013]在一些实现方式中,所述至少一个第二值包括所述至少一个附加数据集中的包括与所述数据记录的第一标识符相对应的附加标识符的数据集的计数。
[0014]在一些实现方式中,所述第一稀疏数据集包括基因变异数据库。在一些实现方式中,所述基因变异数据库包括人类基因变异数据。在一些实现方式中,所述至少一个附加数据集包括至少一个附加基因变异数据库。在一些实现方式中,所述至少一个附加基因变异数据库包括人类基因变异数据。在一些实现方式中,所述第一标识符标识基因变异。在一些实现方式中,所述附加标识符定义了基因变异。在一些实现方式中,所述至少一个第一值对应于所述基因变异的表型指示。在一些实现方式中,所述第一预定义信号判据包括对应于所述基因变异的功能丧失表型的指示。在一些实现方式中,所述第一预定义信号判据包括对应于所述基因变异的病原体表型的指示。在一些实现方式中,所述第一预定义噪声判据包括预定义基因变异携带者频率范围。在一些实现方式中,所述第二预定义信号判据包括用于数据集计数的预定义范围。
[0015]根据本专利技术的至少一个方面,一种用于提取相关数据的系统包括:分析设备,其包括存储器单元和处理单元;以及存储单元,其与所述分析设备通信,其中所述存储单元用于
接收所述分析设备提取的相关信号。所述分析设备被配置为通过执行以下步骤来提取相关信号:(1)从第一稀疏数据集中收集多个数据记录,其中所述第一稀疏数据集包括多个数据记录,每个数据记录包括第一标识符和至少一个第一值;(2)对于每个数据记录:将所述至少一个第一值与第一预定义信号判据和第一预定义噪声判据进行比较;以及(i)当所述至少一个第一值对应于所述第一预定义噪声判据时,丢弃所述数据记录;或者(ii)当所述至少一个第一值不对应于所述第一预定义信号判据或所述第一预定义噪声判据时:(a)从至少一个附加数据集收集附加数据,其中所收集的数据包括对应于所述数据记录的第一标识符的附加标识符;(b)将所述至少一个第二值与第二预定义信号判据进行比较;以及(c)除非所述至少一个第本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种用于从稀疏数据集中提取相关信号的方法,包括:通过分析设备从第一稀疏数据集中收集数据,所述第一稀疏数据集中的每个数据项包括第一标识符;由所述分析设备将所述第一稀疏数据集的具有用于所述第一标识符的第一值的数据项的数目与预定义阈值进行比较;以及当所述第一稀疏数据集的具有用于所述第一标识符的所述第一值的数据项的数目低于所述预定义阈值时,由所述分析设备从所述至少一个附加数据集收集附加数据,所述至少一个附加数据集可选地是稀疏数据集,所述至少一个附加数据集包括与所述第一稀疏数据集中的至少一个数据项对应的数据,并且其中所述至少一个附加数据集中的每个数据项缺少所述第一标识符。2.根据权利要求1所述的方法,其中,所述第一稀疏数据集包括基因变异数据库。3.根据权利要求2所述的方法,其中,所述至少一个附加数据集包括至少一个附加基因变异数据库。4.根据权利要求3所述的方法,其中,所述基因变异数据库包括人类基因变异数据。5.根据权利要求3所述的方法,其中,所述至少一个附加基因变异数据库包括人类基因变异数据。6.根据权利要求5所述的方法,其中,每个数据项包括识别基因变异的信息。7.根据权利要求6所述的方法,其中,所述第一值包括对应于在所述数据项中识别的基因变异的功能丧失状态的指示。8.一种用于从稀疏数据集中提取相关信号的方法,包括用第一组参数执行根据权利要求1所述的方法以生成第一组相关信号;以及使用至少一组附加参数将根据权利要求1所述的方法额外执行至少一次,以产生至少一组附加相关信号。9.一种用于从稀疏数据集中提取相关信号的方法,包括:由分析设备从第一稀疏数据集中收集多个数据记录,每个数据记录包括第一标识符和至少一个第一值;以及对于每个数据记录:由所述分析设备将所述至少一个第一值与第一预定义信号判据和第一预定义噪声判据进行比较;以及(i)当所述至少一个第一值对应于所述第一预定义噪声判据时,丢弃所述数据记录;或者(ii)当所述至少一个第一值不对应于所述第一预定义信号判据或所述第一预定义噪声判据时:由所述分析设备从至少一个附加数据集收集附加数据,其中所述至少一个附加数据集,其可选地是稀疏数据集,包括与所述数据记录的所述第一标识符相对应的附加标识符,并且其中所述附加数据包括至少一个第二值;由所述分析设备将所述至少一个第二值与第二预定义信号判据进行比较;以及除非所述至少一个第二值对应于所述第二预定义信号判据,否则由所述分析设备丢弃所述数据记录。10.根据权利要求9所述的方法,其中,所述至少一个第二值是在从至少一个附加数据
集收集附加数据的步骤之后产生的,所述附加数据集可选地是稀疏数据集。11.根据权利要求9所述的方法,其中,所述至少一个附加数据集包括多个附加数据集。12.根据权利要求9所述的方法,其中,所述至少一个第二值包括所述至少一个附加数据集中的包括与所述数据记录的第一标识符相对应的附加标识符的数据集的计数。13.根据权利要求9所述的方法,其中,所述第一稀疏数据集包括基因变异数据库。14.根据权利要求13所述的方法,其中,所述至少一个附加数据集包括至少一个附加基因变异数据库。15.根据权利要求14所述的方法,其中,所述基因变异数据库包括人类基因变异数据。16.根据权利要求15所述的方法,其中,所述至少一个附加基因变异数据库包括人类基因变异数据。17.根据权利要求16所述的方法,其中,所述第一标识符标识基因变异,并且所述附加标识符标识基因变异。18.根据权利要求17所述的方法,其中,所述至少一个第一值对应于所述基因变异的表型指示。19.根据权利要求18所述的方法,其中,所述第一预定义信号判据包括对应于所述基因变异的功能丧失表型的指示。20.根据权利要求18所述的方法,其中,所述第一预定义信号判据包括对应于所述基因变异的病原体表型的指示。21.根据权利要求18所述的方法,其中,所述第一预定义噪声判据包括预定义基因变异携带者频率范围。22.根据权利要求12所述的方法,其中,所述第二预定义信号判据包括用于数据集计数的预定义范围。23.一种用于从稀疏数据集中提取相关信号的方法,包括用第一组参数执行根据权利要求9所述的方法以生成第一组相关信号;以及使用至少一组附加参数将根据权利要求9所述的方法...

【专利技术属性】
技术研发人员:R
申请(专利权)人:奎斯特诊断投资有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1