发现路由系统和引擎技术方案

技术编号:13130756 阅读:78 留言:0更新日期:2016-04-06 15:53
本发明专利技术主题提供基于大量收集的数据集改进发现新实用信息的定步的装置、系统以及方法。在大部分情况下,来自数据集的异常通过交叉验证引擎来自动识别、标记以及验证。然后只有验证的异常与有资格对异常采取措施的主题专家相关联。换句话说,本发明专利技术主题桥接了现在可以收获的压倒性数量的科学数据和可用于从数据中提取实用信息的相对限量的分析资源之间的间隙。实用信息可以是例如以趋势、模式、图像、假设或预测的形式,并且这种实用信息在医学、环境科学、娱乐、旅行、购物、社交互动或其他领域中有意义。

【技术实现步骤摘要】
【国外来华专利技术】相关申请的交叉参考本申请要求在2013年7月26日提交的美国申请61/859,137和在2014年7月28日提交的美国专利申请14/445,025的优先权益。本文中所讨论的这个和所有其它外在材料的全部内容并入本文以供参考方式。其中在并入的参考中的术语的定义或使用与本文中提供的该术语的定义不一致或相反时,应用本文中提供的该术语的定义,而不应用在参考中的该术语的定义。
本专利技术的领域是对高容量数据的计算分析,具体地,其涉及用于医疗数据的发现路由系统和方法。
技术介绍
背景描述包括可对理解本专利技术有用的信息。并非承认本文中提供的任何信息是现有技术或与目前所要求的专利技术相关,或具体地或暗示地(implicitly)参考的任何出版物是现有技术。随着众多“组学”科学的出现:基因组学、蛋白质组学、糖组学、免疫组学、或脑组学,例如,大量数据比以往任何时候更可用,使得分析及甚至相关信息的检测势不可挡。例如,基因组学数据的数量在被排序为统计上显著程度时可易于超过若干太字节(teratype)的使任何感兴趣的非自动化分析成为不可能进行的信息。为了克服这种问题,自动化系统可用于通过将数据与参考阈值进行比较来识别异常。虽然这种自动化系统将识别例如假阳性和假阴性的异常值,在大部分情况下,异常值的识别对于一个专家而言仍然太频繁而无法检查。例如在基因组学内,一个突变可以是引起疾病基因型的指示符或其可以是相对常见的无表型突变。为了减少相关信息的数量,至少部分自动化系统可集中于单人的疾病或失调以得到对于临床医生可管理的数据集。例如,如在美国专利申请公开2012/0008838中所描述的,在皮肤上的痣可以是良性或恶性的并且可以由患者成像。在此,用户注册并将他们皮肤的图像提供至系统,系统然后自动分析黑色素瘤的图像特点。产生置信值,并且如果该值超过50%,那么用户可接收咨询医生的建议或在用户的地理位置中的一个或更多个专科医生的推荐。虽然这种系统提供相对稳健的分析和专家后续处理,但是各种缺点仍然存在。最显著的是,这种系统的诊断范围局限于特定的疾病,并且在这种疾病的情况下,其中最具确定性的特性是已知的。在部分自动化分析的另一个示例(参见美国专利申请公开2004/0122790)中,数据集经由操作算法的计算机辅助的数据被分析以生成识别感兴趣的特征的结果数据集。然后,基于来自人类专家的输入而监控在结果数据集中的变化。在一个实施例中,算法包括访问从医疗成像系统中衍生的图像数据、以及来自综合知识库的补充数据,所述综合知识库包括来自多个可控制和可规定的资源的临床数据和非临床数据。尽管这种方法通过从人类输入的多个资源中综合数据来改进数据分析,但是有限资源仍然需要提取分析法则。更进一步,以及如上面已经指出,这种系统通常局限于条件和发现有限集。自动化分析也因非成像应用(例如,在美国专利申请公开2008/0091471中讨论的)而熟知。‘471系统评估在患者群体中个体的免疫状态,通过建立包括多个信息记录的数据库,每个信息记录代表在人群中个人免疫状态、处理在数据库中的信息以发现与在所述患者人群中个体免疫状态有关的趋势或模式、并使用该趋势或模式作为部分健康保健有关的决策程序。然后,在数据库中变量或字段之间生成了关联性,并且对于每个关联性,生成了可解释关联性的假设。附加步骤可包括:自动反驳、支持或通过进一步数据库处理没有充分数据以分析每个假设的陈述,并且将关联性、它们相关联的假设及决定报告给用户。虽然′471分析有利的改进了在相对大数据集中的模式发现,但是各种困难仍然存在。一个示例困难包括,该分析一般局限于免疫学分析。另一个困难是,将关联性和假设报告给缺少将每个报告与有资格以及时的方式采取措施的特定用户匹配的组件的用户。同样的,评估个体基因型关联性的方法公开在美国专利申请公开2010/0293130中,其从样品中生成用于个体的基因组图谱、通过将个体的基因图谱和与表现型相关的人类基因型当前数据库进行比较,确定与表现型相关的个体基因型、并且报告该结果。尽管这种方法将比如个体对各种疾病易感性的信息提供至个体或健康保健管理者,但是这种方法缺少发现组件,其中个体的基因信息变成用于新特性发现的基础部分。此外,根据在患者中呈现的其它因素,单人已知的基因型可以是沉默的或具有不同的表现型。这种其它沉默变化不能通过′I30系统来检测。本文中所有的公开以相同的程度并入本文中以供参考,如同每个单独公开或专利申请被特殊和单独的表明并入以供参考。其中在并入参考中术语的定义或使用对在本文中提供的该术语的定义是不一致或相反的,应用本文中提供的该术语的定义,而不应用在参考中该术语的定义。因此,仍然需要自动验证先前所检测异常为显著异常的系统和方法,以及将专家与用于进一步措施或分析的所验证的发现相连接。此外,需要通过过滤掉假阳性、假阴性、以及异常值来最大化专家效用、有限资源的系统和方法。
技术实现思路
本专利技术主题提供基于收集的大量数据集改进发现新实用信息的速度的装置、系统以及方法。在大部分情况下,来自数据集的异常通过交叉验证引擎来自动识别、标记、以及验证。只有所验证的异常然后与有资格对异常采取措施的主题专家相关联。换句话说,本专利技术主题桥连现在可收获的压倒性数量的科学数据和可用于从数据中提取实用信息的相对有限量分析资源之间的间隙。实用信息可以是,例如以趋势、模式、图像、假设、或预测形式,并且这种实用信息在医学、环境科学、娱乐、旅行、购物、社交互动、或其他领域中具感兴趣。在进一步优选的方面,巨大量的数据可收集在探究领域中,所述探究领域包括:基因组学、蛋白质组学、糖组学、脑组学、免疫组学、高吞吐量筛选、微阵技术以及芯片上实验室实验。其它数据资源包括由商业、金融、社会、或自我报告资源中聚集的数据。除了极大量数据之外,在许多情况下也有必要执行多变量分析以便阐明现象。由于这种系统的迅速操纵极大容量数据的固有能力,自动化数据分析系统适合于解决需要多变量的难题。在本专利技术主题的一个预想的实施例中,知识数据库存储包括描述符-数值对(descriptor-valuepair)的数据集。耦合至知识数据库的是分析引擎,该分析引擎将限定符分配至每个描述符-数值对。一般进一步优选的是,如果数值在用于描述符的给定阈值边界外,则异常被识别。当异常被识别时,相关联的数据集被标记。因为异常可由于比如实验误差或仪器检测限的原因而产生,...

【技术保护点】
一种发现路由系统,其包括:知识数据库,其被编程为存储多个数据集,每个数据集包括具有描述符和关联的数值的至少一个描述符‑数值对;分析引擎,其与所述知识数据库耦合,并被编程为识别在所述多个数据集中的至少一个异常,其中所述异常表征具有偏离于与所述描述符关联的限定符超出用于所述描述符的预定阈值一数值的描述符‑数值对;交叉验证引擎,其与所述分析引擎耦合并被编程为通过交叉参考在所述数据集中的附加数据来指定所述至少一个异常为显著异常;以及订阅引擎,其与所述交叉验证引擎耦合并被编程为(i)订阅多个专家订户,其中每个专家订户与标识符相关联,以及(ii)基于所述标识符将所述显著异常与专家订户关联。

【技术特征摘要】
【国外来华专利技术】2014.07.28 US 14/445,0251.一种发现路由系统,其包括:
知识数据库,其被编程为存储多个数据集,每个数据集包括具有描述符和
关联的数值的至少一个描述符-数值对;
分析引擎,其与所述知识数据库耦合,并被编程为识别在所述多个数据集
中的至少一个异常,其中所述异常表征具有偏离于与所述描述符关联的限定符
超出用于所述描述符的预定阈值一数值的描述符-数值对;
交叉验证引擎,其与所述分析引擎耦合并被编程为通过交叉参考在所述数
据集中的附加数据来指定所述至少一个异常为显著异常;以及
订阅引擎,其与所述交叉验证引擎耦合并被编程为(i)订阅多个专家订户,
其中每个专家订户与标识符相关联,以及(ii)基于所述标识符将所述显著异常
与专家订户关联。
2.根据权利要求1所述的发现路由系统,其中所述交叉验证引擎被进一步
编程为通过以下指定所述至少一个异常为显著异常:(i)基于先验知识识别具有
与在所述描述符-数值对中的描述符的关联性的条件,(ii)通过交叉参考在具有
与所述条件的二次关联性的所述数据集中的附加数据,暗示所述至少一个异常
和所述条件之间的关系,以及(iii)然后指定所述至少一个异常为显著异常。
3.根据权利要求2所述的发现路由系统,其中所述交叉验证引擎被进一步
编程为,当所述先验知识表明所述条件和所述描述符之间的已知关系时,指定
所述至少一个异常为不显著异常。
4.根据权利要求2所述的发现路由系统,其中所述关系包括相关关系。
5.根据权利要求2所述的发现路由系统,其中所述关系包括因果关系。
6.根据权利要求2所述的发现路由系统,其中所述关系包括先决条件关系。
7.根据权利要求1所述的发现路由系统,其中所述数据集包括衍生自至少
一个基因相关的资源中的数据。
8.根据权利要求1所述的发现路由系统,其中所述数据集包括衍生自单人
中的数据。
9.根据权利要求1所述的发现路由系统,其中所述专家订户是以下中的至
少一个:计算机、算法、个人、一群人、企业实体、政府机构、出版商以及贸
易协会。
10.根据权利要求1所述的发现路由系统,其中根据以下中的至少一个选择
用于所述描述符的所述预定阈值:先验标准、统计确定的标准、由算法衍生的
标准、与历史值的比较、与边界条件的比较、预测值、置信因子的分析以及用
户定义的标准。
11.根据权利要求1所述的发现路由系统,其中所述交叉验证引擎被进一步
编程为接收所述条件和来自所述专家订户的至少一个异常之间的关系的确认。
12.根据权利要求1所述的发现路由系统,其中所述订阅引擎被进一步编程
为当所述显著异常与专家订户相关联时生成关联性通知。
13.根据权利要求1所述的发现路由系统,其中所述订阅引擎被进一步编程
为将分配通知传输至所述关联的专家订户。
14.一种计算机相关产品,其包括存储指令的非暂时性计算机可读介质,所
述指令使得处理器执行以下步骤:
提供对被编程以存储多个数据集的知识数据库的访问,每个数据集包括具
有与数值相关联的描述符的至少一个描述符-数值对;
提供与所述知识数据库耦合的发现路由引擎;
通过所述发现路由引擎将限定符与至少一个描述符相关联;
通过所述发现路由引擎识别在所述多个数据集中的至少一个异常,其中所
述异常是具有偏离于所述限定符超出用于所述描述符的预定阈值一数值的描述
符-数值对,所述限定符与在描述符-数值对中的所述描述符相关联;
由所述发现路由引擎通过交叉参考在所述数据集中的附加数据来指定所述
至少一个异常为显著异常;
通过所述发现路由引擎订阅多个专家订户,其中每个专家订户与标识符相
关联;以及
基于所述标识符通过所述发现路由引擎将所述显著异常与专家订户相关
联。
15.根据权利要求14所述的计算机相关产品,其中指定所述至少一个异常
为显著异常的步骤包括:
基于先验知识,识别具有与在所述描述符-数值对中的所述描述符的关联性
的条件;
通过交叉参考在具有与所述条件二次关联性的所述数据集中的附加数据来
暗示所述至少一个异常和所述条件之间的关系;以及
然后指定所述至少一个异常为显著异常。
16.根据权利要求15所述的计算机相关产品,其中指定所述至少一个异常
为显著异常的步骤包括:当所述先验...

【专利技术属性】
技术研发人员:P·孙雄
申请(专利权)人:南特IP控股公司
类型:发明
国别省市:美国;US

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1