用于利用EGG数据库的方法和系统技术方案

技术编号:36611755 阅读:26 留言:0更新日期:2023-02-08 09:59
本发明专利技术提供了一种用于生成训练与生理状况有关的分类器的训练数据集的方法。所述方法通过获得与第一多个对象有关的第一数据集和与第二多个对象有关的第二数据集开始,其中,所述第一数据集和所述第二数据集中的每一个被分组为多个数据子集,其中,所述多个数据子集与多个特征相关联。对于所述第一数据集内的所述多个数据子集中的每一个计算描述性统计,并且基于计算出的描述性统计来选择所述多个特征内的一个或多个特征,以生成搜索准则。通过将所述搜索准则应用于所述第二数据集,从所述第二数据集中识别补充数据集。然后,基于所述第一数据集和所述补充数据集来编译所述训练数据集。练数据集。练数据集。

【技术实现步骤摘要】
【国外来华专利技术】用于利用EGG数据库的方法和系统


[0001]本专利技术涉及数据处理领域,更具体地,涉及数据库搜索领域。

技术介绍

[0002]研究工具集能够帮助医生更有效地进行临床研究。诊断心电图(ECG)数据广泛用于临床诊断和筛查,并且医生需要许多不同的先进的工具来帮助他们进行基于ECG的研究工作。
[0003]ECG管理系统可以用于管理给定数据库内的所有ECG数据,并且可以包括或便于其上的研究平台和/或工具集,以便提供实施ECG相关研究的便利手段。
[0004]通常,对于需要使用分类算法的应用,需要来自两个或多个类别的数据集来训练分类器,所述分类器随后能够用于对新的输入数据进行分类。用于训练分类器的数据类型对分类器的准确性具有显著影响。
[0005]此外,ECG研究工具集的最重要的特征之一是搜索功能,其适于找到与给定标准匹配的数据。搜索功能通常也是用于许多研究主题的研究工作流的第一模块,因为准备数据通常是在后续处理之前的第一步。因此,搜索功能在研究工作流程中起着重要作用,因为使用搜索功能找到的数据将构成剩余研究的基础。
[0006]US20110184896A1公开了一种用于通过将从描述数据集的多个特征中选择的特征的子集进行可视化来增强从数据集获得的知识的方法。所述方法包括以下步骤:将数据集下载到被编程为在一个或多个学习机分类器上执行的处理器中;利用每个特征的子集训练一个或多个分类器;计算在每个特征子集上训练过的一个或多个分类器的成功率;根据训练过的分类器准确分类数据集的成功率,为每个特征子集分配一个等级;为每个等级分配视觉上可区分的特征,并在用户接口显示器上显示图形,所述图形包括特征的子集的多个表示,其中,特征子集的每个表示包括与特征子集的等级相对应的视觉上可区别的特征。
[0007]US20190147334A1涉及一种用于数据分析的装置和方法,所述数据分析用于经由训练递归神经网络来识别来自有限参考集的特征的数据分类。所述方法包括以下步骤:从参考数据集中选择参考数据的第一子集,参考数据的第一子集的每个元素属于第一分类类别;从所述参考数据集中选择参考数据的第二子集;使用参考数据的第一子集和第二子集训练分类器;使用训练过的分类器对参考数据的第一子集和第二子集进行分类;基于对参考数据的第一子集和/或参考数据的第二子集和/或参考数据的第二子集的分类的评估,从所述参考数据集中选择参考数据的后续子集;以及使用参考数据的后续子集训练分类器。
[0008]US20110184896A1涉及如何通过利用所选择的特征的子集训练分类器并计算训练过的分类器对准确分类数据集的成功率来选择描述数据集的特征。US20190147334A1涉及如何通过使用参考数据的第一子集和第二子集训练分类器、对参考数据的第一和第二子集进行分类、以及基于对参考数据的第一子集和/或第二子集的分类的评估从参考数据中选择后续子集来从参考数据选择子集。总之,US20110184896A1和US20190147334A1涉及特征或训练数据集的选择、利用分类器训练的过程和利用训练过的分类器对特征或数据集进行
分类,以细化特征或训练数据集。
[0009]因此,需要一种用于提供期望的训练数据集的手段,以用于以更高的准确性和包容性来训练分类器。

技术实现思路

[0010]本专利技术由权利要求书定义。
[0011]根据本专利技术的一个方面的范例,提供一种用于生成训练与生理状况有关的分类器的训练数据集的方法,所述方法包括:
[0012]获得与第一多个对象有关的第一数据集和与第二多个对象有关的第二数据集,其中,所述第一数据集和所述第二数据集中的每一个被分组为多个数据子集,其中,多个数据子集与多个特征相关联,
[0013]对于第一数据集内的多个数据子集中的每一个计算描述性统计;
[0014]基于计算出的描述性统计选择所述多个特征内的一个或多个特征,以生成搜索准则;
[0015]通过将所述搜索准则应用于第二数据集从第二数据集识别补充数据集;并且
[0016]基于所述第一数据集和所述补充数据集来编译所述训练数据集。
[0017]所述方法提供了一种识别第一数据集中的感兴趣关键特征的手段,然后使用关键特征从第二数据集识别和搜索与感兴趣特征相关的其他补充数据集。然后,将第一数据集和补充数据集编译成与感兴趣特征相关的训练数据集,从而获得专用的且定制为在分类器训练开始之前训练分类器的训练数据。使用训练数据集训练过的分类器还能够适于获得与诸如研究项目的感兴趣应用相关的数据和结果。
[0018]换言之,所述方法提供一种基于感兴趣关键特征利用两个不同的数据集来定制训练数据集的方法,并且,所定制的训练数据集能够用于训练专用于给定目的并具有更高精确度和包容性的分类器。
[0019]在实施例中,第一数据集包括指示第一多个对象中生理状况存在的第一标签,并且第二数据集包括指示第二多个对象中生理状况不存在的第二标签。
[0020]以这种方式,可以使用共享相似特征的与生理状况存在相关联的数据和与生理状况不存在相关联的数据二者来编译训练数据集,并且因此改善用于分类器训练的训练数据集的包容性和弹性。
[0021]在实施例中,第一数据集包括以下中的一个或多个:
[0022]表示从第一多个对象中的一个获得的测量值的数值;
[0023]指示与第一多个对象中的一个有关的测量值的类别或陈述的类别的类别值;
[0024]并且其中,计算描述性统计的步骤包括,对于第一数据集内的多个数据子集中的每个数据子集:
[0025]对于包括数值的每个数据子集,计算平均值、中值、标准差、方差、最大值和最小值中的至少一个;或者
[0026]对于具有类别值的数据子集,计算数据子集内每个类别的存在百分比。
[0027]以这种方式,可以基于测量值或类别值(例如陈述或诊断)来确定感兴趣特征。
[0028]在实施例中,所述方法还包括:
[0029]经由用户接口显示多个特征以及与多个特征中的每一个相对应的计算出的描述性统计;并且
[0030]通过指示多个特征中的一个或多个感兴趣特征的用户接口来接收第一用户输入。
[0031]以这种方式,用户可以根据所期望的训练数据集的应用来选择感兴趣特征。
[0032]在其他实施例中,在接收第一用户输入的步骤之前,所述方法还包括:
[0033]对第一数据集内的至少一个数据子集和/或与至少一个数据子集相关联的对应的计算出的描述性统计进行可视化;并且
[0034]经由用户接口显示可视化结果。
[0035]以这种方式,描述性统计可以更清楚地呈现给用户,以便更容易地识别要选择的潜在感兴趣特征。
[0036]在实施例中,其中,所述方法还包括:
[0037]经由用户接口显示搜索准则的模板表达式;
[0038]接收指示对模板表达式的编辑的第二用户输入,以基于一个或多个特征、对应于一个或多个特征的计算出本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种用于生成训练与生理状况有关的分类器的训练数据集的方法(100),所述方法包括:获得(110)与第一多个对象有关的第一数据集和与第二多个对象有关的第二数据集,其中,所述第一数据集和所述第二数据集中的每一个被分组为多个数据子集,其中,所述多个数据子集与多个特征相关联;针对所述第一数据集内的所述多个数据子集中的每一个计算(120)描述性统计;基于计算出的描述性统计来选择(130)所述多个特征中的一个或多个特征,以生成搜索准则;通过将所述搜索准则应用于所述第二数据集从所述第二数据集识别(140)补充数据集;并且基于所述第一数据集和所述补充数据集来编译(150)所述训练数据集。2.如权利要求1所述的方法(100),其中,所述第一数据集包括指示在所述第一多个对象中生理状况存在的第一标签,并且,第二数据集包括指示在所述第二多个对象中所述生理状况不存在的第二标签。3.如权利要求1至2中的任一项所述的方法(100),其中,所述第一数据集包括以下中的一个或多个:表示从所述第一多个对象中的一个获得的测量值的数值;指示与所述第一多个对象中的一个有关的测量值的类别或陈述的类别的类别值;并且其中,针对所述第一数据集内的所述多个数据子集中的每一个,计算描述性统计的步骤包括:对于包括数值的每个数据子集,计算平均值、中值、标准差、方差、最大值和最小值中的至少一个;或者对于具有类别值的所述数据子集,计算所述数据子集内每个类别的存在百分比。4.如权利要求1至3中的任一项所述的方法(100),其中,所述方法还包括:经由用户接口显示所述多个特征以及与所述多个特征中的每一个相对应的计算出的描述性统计;并且通过所述用户接口接收指示所述多个特征内的一个或多个感兴趣特征的第一用户输入。5.如权利要求4所述的方法(100),其中,在接收所述第一用户输入的步骤之前,所述方法还包括:将所述第一数据集内的至少一个数据子集和/或与所述至少一个数据子集相关联的对应的计算出的描述性统计可视化;并且经由所述用户接口显示所述可视化结果。6.如权利要求1至5中的任一项所述的方法(100),其中,所述方法还包括:经由用户接口显示所述搜索准则的模板表达式;接收指示对所述模板表达式的编辑的第二用户输入,以基于所述一个或多个特征、与所述一个或多个特征相对应的计算出的描述性统计和所述第二用户输入来生成搜索准则。7.如权利要求1至6所述的方法(100),其中,所述方法还包括应用附加准则来过滤所述补充数据集。
8.一种包括计算机程序代码单元的计算机程序,当所述计算机程序在计算机...

【专利技术属性】
技术研发人员:金盛葛鑫
申请(专利权)人:皇家飞利浦有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1