用于患者人口统计学记录查询的数据敏感过滤的系统以及方法技术方案

技术编号:2829769 阅读:269 留言:0更新日期:2012-04-11 18:40
一种用于在患者数据库搜索中数据敏感过滤的方法包括:提供(71)包括一个或多个搜索定位器字段的搜索准则,根据所述搜索准则确定检索公式,其中所述检索公式在所述搜索准则中使容错最大化同时满足预先规定的响应时间要求,从所述数据库中检索(72)所述候选记录,其中如果不能找到检索公式来满足所述响应时间要求,则请求附加的搜索准则,通过将搜索准则定位器字段与所检索的相应记录字段相比较来对每条所述候选记录进行计分(73),确定(75)所述候选记录的所述分数是否超过预先规定的阈值,并且如果所述候选的分数确实超过所述阈值,那么响应于所述搜索准则将所述候选记录添加到要返回的记录列表中。

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术涉及医疗记录数据库查询的搜索和过滤。 相关技术的讨论 医院信息系统的重要功能性是在某些输入准则的基础上对患者记录执行容错(error-tolerant)搜索的能力。举例来说,医院工作人员经常需要在仅仅姓氏、名字和/或出生日期的基础上来识别患者。 这种搜索的两个必要条件是(1)该搜索应该是容错的,因为与医院数据库中所存储的值相比,搜索准则也许会有差错;并且(2)该搜索应该在指定的时间之内结束,例如1-2秒。在更多的容错需要更长的响应时间的意义上,所述两个必要条件是相互竞争的。例如假设计分(scoring)算法每秒可以针对搜索准则比较10000条记录并且为计分所分配的时间是1秒。那么,为了使响应时间保持在指定的极限之内,系统可以从包含可能数百万条记录的人口统计学数据库中检索高度可能的至多10000条记录。 通常,可以为了更详细的计分而通过设置过滤器来检索适当的记录池,其中该过滤器是由数据库记录所必须满足的预先规定的条件。基本上,假定搜索条件的至少某些部分是正确的并且基于该信息对来自数据库的记录进行检索。在通过姓氏和名字进行搜索的例子中,可以通过假定搜索准则中名字的最初4个字符与/或姓氏的最初5个字符是正确的来设置过滤器。因此,所检索到的池(pool)仅仅由具有名字字段中的最初4个字符和/或姓氏字段中的5个字符作为搜索准则的记录组成。注意两个逻辑连接符与(AND)和或(OR)在所检索的记录数目方面以及在容错方面具有不同的影响。与(AND)连接假定名字的4个字符以及姓氏的5个字符都是正确的,但是要检索的记录的数目比使用或(OR)连接要少得多,然而由于假定仅仅或者名字的4个字符或者是姓氏的5个字符是正确的,所以或(OR)连接更具容错性。 这种方法的缺点在于通过事先固定过滤器位置,该池的大小将根据搜索值的频率而显著变化。举例来说,对于搜索准则“James Smith”来说过滤器将会检索太多的记录,而对于搜索准则“Zbigniew Brzezinski”来说会检索太少的记录。在前者的情况下,需要完成搜索的时间可能超过指定的响应时间。在后者的情况中,如果“Zbig”或者“Brzez”的最初数个字符出现印刷上的差错,那么所预期的“真(true)”记录可能不能包括到池中(因此搜索将要失败)。
技术实现思路
在此处描述的本专利技术示范性实施例通常包括方法和系统,用于数据敏感过滤用以从人口统计学数据库中检索高可能性记录来与在搜索患者人口统计学记录中的输入准则进行比较。该过滤器允许最大的容错同时保持响应时间在指定的极限之内。根据本专利技术实施例的数据敏感过滤器使用取决于搜索值频率的过滤条件。可以预先计算并且当更新数据库之时周期性地(例如每月,每年)重新计算这些频率。例如,在搜索“James Smith”的情况下,过滤器应该知道在数据库中有很多“James Smith”项,并且应该使用更严格的过滤条件或者请求附加信息。在“Zbigniew Brzezinski”的情况下,过滤器应该知道它是生僻的姓名并且放宽过滤条件,例如通过假定仅仅名字中的最初2个字符是正确的(而不是4个)并且仅仅姓氏中的最初3个字符是正确的(而不是5个)。这种过滤器使容错最大化同时保证了响应时间在极限之内。 根据本专利技术的一个方面,提供了一种用于在患者数据库搜索中数据敏感过滤的方法,包括提供包含一个或多个搜索定位器字段的搜索准则,根据所述搜索准则确定检索公式,其中所述检索公式在所述搜索准则中使容错最大化同时满足预先规定的响应时间要求,从所述数据库中检索所述候选记录,其中如果不能找到检索公式来满足所述响应时间要求,则请求附加搜索准则,通过将搜索准则定位器字段与所检索的相应记录字段相比较来对每条所述候选记录进行计分,确定所述候选记录的所述分数是否超过预先规定的阈值,并且如果所述候选分数确实超过所述阈值,那么响应于所述搜索准则将所述候选记录添加到要返回的记录列表中。 根据本专利技术的另一个方面,搜索准则包括名字和姓氏,该方法进一步包括编辑与在所述搜索准则中的所述名字相当的姓名的列表。 根据本专利技术的另一个方面,将搜索准则定位器字段与相应的候选记录字段进行比较包括通过所述定位器字段和所述候选记录字段对的字段比较来完成(perform)字段,用以利用针对直至在所述字段对中预先规定数目的字符为每个字段对所预先规定的字段比较方法来为字段对(field pair)j填入比较结果向量cj的分量,使用下述公式在一个或多个概率的基础上对所述比较结果cj进行计分 其中P0j(cj)和P1j(cj)为概率,所述概率是所述字段对中的匹配字符数目的函数,并且对所有字段j的score(cj)进行求和,其中定位器字段和在所述候选记录中的相应字段都不为空用以计算第一计分。 根据本专利技术的另一个方面,如果在搜索准则中指定名字和姓氏两者,则交换搜索准则中的所述名字和姓氏,重复通过将交换后的定位器字段与候选记录字段的字段相比较来完成字段的所述步骤,对所述比较结果cj进行计分,并且在所有字段j上对所述分数进行求和以计算第二分数,并且选择所述第一分数以及所述第二分数减去交换损失的最大值。 根据本专利技术的另一个方面,该方法包括根据以下公式将所述分数转换为0至100的数值范围 transformedScore=(score-minScore)/(maxScore-minScore)%100, 其中 maxScore=∑jmaxScorej,minScore=∑jminScorej, 其中用于产生比较向量的第j个分量的定位器字段在搜索准则中非空,并且其中在cj的所有可能值上,maxScorej=max(score(cj))并且minScorej=mi(score(cj))。 根据本专利技术的另一个方面,字段的字段比较方法是精确距离匹配、汉明距离、和编辑距离、和具有交换的编辑距离、名字距离、以及姓氏距离中的一个。 根据本专利技术的另一个方面,该方法包括对于要返回的所述记录列表中的每条候选记录,从所述搜索定位器字段的所述数据库检索最新的完整记录,对于在所述候选记录中具有非空值的每个字段,使在所检索的完整记录中的字段值用在候选记录中的对应值来替换,以及将改变后的完整记录添加到所述数据库。 根据本专利技术的另一个方面,提供一种用于在患者数据库搜索中数据敏感过滤的方法,包括提供搜索准则用于从包括一个或多个搜索定位器字段的数据库中检索一条或多条记录,确定要从所述数据库中检索的候选记录的最大数目、以及用于检索所述记录的最大响应时间,在所述搜索准则中的多个字符为正确的基础上来确定要检索的多个候选记录,根据所述搜索准则确定检索公式,其中所述检索公式在所述搜索准则中使容错最大化同时满足所述响应时间要求,以及从所述数据库检索所述候选记录,其中如果不能找到检索公式来满足所述响应时间要求,则请求附加的搜索准则。 根据本专利技术的另一个方面,如果使用所述检索公式可检索的候选记录的数目降到候选记录的最小数目之下,那么减少在所述搜索准则中假定为正确的所述字符的数目。 根据本专利技术的另一个方面,从数据库值的频率表中来确定要检索的候选记录的最大数目,该数据库值的频率表表示在所述数据库中所包括的搜索准则字段的概率,并且其中本文档来自技高网
...

【技术保护点】
一种用于在患者数据库搜索中数据敏感过滤的方法,所述方法包括步骤:    提供包括一个或多个搜索定位器字段的搜索准则;    根据所述搜索准则确定检索公式,其中所述检索公式在所述搜索准则中使容错最大化同时满足预先规定的响应时间要求;    从所述数据库中检索所述候选记录,其中如果不能找到检索公式来满足所述响应时间要求,则请求附加的搜索准则;    通过将搜索准则定位器字段与所检索到的相应记录字段相比较来对每条所述候选记录进行计分;    确定所述候选记录的所述分数是否超过预先规定的阈值,并且如果所述候选分数确实超过所述阈值,那么响应于所述搜索准则将所述候选记录添加到要返回的记录列表中。

【技术特征摘要】
【国外来华专利技术】...

【专利技术属性】
技术研发人员:PH姜WA兰迪S桑迪尔亚
申请(专利权)人:美国西门子医疗解决公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1