数据归一方法及装置、计算机可读存储介质、电子设备制造方法及图纸

技术编号:24168569 阅读:26 留言:0更新日期:2020-05-16 02:13
本公开属于计算机技术领域,涉及一种数据归一方法及装置、计算机可读存储介质、电子设备。该方法包括:获取标准数据,并根据标准数据的分类标签建立结构化数据实体;根据分类标签对结构化数据实体进行划分,并根据划分结果确定粗粒度规则和细粒度规则;获取待处理数据,并根据待处理数据确定满足粗粒度规则和细粒度规则的标准数据为归一数据。本公开一方面,采用粗粒度规则和细粒度规则替换人工标注,提高了归一数据的准确率和处理效率,易于复用;另一方面,确定出最优的归一数据,避免了大量人工规则的设计、维护和校准等工作,降低维护成本,节约使用成本。

【技术实现步骤摘要】
数据归一方法及装置、计算机可读存储介质、电子设备
本公开涉及计算机
,尤其涉及一种数据归一方法与数据归一装置、计算机可读存储介质及电子设备。
技术介绍
在医院的医嘱药品数据中往往包含药品名称、剂型、规格以及生产厂商等多种混合数据,但多种混合数据没有明确的文本模板。在药品用药统计、分析、展示和挖掘等诸多应用场景中,杂乱无章的数据给各种应用造成极大不便,因此,各业务场景对医嘱药品数据提出了包括清洗、标准化和填充等技术需求。在对医嘱药品数据的标准化处理过程中,主要采用人工标注词典匹配的方式,实现数据的清洗和标准化处理。但是这种方式依赖人工标注,速度慢且成本高,准确率也无法得到有效保证。除此之外,还可以对数据字典和正则表达式进行清洗,剔除医嘱药品数据中的无用信息,并对正则表达式的多个关键词进行匹配映射处理,实现医嘱药品数据的标准化。但是正则表达式的规则设计十分复杂,相互之间容易出现冲突,维护成本较高。鉴于此,本领域亟需开发一种新的数据归一方法及装置。需要说明的是,在上述
技术介绍
部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
技术实现思路
本公开的目的在于提供一种数据归一方法、数据归一装置、计算机可读存储介质及电子设备,进而至少在一定程度上克服由于相关技术的限制而导致的准确率低和成本高等问题。本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。根据本公开的一个方面,提供一种数据归一方法,所述方法包括:获取标准数据,并根据所述标准数据的分类标签建立结构化数据实体;根据所述分类标签对所述结构化数据实体进行划分,并根据划分结果确定粗粒度规则和细粒度规则;获取所述待处理数据,并根据所述待处理数据确定满足所述粗粒度规则和所述细粒度规则的所述标准数据为归一数据。在本公开的一种示例性实施例中,所述所述根据所述标准数据的分类标签建立结构化数据实体,包括:获取与所述标准数据对应的分类标签,并确定所述标准数据的数据标识;对所述分类标签与所述数据标识建立映射关系,并根据所述映射关系建立结构化数据实体。在本公开的一种示例性实施例中,根据划分结果确定粗粒度规则和细粒度规则,包括:对所述分类标签进行划分,以在所述分类标签中确定粗粒度标签和细粒度标签;将所述粗粒度标签下的所述标准数据进行划分,并将与划分后的所述标准数据对应的规则确定为粗粒度规则;将所述细粒度标签下的所述标准数据进行划分,并将与划分后的所述标准数据对应的规则确定为细粒度规则。在本公开的一种示例性实施例中,所述根据所述待处理数据确定满足所述粗粒度规则和所述细粒度规则的所述标准数据为归一数据,包括:基于所述粗粒度规则,若在所述结构化数据实体中查询到与所述待处理数据对应的所述标准数据,确定所述待处理数据为目标待处理数据;基于所述细粒度规则,若在所述结构化数据实体中查询到与所述待处理数据对应的所述标准数据,确定所述目标待处理数据为待归一数据;将所述待归一数据对应的所述标准数据确定为归一数据。在本公开的一种示例性实施例中,所述基于所述粗粒度规则,若在所述结构化数据实体中查询到与所述待处理数据对应的所述标准数据,确定所述待处理数据为目标待处理数据,包括:若在所述结构化数据实体中查询到与所述待处理数据相同的所述标准数据,确定所述待处理数据为目标待处理数据;若在所述结构化数据实体中查询到包含所述待处理数据的所述标准数据,确定所述待处理数据为目标待处理数据。在本公开的一种示例性实施例中,所述基于所述细粒度规则,若在所述结构化数据实体中查询到与所述待处理数据对应的所述标准数据,确定所述目标待处理数据为待归一数据,包括:若在所述结构化数据实体中查询到与所述目标待处理数据相同的所述标准数据,确定所述目标待处理数据为待归一数据;若在所述结构化数据实体中查询到包含所述目标待处理数据的所述标准数据,确定所述目标待处理数据为待归一数据。在本公开的一种示例性实施例中,所述将所述待归一数据对应的所述标准数据确定为归一数据,包括:若存在至少两个所述待归一数据,对所述待归一数据进行去重处理;将去重处理后的所述待归一数据对应的标准数据确定为归一数据。根据本公开的一个方面,提供一种数据归一装置,所述装置包括:实体建立模块,被配置为获取标准数据,并根据所述标准数据的分类标签建立结构化数据实体;规则划分模块,被配置为根据所述分类标签对所述结构化数据实体进行划分,并根据划分结果确定粗粒度规则和细粒度规则;数据归一模块,被配置为获取所述待处理数据,并根据所述待处理数据确定满足所述粗粒度规则和所述细粒度规则的所述标准数据为归一数据。根据本公开的一个方面,提供一种电子设备,包括:处理器和存储器;其中,存储器上存储有计算机可读指令,所述计算机可读指令被所述处理器执行时实现上述任意示例性实施例的数据归一方法。根据本公开的一个方面,提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任意示例性实施例中的数据归一方法。由上述技术方案可知,本公开示例性实施例中的数据归一方法、数据归一装置、计算机存储介质及电子设备至少具备以下优点和积极效果:在本公开的示例性实施例提供的方法及装置中,根据标准数据的分类标签可以确定对待处理数据进行处理的粗粒度规则和细粒度规则,以进一步确定待处理数据对应的归一数据。一方面,采用粗粒度规则和细粒度规则替换人工标注,提高了归一数据的准确率和处理效率,易于复用;另一方面,确定出最优的归一数据,避免了大量人工规则的设计、维护和校准等工作,降低维护成本,节约使用成本。应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。附图说明此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1示意性示出本公开示例性实施例中一种数据归一方法的流程图;图2示意性示出本公开示例性实施例中建立结构化数据实体的方法的流程示意图;图3示意性示出本公开示例性实施例中确定粗粒度规则和细粒度规则的方法的流程示意图;图4示意性示出本公开示例性实施例中确定归一数据的方法的流程示意图;图5示意性示出本公开示例性实施例中确定目标待处理数据的方法的流程示意图;图6示意性示出本公开示例性实施例中确定待归一数据的方法的流程示意图;图7示意性示出本公开示例性实施例中进一步确定归一数据的方法的流程示意图;图8示意性示出本公开示例性实施例中在现有技术中实现原始数据标准化的方法的流程示意图;图9示意性示出本公开示例性实施例中标准数据的数据样例的示意图;图10示意性示出本公开示例性实施例中一种数据归一装置的结本文档来自技高网...

【技术保护点】
1.一种数据归一方法,其特征在于,所述方法包括:/n获取标准数据,并根据所述标准数据的分类标签建立结构化数据实体;/n根据所述分类标签对所述结构化数据实体进行划分,并根据划分结果确定粗粒度规则和细粒度规则;/n获取所述待处理数据,并根据所述待处理数据确定满足所述粗粒度规则和所述细粒度规则的所述标准数据为归一数据。/n

【技术特征摘要】
1.一种数据归一方法,其特征在于,所述方法包括:
获取标准数据,并根据所述标准数据的分类标签建立结构化数据实体;
根据所述分类标签对所述结构化数据实体进行划分,并根据划分结果确定粗粒度规则和细粒度规则;
获取所述待处理数据,并根据所述待处理数据确定满足所述粗粒度规则和所述细粒度规则的所述标准数据为归一数据。


2.根据权利要求1所述的数据归一方法,其特征在于,所述根据所述标准数据的分类标签建立结构化数据实体,包括:
获取与所述标准数据对应的分类标签,并确定所述标准数据的数据标识;
对所述分类标签与所述数据标识建立映射关系,并根据所述映射关系建立结构化数据实体。


3.根据权利要求1所述的数据归一方法,其特征在于,所述根据划分结果确定粗粒度规则和细粒度规则,包括:
对所述分类标签进行划分,以在所述分类标签中确定粗粒度标签和细粒度标签;
将所述粗粒度标签下的所述标准数据进行划分,并将与划分后的所述标准数据对应的规则确定为粗粒度规则;
将所述细粒度标签下的所述标准数据进行划分,并将与划分后的所述标准数据对应的规则确定为细粒度规则。


4.根据权利要求3所述的数据归一方法,其特征在于,所述根据所述待处理数据确定满足所述粗粒度规则和所述细粒度规则的所述标准数据为归一数据,包括:
基于所述粗粒度规则,若在所述结构化数据实体中查询到与所述待处理数据对应的所述标准数据,确定所述待处理数据为目标待处理数据;
基于所述细粒度规则,若在所述结构化数据实体中查询到与所述待处理数据对应的所述标准数据,确定所述目标待处理数据为待归一数据;
将所述待归一数据对应的所述标准数据确定为归一数据。


5.根据权利要求4所述的数据归一方法,其特征在于,所述基于所述粗粒度规则,若在所述结构化数据实体中查询到与所述待处理数据对应的所述标准数据,确定所述待处理数据为目标待处理数据,包括:...

【专利技术属性】
技术研发人员:张黎
申请(专利权)人:北京懿医云科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1