【技术实现步骤摘要】
数据标准化装置、方法及计算机可读取介质
[0001]本专利技术涉及医药流通领域的数据标准化,尤其涉及对原始流向数据进行标准化的数据标准化装置、数据标准化方法、以及存储有用于执行该数据标准化方法的程序的计算机可读取介质。
技术介绍
[0002]在医药流通领域,存在各种各样的原始流向数据的记录方法。具体而言,各个经销商通常会以各自不同的记录方法来对原始流向数据进行记录。
[0003]以往,通常采用人工处理的方式来将大量像这样的原始流向数据转换为标准化数据,并在人工完成质量检查后将这些标准化数据进行存储,以备后续处理使用。
技术实现思路
[0004]专利技术所要解决的问题
[0005]由于医药流通领域的原始流向数据种类繁多、数据量巨大,并且通过各种不同记录方法所获得的原始流向数据的每个微小的环节存在一定的共性并存在一定的个性,因此,若采用人工处理的方式,则数据标准化过程会耗费大量的重复性劳动,会耗费大量的人力成本,且效率较低。
[0006]此外,由于采用人工方式处理海量数据,有时难免会出现人 ...
【技术保护点】
【技术特征摘要】
1.一种数据标准化装置,该数据标准化装置对输入数据进行标准化处理,其特征在于,包括:文本识别单元,该文本识别单元将所述输入数据中的非文本数据转换为文本数据,并与所述输入数据中的文本数据一起进行输出;类型识别单元,该类型识别单元对所述文本识别单元所输出的文本数据的类型进行识别,将同一类型的文本数据合并至同一数据集,所述数据集包括多个字段;以及格式整理单元,该格式整理单元对所述数据集的格式进行整理,确定所述数据集中的字段与标准字段之间的映射关系,基于所述标准字段来对所述数据集中的字段进行重新排序,并输出标准化数据。2.如权利要求1所述的数据标准化装置,其特征在于,还包括:质检单元,该质检单元对所述格式整理单元所输出的所述标准化数据是否符合质量要求进行检查,并输出检查结果;以及学习单元,该学习单元从所述类型识别单元获取类型识别前后的数据,基于所述类型识别前后的数据及所述质检单元所输出的所述检查结果,来学习并获得类型识别经验集,并且,该学习单元从所述格式整理单元获取格式整理前后的数据,基于所述格式整理前后的数据及所述质检单元所输出的所述检查结果,来学习并获得格式整理经验集,所述类型识别单元基于所述类型识别经验集来进行所述类型识别,所述格式整理单元基于所述格式整理经验集来进行所述格式整理。3.如权利要求2所述的数据标准化装置,其特征在于,所述学习单元在学习初始阶段在所述类型识别经验集中存储有初始类型识别经验,并在所述格式整理经验集中存储有初始格式整理经验。4.如权利要求1至3的任一项所述的数据标准化装置,其特征在于,还包括纠错单元,该纠错单元对所述格式整理单元所输出的所述标准化数据中与所述数据集的格式无关的错误进行纠正。5.如权利要求1至3的任一项所述的数据标准化装置,其特征在于,还包括:月份识别单元,该月份识别单元对所述格式整理单元所输出的所述标准化数据中与月份有关的数据进行识别,并将所述与月份有关的数据转换为标准日期;以及名单匹配单元,该名单匹配单元将业务月与所述标准日期中的月份相匹配,所述格式整理单元基于所述名单匹配单元的匹配结果,来选择所述数据集中与所述业务月相匹配的月份的多条记录,并根据所述业务月所对应的格式整理规则,基于所述标准字段来对所述多条记录的字段进行重新排序。6.一种数据标准化方法,该数据标准化方法对输入数据进行标准化处理,其特征在于,包括:文本识别步骤,在该文本识别步骤中...
【专利技术属性】
技术研发人员:黄旭江,
申请(专利权)人:上海倍通医疗器械管理咨询有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。