数据处理的方法、数据处理的装置及计算机可读存储介质制造方法及图纸

技术编号:17667789 阅读:51 留言:0更新日期:2018-04-11 06:09
本发明专利技术公开了一种数据处理的方法,该方法包括步骤:获取保险机构数据库及各级医疗机构的医疗原始数据;建立分类模型、自然语义抓取模型、半监督学习模型及身份信息抓取模型;及将所述原始数据输入所述分类模型、自然语义抓取模型、半监督学习模型及身份信息抓取模型,各模型对输入的所述原始数据进行分析输出违规单据。通过所述方法可以针对不同地区快速、批量提取管控药物的违规地单据,大量减少了人工成本并极大的提高了效率。

Data processing methods, data processing devices and computer readable storage media

The invention discloses a method of data processing, the method comprises the steps of: medical insurance institutions and the original data acquisition database at all levels of medical institutions; establish the classification model, natural semantic model, grasping the semi supervised learning model and identity information capture model; and the original data input to the classification model, the natural semantic capture model semi supervised learning model, and identity information capture model, the model of the original input data analysis output illegal documents. Through the method, we can quickly and batch extract the illegal documents for controlling drugs in different areas, which greatly reduces labor costs and greatly improves efficiency.

【技术实现步骤摘要】
数据处理的方法、数据处理的装置及计算机可读存储介质
本专利技术涉及数据处理领域,尤其涉及数据处理的方法、数据处理的装置及计算机可读存储介质。
技术介绍
众所周知,医院等医疗机构对于治疗一些疾病的药物有很多的管控措施,这些管控药物对于治疗对应的疾病必不可少,但是却存在很多问题,比如用量、用法如果不适当会造成一定的危害,不同程度的患病者对于药物的需求量是不一样的。目前医保政策下限定性胰岛素使用已经有比较明确的业务逻辑,但具体落实到每个城市、地区、医疗机构存在各种困难。传统的违规单据提取方法是业务专家对过去一年的全量数据挨个排查,最终定位出违规单据信息,消耗大量时间,且这样排查不是每个人员都可以操作(限定在业务专家)。且,若没有足够数量、违规金额的违规单据,医保机构并不会直接采纳提取结果。更麻烦的是,在切换不同城市之后又要重复相同劳动,效率太低。
技术实现思路
有鉴于此,本专利技术的目的在于提供一种数据处理方法、数据处理的装置及计算机可读存储介质,针对不同地区快速、批量提取管控药物的违规地单据,大量减少了人工成本并极大的提高了效率。为实现上述目的,本专利技术提供一种数据处理的方法,该方法包括步骤:获取保险机构数据库及各级医疗机构的医疗原始数据,建立分类模型、自然语义抓取模型、半监督学习模型及身份信息抓取模型;及将所述原始数据输入所述分类模型、自然语义抓取模型、半监督学习模型及身份信息抓取模型,各模型对输入的所述原始数据进行分析输出违规单据;其中,所述分类模型对所述医疗原始数据进行分类,并对所述医疗原始数据中的误诊病例进行纠正使得所述误诊病例被正确分类。优选地,所述分类原始数据包括医保保单、收费单据、报销单据。优选地,所述分类模型包括决策树分类器、选择树分类器其中之一。优选地,所述分类模型的建立包括以下步骤:选定样本,将所有样本分成训练样本和测试样本两部分;在所述训练样本上执行分类器算法,生成所述分类模型;在所述测试样本上执行所述分类模型,生成预测结果;及根据所述预测结果,计算必要的评估指标,评估所述分类模型的性能。优选地,所述自然语义模型是基于自然语义处理而建立的用于抓取特定字段的模型,所述身份信息抓取模型主要用于获得原始数据中药物使用者的身份信息。优选地,所述半监督学习模型的建立包括以下步骤:对于少量有标记数据和大量未标记数据,随机初始化多个半监督分类器;对于每个初始半监督分类器,通过优化方法对半监督分类器的预测结果进行优化;将优化过的半监督分类器的预测结果通过机器学习的聚类方法分成多个簇;对于聚类结果的每个簇,输出其中目标值最优的半监督分类器;收集每个簇输出的半监督分类器,得到多个半监督分类器。优选地,所述半监督分类器包括基于生成式的半监督分类器、基于图的半监督分类器、基于不一致性的半监督分类器和基于支持向量机的半监督分类器的其中之一。优选地,所述方法还包括步骤:所述分类模型对输入的原始数据进行分析、归类,将未正确诊断的病例重新分类;所述自然语义抓取模型抓取关键字“胰岛素”及“葡萄糖”,通过分析获得两次及两次以上使用“胰岛素”及“葡萄糖”的单据;所述半监督学习模型通过对所述原始数据的分析,对输入的未标记数据进行分类,将原始数据中的违规单据进行输出;及所述身份信息抓取模型抓取患者的身份信息,根据不同患者对应的药物使用情况对违规单据进行输出。因为以上数据处理方法的选择,本专利技术可针对不同地区快速、批量提取管控药物的违规单据,大量减少了人工成本并极大的提高了效率,采用不同的模型对原始数据进行分析,也更加全面且准确的获取了违规单据。为实现上述目的,本专利技术还提供一种数据处理装置,所述信息处理装置包括:存储器、处理器,所述存储器上存储有可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现所述的数据处理方法的步骤。进一步地,为实现上述目的,本专利技术还提供一种计算机可读存储介质,所述计算机可读存储介质存储有数据处理的程序,所述数据处理的程序可被至少一个处理器执行,以使所述至少一个处理器执行如上述的数据处理的方法的步骤。相比于现有技术,采用本专利技术所述的数据处理的方法、数据处理的装置及计算机可读存储介质可以针对不同地区快速、批量提取管控药物的违规地单据,大量减少了人工成本并极大的提高了效率。首先,获取保险机构数据库及各级医疗机构的医疗原始数据;其次,建立分类模型、自然语义抓取模型、半监督学习模型及身份信息抓取模型;最后,将所述原始数据输入所述分类模型、自然语义抓取模型、半监督学习模型及身份信息抓取模型,各模型对输入的所述原始数据进行分析输出违规单据。采用不同的模型对原始数据进行分析,也更加全面且准确的获取了违规单据。附图说明图1是本专利技术各个实施例一可选的应用环境示意图;图2是图1中数据处理装置一可选的架构示意图;图3为图2中数据处理系统一实施方式的模块示意图;图4为本专利技术数据处理方法第一实施例的实施流程示意图;图5为图4中分类模型建立的方法的实施流程示意图;图6为图4中半监督学习模型建立的方法的实施流程示意图;图7为本专利技术数据定向传输方法第二实施例的实施流程示意图;本专利技术目的实现、功能特点及优点将结合实施例,参照附图做进一步说明。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本专利技术,并不用于限定本专利技术。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。需要说明的是,在本专利技术中涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本专利技术要求的保护范围之内。参阅图1所示,是本专利技术各个实施例一可选的应用环境示意图。在本实施例中,本专利技术可应用于应用环境1,所述应用环境1包括,但不仅限于,保险机构10、医疗机构11、网络12及数据处理装置13。在一实施方式中,所述数据处理装置13可以是移动电话、智能电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)等等的可移动设备,以及诸如台式计算机、笔记本、服务器等等的固定终端。所述保险机构10及医疗机构11可为存储数据的服务器或者数据库,所述服务器可以是机架式服务器、刀片式服务器、塔式服务器或机柜式服务器等计算设备,该服务器可以是独立的服务器,也可以是多个服务器所组成的服务器集群。所述数据库,各专业公司的实现方式不同,主要的数据库类型为Oracle,也会存在PostgreSQL、MySQL等类型的各种数据库。所述网络12可以是企业内部网(Intranet)、互联网(Internet)、全球移动通讯系统(GlobalSystemofMobilecommunication,GSM)、宽带码分多址(WidebandCodeDivisionMultipleAccess,WCDMA)、4G网络、5G网本文档来自技高网...
数据处理的方法、数据处理的装置及计算机可读存储介质

【技术保护点】
一种数据处理的方法,其特征在于,该方法包括步骤:获取保险机构数据库及各级医疗机构的医疗原始数据,建立分类模型、自然语义抓取模型、半监督学习模型及身份信息抓取模型;及将所述原始数据输入所述分类模型、自然语义抓取模型、半监督学习模型及身份信息抓取模型,各模型对输入的所述原始数据进行分析输出违规单据;其中,所述分类模型对所述医疗原始数据进行分类,并对所述医疗原始数据中的误诊病例进行纠正使得所述误诊病例被正确分类。

【技术特征摘要】
1.一种数据处理的方法,其特征在于,该方法包括步骤:获取保险机构数据库及各级医疗机构的医疗原始数据,建立分类模型、自然语义抓取模型、半监督学习模型及身份信息抓取模型;及将所述原始数据输入所述分类模型、自然语义抓取模型、半监督学习模型及身份信息抓取模型,各模型对输入的所述原始数据进行分析输出违规单据;其中,所述分类模型对所述医疗原始数据进行分类,并对所述医疗原始数据中的误诊病例进行纠正使得所述误诊病例被正确分类。2.如权利要求1所述的数据处理的方法,其特征在于,所述分类原始数据包括医保保单、收费单据、报销单据。3.如权利要求1所述的数据处理的方法,其特征在于,所述分类模型包括决策树分类器、选择树分类器其中之一。4.如权利要求3所述的数据处理的方法,其特征在于,所述分类模型的建立包括以下步骤:选定样本,将所有样本分成训练样本和测试样本两部分;在所述训练样本上执行分类器算法,生成所述分类模型;在所述测试样本上执行所述分类模型,生成预测结果;及根据所述预测结果,计算必要的评估指标,评估所述分类模型的性能。5.如权利要求1所述的数据处理的方法,其特征在于,所述自然语义模型是基于自然语义处理而建立的用于抓取特定字段的模型,所述身份信息抓取模型主要用于获得原始数据中药物使用者的身份信息。6.如权利要求1所述的数据处理的方法,其特征在于,所述半监督学习模型的建立包括以下步骤:对于少量有标记数据和大量未标记数据,随机初始化多个半监督分类器;对于每个...

【专利技术属性】
技术研发人员:周瑜阮晓雯徐亮肖京
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1