电子病历文档分类方法、装置、电子设备及存储介质制造方法及图纸

技术编号:17542821 阅读:51 留言:0更新日期:2018-03-24 21:15
本发明专利技术的实施例提供了一种电子病历文档分类方法、装置、电子设备及存储介质,涉及数据处理技术领域。该方法包括:将多个电子病历文档作为训练样本集,并提取训练样本集中各电子病历文档的文档特征;根据各电子病历文档的类型以及文档特征对文档分类模型进行训练;通过训练后的文档分类模型对待分类的电子病历文档进行分类。本发明专利技术实施例的技术方案能够基于电子病历文档的多个维度自动对电子病历文档进行分类,不需要人工进行标注,从而能够显著降低人力成本。

An electronic medical record document classification method, device, electronic equipment and storage medium

The embodiment of the invention provides an electronic medical record document classification method, device, electronic equipment and storage medium, and relates to the field of data processing technology. The method comprises: a plurality of electronic medical records as the training sample set, and feature extraction of document training samples the electronic medical records documentation; according to the document classification model is trained by type of electronic medical records documentation and document feature; through the document classification model after training with electronic medical records document classification. The technical scheme of the embodiment of the invention can automatically classify the electronic medical record documents based on the multiple dimensions of the electronic medical record, and does not need manual annotation, so that the labor cost can be significantly reduced.

【技术实现步骤摘要】
电子病历文档分类方法、装置、电子设备及存储介质
本专利技术涉及数据处理
,具体而言,涉及一种电子病历文档分类方法、电子病历文档分类装置、电子设备以及计算机可读存储介质。
技术介绍
EMR(ElectronicMedicalRecord,电子病历)是用电子设备保存、管理、传输和重现的数字化的病人医疗记录。目前,几乎所有的EMR系统,都是按照人的维度来整合各种电子病历文档,但是并没有一个明确的标记来表示电子病历文档的类型。因此,在对医院的EMR文档进行数据处理前,需要确认每个EMR文档的类型,如入院记录,病程记录,手术记录等。现有的技术方案中,如果需要对EMR文档分类,往往是采用人工标注的方式对EMR文档进行分类。对于各医院存在的大量的EMR文档,人工标注的方式需要大量的人力成本,并且还容易标注错误。因此,需要提供一种能够解决上述问题中的一个或多个问题的电子病历文档分类方法、电子病历文档分类装置、电子设备以及计算机可读存储介质。需要说明的是,在上述
技术介绍
部分公开的信息仅用于加强对本专利技术背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
技术实现思路
本专利技术的目的在于提供一种电子病历文档分类方法、电子病历文档分类装置、电子设备以及计算机可读存储介质,进而至少在一定程度上克服由于相关技术的限制和缺陷而导致的一个或者多个问题。根据本专利技术实施例的第一方面,提供了一种电子病历文档分类方法,包括:将多个电子病历文档作为训练样本集,并提取所述训练样本集中各所述电子病历文档的文档特征;根据各所述电子病历文档的类型以及所述文档特征对文档分类模型进行训练;通过训练后的所述文档分类模型对待分类的电子病历文档进行分类。在本专利技术的一些实施例中,基于前述方案,所述电子病历文档分类方法还包括:通过预定编码对所提取的所述训练样本集中各所述电子病历文档的文档特征进行编码;将经编码的各所述电子病历文档的文档特征映射成稀疏向量。在本专利技术的一些实施例中,基于前述方案,所述文档特征包括文档标题关键词特征、文档内容章节特征、文档内容关键词特征。在本专利技术的一些实施例中,基于前述方案,所述文档分类模型为梯度提升决策树模型,根据各所述电子病历文档的类型以及所述文档特征对文档分类模型进行训练,包括:根据各所述电子病历文档的类型以及所述文档特征对所述梯度提升决策树模型进行训练。在本专利技术的一些实施例中,基于前述方案,所述梯度提升决策树模型包括多个分类器,所述多个分类器的数量与所述多个电子病历文档的类型的数量相同。在本专利技术的一些实施例中,基于前述方案,通过训练后的所述文档分类模型对待分类的电子病历文档进行分类,包括:通过所述梯度提升决策树模型中的各所述分类器对待分类的电子病历文档进行投票;基于所述投票的结果对所述待分类的电子病历文档进行分类。在本专利技术的一些实施例中,基于前述方案,基于所述投票的结果对所述待分类的电子病历文档进行分类,包括:在所述投票的结果中仅有一个分类器对所述待分类的电子病历文档的投票时,将所述分类器的分类结果确定为所述待分类的电子病历文档的类型。根据本专利技术实施例的第二方面,提供了一种电子病历文档分类装置,包括:特征提取单元,用于将多个电子病历文档作为训练样本集,提取所述训练样本集中各电子病历文档的文档特征;模型训练单元,用于根据各所述电子病历文档的类型以及所述文档特征对文档分类模型进行训练;文档分类单元,用于通过训练后的所述文档分类模型对待分类的电子病历文档进行分类。根据本专利技术实施例的第三方面,提供了一种电子设备,包括:处理器;以及存储器,所述存储器上存储有计算机可读指令,所述计算机可读指令被所述处理器执行时实现如上述第一方面所述的电子病历文档分类方法。根据本专利技术实施例的第四方面,提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述第一方面所述的电子病历文档分类方法。在本专利技术的一些实施例所提供的技术方案中,提取多个电子病历文档的文档特征,基于各电子病历文档的类型以及文档特征对文档分类模型进行训练;通过训练后的文档分类模型对待分类的电子病历文档进行分类。一方面,提取多个电子病历文档的文档特征,基于各电子病历文档的类型以及文档特征对文档分类模型进行训练,能够基于电子病历文档的多个维度对文档分类模型进行训练,从而能够提高分类的准确性;另一方面,通过训练后的文档分类模型对待分类的电子病历文档进行分类,能够通过机器学习的方式自动对电子病历文档进行分类,不需要人工进行标注,从而能够显著降低人力成本,减少由于人为疏忽造成的分类错误。应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本专利技术。附图说明此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本专利技术的实施例,并与说明书一起用于解释本专利技术的原理。显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:图1示出了根据本专利技术的第一个示例实施例的电子病历文档分类方法的流程示意图;图2示出了根据本专利技术的示例性实施例的将电子病历文档的文档特征映射为稀疏向量的流程示意图;图3示出了根据本专利技术的示例性实施例的对待分类的电子病历文档进行分类的流程示意图;图4示出了根据本专利技术的一示例性实施例的电子病历文档分类装置的示意框图;图5示出了适于用来实现本专利技术实施例的电子设备的计算机系统的结构示意图。具体实施方式现在将参考附图更全面地描述示例实施例。然而,示例实施例能够以多种形式实施,且不应被理解为限于在此阐述的实施例;相反,提供这些实施例使得本专利技术将全面和完整,并将示例实施例的构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本专利技术的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本专利技术的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本专利技术的各方面。附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。在一种技术方案中,基于EMR文档的标题特征对EMR文档进行分类。在这种技术方案中,需要具有医学背景或医学信息技术背景的人对于EMR文档的标题特征设立规则,按照设立的规则对EMR文档的类别进行分析判断。这种技术方案中,一方面,分类的结果受限于设立规则的人的知识储备,当EMR文档标题与EMR的预设规则不符时,则无法识别EMR文档,此时还需要人工进行标注;另一方面,由于仅参考了EM本文档来自技高网...
电子病历文档分类方法、装置、电子设备及存储介质

【技术保护点】
一种电子病历文档分类方法,其特征在于,包括:将多个电子病历文档作为训练样本集,并提取所述训练样本集中各所述电子病历文档的文档特征;根据各所述电子病历文档的类型以及所述文档特征对文档分类模型进行训练;通过训练后的所述文档分类模型对待分类的电子病历文档进行分类。

【技术特征摘要】
1.一种电子病历文档分类方法,其特征在于,包括:将多个电子病历文档作为训练样本集,并提取所述训练样本集中各所述电子病历文档的文档特征;根据各所述电子病历文档的类型以及所述文档特征对文档分类模型进行训练;通过训练后的所述文档分类模型对待分类的电子病历文档进行分类。2.根据权利要求1所述的电子病历文档分类方法,其特征在于,所述电子病历文档分类方法还包括:通过预定编码对所提取的所述训练样本集中各所述电子病历文档的文档特征进行编码;将经编码的各所述电子病历文档的文档特征映射成稀疏向量。3.根据权利要求1或2所述的电子病历文档分类方法,其特征在于,所述文档特征包括文档标题关键词特征、文档内容章节特征、文档内容关键词特征。4.根据权利要求1所述的电子病历文档分类方法,其特征在于,所述文档分类模型为梯度提升决策树模型,根据各所述电子病历文档的类型以及所述文档特征对文档分类模型进行训练,包括:根据各所述电子病历文档的类型以及所述文档特征对所述梯度提升决策树模型进行训练。5.根据权利要求4所述的电子病历文档分类方法,其特征在于,所述梯度提升决策树模型包括多个分类器,所述多个分类器的数量与所述多个电子病历文档的类型的数量相同。6.根据权利要求5所述的电子病历文档分类方法,其特征...

【专利技术属性】
技术研发人员:强晟
申请(专利权)人:医渡云北京技术有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1