一种电子文档分类方法及装置制造方法及图纸

技术编号:24206585 阅读:96 留言:0更新日期:2020-05-20 14:55
本发明专利技术适用于电子文档处理技术领域,提供了一种电子文档分类方法及装置,该方法包括:对待分类电子文档进行分词,以获取待提取特征;根据特征提取模型对所述待提取特征进行匹配,以获取所述待分类电子文档对应的特征向量;采用机器学习分类算法对所述特征向量进行处理,以对所述特征向量对应的待分类电子文档进行分类。本发明专利技术通过对待分类电子文档进行分词,并通过特征提取获得特征向量,采用机器学习分类算法对特征向量进行处理,从而实现对待分类电子文档进行分类,充分考虑了复杂电子文档的文档处理,有效提高了文档分类的精准程度,进而有利于提高后续电子病历结构化的精准程度。

An electronic document classification method and device

【技术实现步骤摘要】
一种电子文档分类方法及装置
本专利技术属于电子文档处理
,尤其涉及一种电子文档分类方法及装置。
技术介绍
医疗数据中的很大比例是自然语言记录的CDA(ClinicalDocumentArchitecture)文档,其中电子病历(ElectronicMedicalRecord,简写为EMR)是非常重要的一种CDA文档。电子病历文档是指医务人员在医疗活动过程中,使用医疗信息系统生成的文字、符号、图表、图形、数据、影像等数字化信息,并且该活动记录可以实现传输和重现,并利用信息化手段进行存储和管理。随着电子病历文档的不断普及,大量的医疗数据以电子病历文档的形式被不断地积累下来。在大数据时代的背景下,使用大数据的技术手段,对电子病历文档进行数据转化,生产为统一的数据形式,打破医院内或者医院之间数据差异的壁垒,可以挖掘更多有价值的医学信息。对电子病历文档进行分类是电子病历文档生产或者结构化的重要环节,对电子病历文档的精准分类有利于提高后续电子病历结构化的精准程度。目前在进行文档分类时,常采用监督学习的方法来对分类模型进行训练,然而由于本文档来自技高网...

【技术保护点】
1.一种电子文档分类方法,其特征在于,包括:/n对待分类电子文档进行分词,以获取待提取特征;/n根据特征提取模型对所述待提取特征进行匹配,以获取所述待分类电子文档对应的特征向量;/n采用机器学习分类算法对所述特征向量进行处理,以对所述特征向量对应的待分类电子文档进行分类。/n

【技术特征摘要】
1.一种电子文档分类方法,其特征在于,包括:
对待分类电子文档进行分词,以获取待提取特征;
根据特征提取模型对所述待提取特征进行匹配,以获取所述待分类电子文档对应的特征向量;
采用机器学习分类算法对所述特征向量进行处理,以对所述特征向量对应的待分类电子文档进行分类。


2.如权利要求1所述的电子文档分类方法,其特征在于,所述对待分类电子文档进行分词,以获取待提取特征包括:
根据分词算法对待分类电子文档进行分词,以获取待提取特征,其中,所述分词算法包括基于语法和规则的分词法、基于理解的分词法以及基于统计的分词法。


3.如权利要求1所述的电子文档分类方法,其特征在于,所述根据特征提取模型对所述待提取特征进行匹配,以获取所述待分类电子文档对应的特征向量,包括:
将所述待分类电子文档对应的待提取特征与特征提取模型中的特征集合向量进行匹配;其中,所述特征提取模型中包括至少一个文档类型以及所述文档类型对应的特征集合向量,所述特征提取模型是根据预设电子文档知识构建的;
若所述待提取特征与所述特征集合向量中一分量匹配,则所述待提取特征对应的特征向量中,该分量值为第一预设值;
若所述待提取特征与所述特征集合向量中分量均不匹配,则所述待提取特征对应的特征向量中,该分量值为第二预设值。


4.如权利要求1所述的电子文档分类方法,其特征在于,所述采用机器学习分类算法对所述特征向量进行处理,以对所述特征向量对应的待分类电子文档进行分类,包括:
将所述待分类电子文档对应的特征向量输入文档分类模型,以获得所述待分类电子文档属于各文档类型的概率;其中,文档分类模型是根据电子文档的文档类型构建的,所述文档分类模型包括至少一个分类回归树,每个所述文档类型对应一个所述分类回归树;
根据所述待分类电子文档属于各文档类型的概率,确定所述待分类电子文档的文档类型。


5.如权利要求4所述的电子文档分类方法,其特征在于,构建所述文档分类模型的方式,包括:
构建初始分类回归树,每个所述初始分类回归树对应电子文档的一个文档类型;
采用预设特征向量对所述初始分类回归树进行训练,以获得所述预设特征向量属于各文档类型的概率;
根据所述预设特征向量属于各文档类型的概率,获...

【专利技术属性】
技术研发人员:杨宝山强晟
申请(专利权)人:医渡云北京技术有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1