一种基于ernie模型的电子病历数据组解析方法及系统技术方案

技术编号:24690130 阅读:91 留言:0更新日期:2020-06-27 09:54
本发明专利技术公开了一种基于ernie模型的电子病历数据组解析方法及系统,属于自然语言处理领域,本发明专利技术要解决的技术问题为如何克服电子病历数据组提取过程对关键字及规则的依赖而导致的提取规则反复更新、无法解析无关键字文本,采用的技术方案为:该方法是根据电子病历中每句话的含义进行数据组判别,克服电子病历解析过程中对关键字及规则的依赖;具体如下:S1、确定不同类别文本数据组:根据不同类型电子病历确定提取数据组;S2、提取及标记数据组样本:在确定不同类型文档所要提取的电子病历数据组后,采集并标注样本构建样本集;S3、基于ernie预训练模型的文本分类模型再训练;S4、提取数据组内容:使用步骤S3中训练的模型将相应数据组的内容提取出来。

An analysis method and system of EMR data group based on Ernie model

【技术实现步骤摘要】
一种基于ernie模型的电子病历数据组解析方法及系统
本专利技术涉及自然语言处理领域,具体地说是一种基于ernie模型的电子病历数据组解析方法及系统。
技术介绍
电子病历是一个人在医疗机构历次就诊过程中产生和被记录的完整、详细的临床信息资源,是目前医疗数据主要的组成部分。但是目前电子病历多以文本形式为主,并不能直接用于分析研究。因此,如何将电子病历准确有效解析,并提取出数据组内容用于分析研究是医疗数据治理中亟待解决的问题。目前,常用的数据组解析的方法是关键字提取、正则表达式匹配的方法,该方法具体如下:首先,根据电子病历中的关键字,确定提取数据组的位置;然后,使用正则表达式等规则匹配方式,将数据组内容提取出来。例如,从入院记录文本中提取主诉信息:首先,根据“主诉”二字,确定入院记录文本中这组数据组的位置;然后,根据回车符、句号等分隔符将主诉内容提取出来。虽然,通过这种方法可以快速的进行电子病历数据组解析,但由于电子病历为半结构化内容,大量段落为自由填写。且不同医院不同厂家的电子病历模板也不尽相同。因此,存在本文档来自技高网...

【技术保护点】
1.一种基ernie模型的电子病历数据组解析方法,其特征在于,该方法是根据电子病历中每句话的含义进行数据组判别,克服电子病历解析过程中对关键字及规则的依赖;具体如下:/nS1、确定不同类别文本数据组:根据不同类型电子病历确定提取数据组,再根据不同厂家电子病历文本的情况进行数据组映射或微调;/nS2、提取及标记数据组样本:在确定不同类型文档所要提取的电子病历数据组后,采集并标注样本构建样本集;/nS3、基于ernie预训练模型的文本分类模型再训练:对样本集中M个子样本集分别进行模型训练;/nS4、提取数据组内容:使用步骤S3中训练的模型将相应数据组的内容提取出来。/n

【技术特征摘要】
1.一种基ernie模型的电子病历数据组解析方法,其特征在于,该方法是根据电子病历中每句话的含义进行数据组判别,克服电子病历解析过程中对关键字及规则的依赖;具体如下:
S1、确定不同类别文本数据组:根据不同类型电子病历确定提取数据组,再根据不同厂家电子病历文本的情况进行数据组映射或微调;
S2、提取及标记数据组样本:在确定不同类型文档所要提取的电子病历数据组后,采集并标注样本构建样本集;
S3、基于ernie预训练模型的文本分类模型再训练:对样本集中M个子样本集分别进行模型训练;
S4、提取数据组内容:使用步骤S3中训练的模型将相应数据组的内容提取出来。


2.根据权利要求1所述的基于ernie模型的电子病历数据组解析方法,其特征在于,所述步骤S2中提取及标记数据组样本具体如下:
S201、分别从各类待解析样本中随机抽取N个文本;
S202、根据实际文本情况,选择合理分隔符进行文本分块;
S203、去除每块文本中的脏字符,脏字符是指影响语义判断的字符;
S204、根据步骤S1中确定的数据组进行人工标注。


3.根据权利要求1所述的1基于ernie模型的电子病历数据组解析方法,其特征在于,所述构建样本集具体如下:
(1)、从各类型文档中分别抽取N份文档;
(2)、结合实际待解析数据情况,确定数据组类别;
(3)、人工或借助标注平台标注N份文档中的数据组;
(4)、以公式1和公式2的样本模型结构组成总样本集,具体如下:
S={s1,s2,s3…sM};公式1
si={ni1,ni2,ni3,…,nid,nid+1};公式2
其中,S表示为总样本集,总样本集是由M类待解析文档的子样本集s构成;每个子样本集s中包含d个子类别,即该类文档中包含的数据组种类数。


4.根据权利要求3所述的基于ernie模型的电子病历数据组解析方法,其特征在于,所述样本集构建时需要注意如下内容:
①、采样过程中,应对全样本集进行随机采样,保证样本的全面性;
②、应对原数据组的完整文本进行分块后放入样本集,使模型摆脱对关键字的依赖,尽量保证样本集内容的多样性。


5.根据权利要求1所述的基于ernie模型的电子病历数据组解析方法,其特征在于,所述步骤S3中基于ernie预训练模型的文本分类模型再训练的过程中对模型的最大序列长度、批次大小及学习率三个参数进行调参;具体如下:
S301、选择最大序列长度搜索值max_len_num个,批次大小搜索值batch_size_num个,学习率搜索值learn_rate_num个,分别组合为max_len_num*batch_size_num*learn_rate_num组;
S302、从步骤S301中选择一种参数组合,采用留一法交叉验证模型,计算该模型的平均识别率;
S303、循环步骤S302直至处理完全部组参数,选择平均识别率最高的一组参数,作为模型的最优参数,最优参数训练的模型作为最优模型输出;
S304、通过步骤S301到步骤S303分别对M个子样本集进行训练,得到M个子模型。


6.根据权利要求1所述的基于ernie模型的电子病历...

【专利技术属性】
技术研发人员:刘文丽
申请(专利权)人:山东健康医疗大数据有限公司
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1