【技术实现步骤摘要】
一种电子病历是否类细项提取方法与系统
[0001]本专利技术涉及自然语言处理
,特别涉及一种电子病历是否类细项提取方法与系统。
技术介绍
[0002]在电子病历细项提取过程中,发现存在许多“是/否”类细项提取问题。如是否有吸烟史、是否有饮酒史等。针对该类问题,目前业界常采用规则提取和实体关系提取两种方式。
[0003]规则提取,是指通过人为定义关键字或编写正则表达式的方式完成“是/否”类细项提取。该类方法的优点在于规则修改灵活,但缺点在于需要制定规则库来穷举文本中可能出现的情况。面对海量的电子病历数据,这穷尽规则显然是困难的。
[0004]基于机器学习模型的实体关系提取方法,是目前业界主流的提取方法。该方法利用模型的学习功能,让模型基于标注的样本自行学习语义及实体间的关系,给出提取结果。具体过程,首先通过命名实体识别模型,识别句子中的各类实体,包括“疾病”、“症状”、“限定词”等。然后,通过关系提取模型,对识别出来的实体进行两两实体关系预测,使限定词与其他类型的实体根据语境建立否定或肯定关系。然而,由于 ...
【技术保护点】
【技术特征摘要】
1.一种电子病历是否类细项提取方法,其特征在于:包括以下步骤:第一步,数据处理按逗号与句号对输入的电子病例样本中的文本进行分句,并按关键词筛选需要解析的核心语句,若子句S
i
中包含关键词字典中的关键字KW
ij
,子句S
i
将被分到对应的待解析细项Tagi的待评估关键句中,得到的待评估语句与待解析细项Tagi的映射关系;所述S
i
表示分出的第i个子句,KW
ij
表示第i个解析项的第j个关键字;第二步,模型评估在完成数据处理后,将得到的待评估语句与待解析细项Tagi的映射关系作为输入,通过文本分类模型完成对待评估语句是否类倾向性的评估。2.根据权利要求1所述的电子病历是否类细项提取方法,其特征在于:所述第一步中,按句子分隔符对文本进行分句,分句列表为[S1,S2,S3…
S
n
],其中,S
i
表示按逗号与句号分出的第i个子句,n表示原句共被分成的子句数,i为不小于1,不大于n的自然数;根据细项解析任务中的待解析细项Tagi内容设计关键词字典,待解析细项Tagi的关键字列表为[KW
i1
,KW
i2
,KW
i3
…
KW
ij
],Tagi表示第i个待解析细项,KW
ij
表示第i个解析项的第j个关键字。3.根据权利要求2所述的电子病历是否类细项提取方法,其特征在于:所述第二步中,模型评估具体流程如下:S1.取出待评估语句与待解析细项Tagi映射关系中第i个解析项的第j个解析语句;S2.将子句S
i
作为文本分类模型的输入,文本分类模型假设子句S
i
长度为m,X1至X
m
为输入子句S
i
的文字,若子句S
i
长度不足m用
’
<UNK>
’
补齐,若子句S
i
长度超过m则在长度m处做截断处理;S3.基于模型嵌入字典对子句S
i
进行字嵌入处理,将原句转化为m*Wordembedding的矩阵;其中,模型嵌入字典初始化为随机数,长度为分词字典长度;S4.基于模型嵌入字典对句子进行位置嵌入处理,将原句位置嵌入后转化为m*Pos_embedding的矩阵;其中,模型位置嵌入字典初始化为随机数,长度为m;S5.原句在完成字嵌入与位置嵌入后合并字嵌入与位置嵌入矩阵,生成m*(Wordembedding+Pos_embedding)的矩阵;S6.合并矩阵经过两层卷积神经网络层,一层最大化池化层和一层softmax层,生成一个二维向量[y1,y2],最终评估结果Y如下:若结果为否,则第i个解析项的解析结果为否,然后再次跳转到步骤S1,进行下一...
【专利技术属性】
技术研发人员:刘文丽,李向阳,
申请(专利权)人:山东健康医疗大数据有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。