【技术实现步骤摘要】
电子病历标准化切分方法
本专利技术涉及信息
,具体地说,涉及一种电子病历标准化切分方法。
技术介绍
随着信息技术的发展,大量的医疗数据可以具有更多的应用,例如,在线问诊。而这些技术应用的基础是首先要具有标准化切分的电子病历,才能通过大数据分析以及人工智能等技术来达到应用的目的。对于电子病历标准化切分,需要使用句子向量化表示方法和句子序列分类方法。现有的句子向量化表示方法主要包括基于句子中字(词)向量化表示的方法和基于深度学习模型的方法。基于句子中字(词)向量化表示的方法,即将句子中的字(词)向量进行加权平均计算,这类方法的优势在于句子向量的计算简单快速,不需要消耗大量的计算资源,缺陷在于,若只对于句子中各个字(词)的权重进行平均,句子的向量化表示会受到不同句子中共同出现的频率较高的字(词)向量影响,在抽象的向量空间中不同句子不能很好的区分,所以此类方法需要谨慎考虑句子中字(词)的权重处理;基于深度学习模型的方法有Sent2Vec、FastText、Skip-Thought等通过文本中相邻句子预测 ...
【技术保护点】
1.一种电子病历标准化切分方法,其特征在于,包括以下步骤:/n获取标准化电子病历集和待切分电子病历集,所述标准化电子病历集和待切分电子病历集都包含有多篇电子病历,且每篇电子病历都包含有多个句子,获得各个句子的句子向量,形成各电子病历的句子向量序列;/n利用所述标准化电子病历集构建训练数据集,所述训练数据集包括句子向量序列和与所述句子向量序列对应标注的标准类别标签序列;/n利用所述训练数据集训练分类模型,分类模型包括依次连接的循环神经网络和条件随机场模型,通过误差反向传播的方法来更新模型中的参数,从而获得训练后的分类模型;/n利用所述训练后的分类模型将所述待切分电子病历集中的 ...
【技术特征摘要】
1.一种电子病历标准化切分方法,其特征在于,包括以下步骤:
获取标准化电子病历集和待切分电子病历集,所述标准化电子病历集和待切分电子病历集都包含有多篇电子病历,且每篇电子病历都包含有多个句子,获得各个句子的句子向量,形成各电子病历的句子向量序列;
利用所述标准化电子病历集构建训练数据集,所述训练数据集包括句子向量序列和与所述句子向量序列对应标注的标准类别标签序列;
利用所述训练数据集训练分类模型,分类模型包括依次连接的循环神经网络和条件随机场模型,通过误差反向传播的方法来更新模型中的参数,从而获得训练后的分类模型;
利用所述训练后的分类模型将所述待切分电子病历集中的句子向量序列输出对应的句子标签序列,并根据所述句子标签序列将句子整合,输出切分的电子病历。
2.如权利要求1所述的电子病历标准化切分方法,其特征在于,
所述获得各个句子的句子向量包括:
通过word2vec或GloVe方法计算出字i的字向量;
通过下式计算字i的权重wi,
fi为字i在该篇电子病历中出现频率;
α为平滑系数;
利用所述权重wi对句子中的所有字向量加权平均来获得句子向量。
3.如权利要求1所述的电子病历标准化切分方法,其特征在于,
在所述形成各电子病历的句子向量序列之前,将每篇电子病历的句子向量对应组成矩阵,并且对所述矩阵使用奇异值分解得到特征值和与所述特征值对应的特征向量,在每个句子向量中减去最大的前两个或一个特征值对应的特征向量,获得最终的句子向量。
4.如权利要求1所述的电子病历标准化切分方法,其特征在于,
所述训练数据集包括标准样本,所述标准样本是指包括句子向量序列和与所述句子向量序列对应标注的标准类别标签序列,其中,
所述标准化电子病历集中包含标准电子病历和半标准电子病历,每篇标准电子病历的句子都划分有不同的类别标题,并且其中的类别标题是与标准类别标签一致的,利用所述标准电子病历构建训练样本包括为每个句子按照其所属的类别标题分别标注标准类别标签,并去除类别标题;
所述半标准电子病历,其中的各电子病历的句子都划分有不同的类别标题,但类别标题与标准类别标签不一致,通过正则匹配查找半标准电子病历中与标准类别标签所等同的类别标题,并为所述半标准电子病历的句子分别标注标准类别标签,并去除类别标题。
5.如权利要求1所述的电子病历标准化切分方法,其特征在于,
在所述获得各个句子的句子向量...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。