【技术实现步骤摘要】
电子病历数据的主题切分方法、装置及系统
本申请涉及医学
,尤其涉及电子病历数据的主题切分方法、装置及系统。
技术介绍
随着电子技术的快速发展,大数据、电子病历在医院逐渐普及的情况下,医疗行业也产生海量的临床大数据,如何对临床大数据进行分析和挖掘也成为医疗信息化发展所面临的挑战。在结构化病历应用之前,医院保存大量非结构化的电子病历数据(非结构化的电子病历数据是指数据结构不规则或不完整,没有预定义的数据模型,不方便用数据库二维逻辑表来表现的数据,包括所有格式的办公文档、文本、XML、HTML、图像和音频/视频信息等)。这些非结构化的电子病历数据对于科研和临床都有着重要的意义,所以从非结构化的电子病历数据中筛选、抽取和分析出有价值内容成为一项非常重要的工作。
技术实现思路
申请人在研究过程中发现:由于电子病历数据的成段文本中有很多不同主题的文本数据,例如关于疾病的文本数据,关于检查的文本数据,关于症状的文本数据等,若直接对电子病历数据抽取实体关系则会出现许多问题,因此在对电子病历数 ...
【技术保护点】
1.一种电子病历数据的主题切分方法,其特征在于,包括:/n获取电子病历数据的文本数据;/n输入所述文本数据至预先训练好的标注模型,获得所述标注模型输出的、以字符为单位的标注标签;其中标注标签包括切分标注标签和非切分标注标签;/n遍历所述文本数据中各个字符的标注标签,按照切分标注标签拆分所述文本数据为不同的主题文本数据。/n
【技术特征摘要】
1.一种电子病历数据的主题切分方法,其特征在于,包括:
获取电子病历数据的文本数据;
输入所述文本数据至预先训练好的标注模型,获得所述标注模型输出的、以字符为单位的标注标签;其中标注标签包括切分标注标签和非切分标注标签;
遍历所述文本数据中各个字符的标注标签,按照切分标注标签拆分所述文本数据为不同的主题文本数据。
2.如权利要求1所述的方法,其特征在于,在获取电子病历数据的文本数据之后,还包括:
对所述电子病历数据的文本数据进行预处理操作。
3.如权利要求1所述的方法,其特征在于,还包括:
获取多个已为各个字符添加标注标签的文本数据样本;
利用多个文本数据样本通过CRF++开源工具训练;
在达到训练结束条件后,获得训练好的标注模型。
4.如权利要求1所述的方法,其特征在于,还包括:
分别输入主题文本数据至预先训练好的主题分类模型,获得所述主题分类模型输出的主题类别;
其中,主题类别包括:症状、疾病、检查、检验和手术。
5.一种电子病历数据的主题切分装置,其特征在于,包括:
获取单元,用于获取电子病历数据的文本数据;
输入单元,用于输入所述文本数据至预先训练好的标注模型,获得所述标注模型输出的、以字符为单位的标注标签;其中标注标签包括切分标注标签和非切分标注标签;
切分单元,用于遍历所述文本数据中各个字符的标注标签,按照切分标注标签...
【专利技术属性】
技术研发人员:王利叶,胡文,胡可云,陈联忠,
申请(专利权)人:北京嘉和海森健康科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。