一种基于深度学习的医疗文本主题分割方法和装置制造方法及图纸

技术编号:35359038 阅读:21 留言:0更新日期:2022-10-26 12:41
本发明专利技术公开了一种基于深度学习的医疗文本主题分割方法和装置,涉及机器学习技术领域。方法包括:基于来自多家医院中的原始病程文本数据建立医疗领域的语料库;对建立的语料库进行无监督训练得到词向量模型,并将语料库中的每一个词语映射为低维稠密向量;对得到的低维稠密向量提取时序特征,并进行语料库中词语主题段落序列的标注的学习,得到医疗文本主题分割模型;将待分割医疗文本依次输入到词向量模型和医疗文本主题分割模型中,输出主题段落序列的预测结果。本发明专利技术可以在存在较多噪音和较少标注数据的医疗文本数据集上,训练得到一个病程文本领域特定的轻量深度学习模型,通过该学习模型同时对病程文本完成高效率的文本分割和主题标注。本分割和主题标注。本分割和主题标注。

【技术实现步骤摘要】
一种基于深度学习的医疗文本主题分割方法和装置


[0001]本申请涉及机器学习
,特别是涉及一种基于深度学习的医疗文本主题分割方法和装置。

技术介绍

[0002]主题分割(Topic Segmentation),即将一段整体的文本根据其内部逻辑关系,将其分割成多个线性序列的主题块,用于信息索引或者文本总结。对于不同的应用场景和任务需要,上述提及的“主题”的定义也会有所不同,比如“主题”可以是医疗病程文本场景下的主诉、病史、检查和治疗方案等,也可以是会议记录文本场景下的参会人员、议题、议程和总结等。
[0003]在传统的主题分割模型中,模型的任务是只需找到主题块之间的边界,确保主题块内部逻辑的连贯和一致,而无需确定主题块的具体主题归属,因而整体多为无监督学习。从最初的TextTilling,通过计算不同文本块之间词汇在向量空间的余弦相似度来确定边界,到动态规划(Dynamic Programming)的引入,以上都没有使用任何机器学习,仅仅依靠语言学上的概念(如词共现、线索词、词的转移与变换等)进行文本分割;再到基于LDA等主题模型进行分割,再到如今的基于BERT的深度学习无监督主体分割模型,该任务的解决方案更新和效果优化一直推进。
[0004]具体来说:
[0005]1、基于词汇分布变化,其思路是主题的变化是由所用词表的变化体现的,通过统计方法寻找词汇变化剧烈的位置,其可以判定为主题分割边界,如TextTilling,LcSeg等。这种方法对于数据中噪音较为敏感,仅能寻找边界,先验条件要求较为严格。
[0006]2、基于生成模型,该方法认为文档是从一系列的具有特有的词的分布的主题生成的,因而当主题变化时,词的分布也发生变化,从而确定边界,如基于LDA的主题分割模型。当文档太短时会不利于训练生成模型,虽然可以用词语体现段落主题,但无法捕捉主题段落之间的逻辑关系。
[0007]3、基于语言特征,该方法尝试从训练语料中使用深度学习等方法提取词汇特征,研究这些特征与主题变化之间的关系来确定主题边界,如近年来基于深度学习的主题分割模型,也是当前的主流方法,代表性的有基于BERT的主题分割模型。当前基于预训练模型的主题分割模型参数较多,对输入文本长度有限制,对垂直领域的语料效果不够理想,会有特殊词汇不存在于的语料库中的情况。
[0008]同时专利技术人认识发到,这些解决方案的重点在于主题边界的寻找,而忽略了边界确定后的主题归属。也就是说,同时完成确定主题边界和主题归属的解决方案相对来说发展得没有那么完备,在医疗文本领域的应用更是甚少。

技术实现思路

[0009]基于此,针对上述技术问题,提供一种能够同时确定医疗文本主体边界和主题归
属的基于深度学习的医疗文本主题分割方法和装置。
[0010]第一方面,一种基于深度学习的医疗文本主题分割方法,包括:
[0011]步骤S1,对来自多家医院的各个病区的原始病程文本数据进行中文分词以及主题段落序列的标签标注,以建立医疗领域的语料库,所述原始病程文本数据包含多个电子病程文本;
[0012]步骤S2,对建立的语料库进行训练,无监督得到词向量模型,并使用所述词向量模型将所述语料库中的每一个词语映射为低维稠密向量;
[0013]步骤S3,对得到的低维稠密向量提取时序特征,并进行语料库中词语相应主题段落序列的标注的学习,得到医疗文本主题分割模型;
[0014]步骤S4,将待分割医疗文本输入到所述词向量模型中,将待分割医疗文本中的每个词语映射为低维稠密向量,并将得到的低维稠密向量输入到所述医疗文本主题分割模型中,输出对待分割医疗文本的主题段落序列的预测结果。
[0015]可选地,所述步骤S1包括:
[0016]将所述原始病程文本数据中的每个电子病程文本按内容分割为主题段落序列,并对主题段落序列中每个主题段落的词语使用相应主题标签进行标注;
[0017]对进行主题标签标注后的原始病程文本数据进行清洗,并使用中文分词模型将每个电子病程文本分成词语的线性序列;
[0018]使用序列标注体系对每个电子病程文本的所有词语位置进行标签标注,用于区分每个词语在相应主题段落的位置,从而形成医疗领域的语料库。
[0019]进一步可选地,所述主题段落序列包括入院主诉、既往史、鉴别诊断、诊断、现病史、诊断依据、体格检查、专科检查、诊疗计划和辅助检查中的至少一个主题段落。
[0020]进一步可选地,所述中文分词模型为JIEBA分词组件。
[0021]进一步可选地,所述对每个电子病程文本的所有词语位置进行标签标注包括:
[0022]在每个电子病程文本中,用B标记每个主题段落开头的词语,用I标记每个主题段落中间的词语,用E标记每个主题段落结尾的词语。
[0023]可选地,在步骤S2中,利用FastText模型对建立的语料库进行训练。
[0024]进一步可选地,所述步骤S3包括:
[0025]对得到的低维稠密向量,利用BiLSTM网络提取段落间序列关系和长距离的依赖关系,输出标签向量;
[0026]利用CRF网络学习所有低维稠密向量相应主题段落序列的标注之间的转移规则,并基于标签向量输出最优的标签路径,得到医疗文本主题分割模型。
[0027]进一步可选地,在利用CRF网络学习转移规则时,在初始化转移矩阵的时候,基于先验知识,将不可能转移的边界设为负值进行限制,使模型更快收敛。
[0028]可选地,在所述步骤S4之后还包括:
[0029]对所述主题段落序列的预测结果进行检验和修订,并输出经过检验和修订的主题段落序列的预测结果。
[0030]第二方面,一种基于深度学习的医疗文本主题分割装置,包括:
[0031]数据预处理模块,用于对来自多家医院的各个病区的原始病程文本数据进行中文分词以及主题段落序列的标签标注,以建立医疗领域的语料库,所述原始病程文本数据包
含多个电子病程文本;
[0032]文本编码模块,用于对建立的语料库进行训练,无监督得到词向量模型,并使用所述词向量模型将所述语料库中的每一个词语映射为低维稠密向量;
[0033]主题分割模型生成模块,用于对得到的低维稠密向量提取时序特征,并进行语料库中词语相应主题段落序列的标注的学习,得到医疗文本主题分割模型;
[0034]主题分割模块,用于将待分割医疗文本输入到所述词向量模型中,将待分割医疗文本中的每个词语映射为低维稠密向量,并将得到的低维稠密向量输入到所述医疗文本主题分割模型中,输出对待分割医疗文本的主题段落序列的预测结果。
[0035]本专利技术至少具有以下有益效果:
[0036]本专利技术实施例提供了一种基于医疗领域语料词向量的端到端的、能够同时进行文本分割和主题识别的深度学习主题分割轻量方法;该方法可以在存在较多噪音和较少标注数据的医疗文本数据集上,训练得到一个病程文本领域特定的轻量深度学习模型,通过该学习模型能够对病本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度学习的医疗文本主题分割方法,其特征在于,包括:步骤S1,对来自多家医院的各个病区的原始病程文本数据进行中文分词以及主题段落序列的标签标注,以建立医疗领域的语料库,所述原始病程文本数据包含多个电子病程文本;步骤S2,对建立的语料库进行训练,无监督得到词向量模型,并使用所述词向量模型将所述语料库中的每一个词语映射为低维稠密向量;步骤S3,对得到的低维稠密向量提取时序特征,并进行语料库中词语相应主题段落序列的标注的学习,得到医疗文本主题分割模型;步骤S4,将待分割医疗文本输入到所述词向量模型中,将待分割医疗文本中的每个词语映射为低维稠密向量,并将得到的低维稠密向量输入到所述医疗文本主题分割模型中,输出对待分割医疗文本的主题段落序列的预测结果。2.根据权利要求1所述的基于深度学习的医疗文本主题分割方法,其特征在于,所述步骤S1包括:将所述原始病程文本数据中的每个电子病程文本按内容分割为主题段落序列,并对主题段落序列中每个主题段落的词语使用相应主题标签进行标注;对进行主题标签标注后的原始病程文本数据进行清洗,并使用中文分词模型将每个电子病程文本分成词语的线性序列;使用序列标注体系对每个电子病程文本的所有词语位置进行标签标注,用于区分每个词语在相应主题段落的位置,从而形成医疗领域的语料库。3.根据权利要求2所述的基于深度学习的医疗文本主题分割方法,其特征在于,所述主题段落序列包括入院主诉、既往史、鉴别诊断、诊断、现病史、诊断依据、体格检查、专科检查、诊疗计划和辅助检查中的至少一个主题段落。4.根据权利要求2所述的基于深度学习的医疗文本主题分割方法,其特征在于,所述中文分词模型为JIEBA分词组件。5.根据权利要求3所述的基于深度学习的医疗文本主题分割方法,其特征在于,所述对每个电子病程文本的所有词语位置进行标签标注包括:在每个电子病程文本中,用B标记每个主题段落开头的词语,用I标记每个...

【专利技术属性】
技术研发人员:李修明张弛
申请(专利权)人:翼健上海信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1