一种基于深度学习的医疗文本主题分割方法和装置制造方法及图纸

技术编号：35359038 阅读：21 留言：0更新日期：2022-10-26 12:41

本发明专利技术公开了一种基于深度学习的医疗文本主题分割方法和装置，涉及机器学习技术领域。方法包括：基于来自多家医院中的原始病程文本数据建立医疗领域的语料库；对建立的语料库进行无监督训练得到词向量模型，并将语料库中的每一个词语映射为低维稠密向量；对得到的低维稠密向量提取时序特征，并进行语料库中词语主题段落序列的标注的学习，得到医疗文本主题分割模型；将待分割医疗文本依次输入到词向量模型和医疗文本主题分割模型中，输出主题段落序列的预测结果。本发明专利技术可以在存在较多噪音和较少标注数据的医疗文本数据集上，训练得到一个病程文本领域特定的轻量深度学习模型，通过该学习模型同时对病程文本完成高效率的文本分割和主题标注。本分割和主题标注。本分割和主题标注。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于深度学习的医疗文本主题分割方法和装置

[0001]本申请涉及机器学习
，特别是涉及一种基于深度学习的医疗文本主题分割方法和装置。

技术介绍

[0002]主题分割(Topic Segmentation)，即将一段整体的文本根据其内部逻辑关系，将其分割成多个线性序列的主题块，用于信息索引或者文本总结。对于不同的应用场景和任务需要，上述提及的“主题”的定义也会有所不同，比如“主题”可以是医疗病程文本场景下的主诉、病史、检查和治疗方案等，也可以是会议记录文本场景下的参会人员、议题、议程和总结等。
[0003]在传统的主题分割模型中，模型的任务是只需找到主题块之间的边界，确保主题块内部逻辑的连贯和一致，而无需确定主题块的具体主题归属，因而整体多为无监督学习。从最初的TextTilling，通过计算不同文本块之间词汇在向量空间的余弦相似度来确定边界，到动态规划(Dynamic Programming)的引入，以上都没有使用任何机器学习，仅仅依靠语言学上的概念(如词共现、线索词、词的转移与变换等)进行文本分割；再到基于LDA等主题模型进行分割，再到如今的基于BERT的深度学习无监督主体分割模型，该任务的解决方案更新和效果优化一直推进。
[0004]具体来说：
[0005]1、基于词汇分布变化，其思路是主题的变化是由所用词表的变化体现的，通过统计方法寻找词汇变化剧烈的位置，其可以判定为主题分割边界，如TextTilling，LcSeg等。这种方法对于数据中噪音较为敏感，仅能寻找边界，先验条件要求...

【技术保护点】

【技术特征摘要】
1.一种基于深度学习的医疗文本主题分割方法，其特征在于，包括：步骤S1，对来自多家医院的各个病区的原始病程文本数据进行中文分词以及主题段落序列的标签标注，以建立医疗领域的语料库，所述原始病程文本数据包含多个电子病程文本；步骤S2，对建立的语料库进行训练，无监督得到词向量模型，并使用所述词向量模型将所述语料库中的每一个词语映射为低维稠密向量；步骤S3，对得到的低维稠密向量提取时序特征，并进行语料库中词语相应主题段落序列的标注的学习，得到医疗文本主题分割模型；步骤S4，将待分割医疗文本输入到所述词向量模型中，将待分割医疗文本中的每个词语映射为低维稠密向量，并将得到的低维稠密向量输入到所述医疗文本主题分割模型中，输出对待分割医疗文本的主题段落序列的预测结果。2.根据权利要求1所述的基于深度学习的医疗文本主题分割方法，其特征在于，所述步骤S1包括：将所述原始病程文本数据中的每个电子病程文本按内容分割为主题段落序列，并对主题段落序列中每个主题段落的词语使用相应主题标签进行标注；对进行主题标签标注后的原始病程文本数据进行清洗，并使用中文分词模型将每个电子病程文本分成词语的线性序列；使用序列标注体系对每个电子病程文本的所有词语位置进行标签标注，用于区分每个词语在相应主题段落的位置，从而形成医疗领域的语料库。3.根据权利要求2所述的基于深度学习的医疗文本主题分割方法，其特征在于，所述主题段落序列包括入院主诉、既往史、鉴别诊断、诊断、现病史、诊断依据、体格检查、专科检查、诊疗计划和辅助检查中的至少一个主题段落。4.根据权利要求2所述的基于深度学习的医疗文本主题分割方法，其特征在于，所述中文分词模型为JIEBA分词组件。5.根据权利要求3所述的基于深度学习的医疗文本主题分割方法，其特征在于，所述对每个电子病程文本的所有词语位置进行标签标注包括：在每个电子病程文本中，用B标记每个主题段落开头的词语，用I标记每个...

【专利技术属性】
技术研发人员：李修明，张弛，
申请(专利权)人：翼健上海信息科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人