【技术实现步骤摘要】
一种健康医疗文本自动分类和安全等级自动分级方法
[0001]本专利技术涉及健康医疗文本处理
,具体而言,涉及一种健康医疗文本自动分类和安全等级自动分级方法。
技术介绍
[0002]健康医疗大数据正成为我国重要的基础性战略资源,但在医疗健康领域,目前针对海量健康医疗文本数据的自动分类和自动分级尚没有高效、准确的方法。(1)健康医疗文本自动分类:健康医疗文本自动分类技术可以为不同的文本打上各类标签(1个到若干个),为海量医疗健康文本快速高效的类别分类、相似电子病例检索、机器人辅助诊断、医院智能导诊和医疗机器人智能问答等智慧健康医疗领域提供必要的数据理解技术。(2)健康医疗文本自动分级:健康医疗文本安全分级的目的是为了对数据采取更合理的安全管理和保护,对不同安全级别的数据进行自动标记区分,明确不同级别数据的访问人员和访问方式,采取的安全保护措施。准确清晰的健康医疗数据分级技术,将为建立完善的健康医疗数据生命周期保护框架奠定基础,从而规范和推动健康医疗数据的融合共享、开放应用。
[0003]近些年来,大型互联网科技公司普遍使用机器学习、深度学习、预训练模型等技术来进行海量文本自动分类,以满足其系统在文本分类和内容分发、商品推荐、搜索引擎、智能问答、内容理解和内容安全防护等应用场景的需求。在基于人工智能技术的文本自动分类领域,文本特征抽取技术和将文本语义表示再进行分类的技术是重难点,目前对健康医疗文本的自动分类、分级技术还不够成熟,尤其是对健康医疗文本的安全等级自动分级技术还较少,同时,对健康医疗文本的特征抽取及 ...
【技术保护点】
【技术特征摘要】
1.一种健康医疗文本自动分类和安全等级自动分级方法,其特征在于,包括如下步骤:S100,分别基于albert神经网络模型、RoBERTa神经网络模型和ERNIE
‑
Doc神经网络模型构造不同尺度文本语义特征理解的预训练模型;S200,对构造的预训练模型分别进行两次预训练,得到针对健康医疗领域的预训练语言模型;S300,通过对实际健康医疗业务中所用的健康医疗文本进行人工标注得到含有不同尺度文本语义的数据集;S400,针对下游分类任务对预训练语言模型进行改造,并利用含有不同尺度文本语义的数据集进行训练,得到融合不同尺度文本语义特征理解的文本类别分类器和文本安全等级分类器;S500,利用融合不同尺度文本语义特征理解的文本类别分类器和文本安全等级分类器对健康医疗文本进行自动分类和安全等级自动分级。2.根据权利要求1所述的健康医疗文本自动分类和安全等级自动分级方法,其特征在于,步骤S100中分别基于albert神经网络模型、RoBERTa神经网络模型和ERNIE
‑
Doc神经网络模型构造不同尺度文本语义特征理解的预训练模型的方法包括:分别通过对albert神经网络模型、RoBERTa神经网络模型和ERNIE
‑
Doc神经网络模型的特征抽取层进行改造,得到不同尺度文本语义特征理解的预训练模型:通过对albert神经网络模型的特征抽取层进行改造,得到3个不同尺度的预训练模型,分别为第一微型预训练模型albert
‑
small、第一中型预训练模型albert
‑
middle和第一大型预训练模型albert
‑
big;通过对RoBERTa神经网络模型的特征抽取层进行改造,得到3个不同尺度的预训练模型,分别为第二微型预训练模型RoBERTa
‑
small、第二中型预训练模型RoBERTa
‑
middle和第二大型预训练模型RoBERTa
‑
big;通过对ERNIE
‑
Doc神经网络模型的特征抽取层进行改造,得到3个不同尺度的预训练模型,分别为第三微型预训练模型ERNIE
‑
Doc
‑
small、第三中型预训练模型ERNIE
‑
Doc
‑
middle和第三大型预训练模型ERNIE
‑
Doc
‑
big。3.根据权利要求2所述的健康医疗文本自动分类和安全等级自动分级方法,其特征在于,所述第一微型预训练模型albert
‑
small、第一中型预训练模型albert
‑
middle和第一大型预训练模型albert
‑
big含有不同数量的特征抽取层和自注意力头;所述第二微型预训练模型RoBERTa
‑
small、第二中型预训练模型RoBERTa
‑
middle和第二大型预训练模型RoBERTa
‑
big含有不同数量的特征抽取层和自注意力头;所述第三微型预训练模型ERNIE
‑
Doc
‑
small、第三中型预训练模型ERNIE
‑
Doc
‑
middle和第三大型预训练模型ERNIE
‑
Doc
‑
big含有不同数量的特征抽取层和自注意力头;所述第一微型预训练模型albert
‑
small、第二微型预训练模型RoBERTa
‑
small和第三微型预训练模型ERNIE
‑
Doc
‑
small含有相同数量的特征抽取层,所述第一中型预训练模型albert
‑
small、第二中型预训练模型RoBERTa
‑
small和第三中型预训练模型ERNIE
‑
Doc
‑
small含有相同数量的特征抽取层,所述第一大型预训练模型albert
‑
small、第二大型预训练模型RoBERTa
‑
small和第三大型预训练模型ERNIE
‑
Doc
‑
small含有相同数量的特征抽取层。4.根据权利要求3所述的健康医疗文本自动分类和安全等级自动分级方法,其特征在于,步骤S200中对构造的预训练模型分别进行两次预训练,得到针对健康医疗领域的预训练语言模型的方法包括:
S201,使用大规模通用语料对不同尺度文本语义特征理解的预训练模型分别进行第一次无监督学习预训练,训练任务为在每一句话中随机遮住一定比例的字然后让预训练模型对遮住的字进行预测,从而让各个预训练模型学习通用语料知识和语义关系;S202,使用大规模健康医疗文本,并采用第一次无监督学习预训练的方法,对各个预训练模型进行第二次无监督学习预训练,得到9个训练好的预训练语言模型,分别命名为健康医疗领域第一微型预训练语言模型albert
‑
small
‑
med、健康医疗领域第一中型预训练语言模型albert
‑
middle
‑
med、健康医疗领域第一大型预训练语言模型albert
‑
big
‑
med,健康医疗领域第二微型预训练语言模型RoBERTa
‑
small
‑
med、健康医疗领域第二中型预训练语言模型RoBERTa
‑
middle
‑
med、健康医疗领域第二大型预训练语言模型RoBERTa
‑
big
‑
med,健康医疗领域第三微型预训练语言模型ERNIE
‑
Doc
‑
small
‑
med、健康医疗领域第三中型预训练语言模型ERNIE
‑
Doc
‑
middle
‑
med、健康医疗领域第三大型预训练语言模型ERNIE
‑
Doc
‑
big
‑
med。5.根据权利要求4所述的健康医疗文本自动分类和安全等级自动分级方法,其特征在于,在第二次无监督学习预训练的过程中,需要通过正则化和降低学习率的方法,避免预训练的过程中产生知识灾难遗忘的情况。6.根据权利要求5所述的健康医疗文本自动分类和安全等级自动分级方法,其特征在于,步骤S300中通过对实际健康医疗业务中所用的健康医疗文本进行人工标注得到含有不同尺度文本语义的数据集的方法包括:S301,收集实际健康医疗业务中所用的健康医疗文本,记为1号健康医疗文本;对1号健康医疗文本进行分类和安全等级的人工标注,将1号健康医疗文本和标注的分类和安全等级标签存储为第三尺度数据集;S302,对1号健康医疗文本全文进行摘要抽取,将抽取的摘要作为记为2号健康医疗文本;对2号健康医疗文本全文进行分类和安全等级的人工标注,将2号健康医疗文本和标注的分类和安全等级标签存储为第二尺度数据集;S303,对2号健康医疗文本进行进行关键词提取,将提取的关键词作为3号健康医疗文本;对3号健康医疗文本进行分类和安全等级的人工标注,将3号健康医疗文本和标注的分类和安全等级标签存储为第一尺度数据集。7.根据权利要求6所述的健康医疗文本自动分类和安全等级自动分级方法,其特征在于,S400中针对下游分类任务对预训练语言模型进行改造,并利用含有不同尺度文本语义的数据集进行训练,得到融合不同尺度文本语义特征理解的文本类别分类器的方法包括:S4110,对于第一微型预训练语言模型albert
‑
small
‑
med、健康医疗领域第一中型预训练语言模型albert
‑
middle
‑
med、健康医疗领域第一大型预训练语言模型albert
‑
big
‑
med:S4111,在第一微型预训练语言模型albert
‑
small
‑
med、健康医疗领域第一中型预训练语言模型albert
‑
middle
‑
med、健康医疗领域第一大型预训练语言模型albert
‑
big
‑
med的最后一层分别接入softmax神经网络层,分别得到健康医疗领域第一微型文本分类模型albert
‑
small
‑
med
‑
cls、健康医疗领域第一中型文本分类模型albert
‑
middle
‑
med
‑
cls和健康医疗领域第一大型文本分类模型albert
‑
big
‑
med
‑
cls;S4112,将第一尺度数据集、第二尺度数据集和第三尺度数据集中的文本和对应的分类标签分别送入健康医疗领域第一微型文本分类模型albert
‑
small
‑
med
‑
cls、健康医疗领域
第一中型文本分类模型albert
‑
middle
‑
med
‑
cls和健康医疗领域第一大型文本分类模型albert
‑
big
‑
med
‑
cls进行训练,当训练完成后去除三个模型最后一层的softmax神经网络层,得到3个第一文本特征抽取器,分别为健康医疗领域第一微型文本特征抽取器albert
‑
small
‑
med
‑
cls
‑
extractor、健康医疗领域第一中型文本特征抽取器albert
‑
middle
‑
med
‑
cls
‑
extractor和健康医疗领域第一大型文本特征抽取器albert
‑
big
‑
med
‑
cls
‑
extractor;S4113,将第一尺度数据集、第二尺度数据集和第三尺度数据集中来自同一篇健康医疗文本的三篇文本分别送入健康医疗领域第一微型文本特征抽取器albert
‑
small
‑
med
‑
cls
‑
extractor、健康医疗领域第一中型文本特征抽取器albert
‑
middle
‑
med
‑
cls
‑
extractor、健康医疗领域第一大型文本特征抽取器albert
‑
big
‑
med
‑
cls
‑
extractor,经过每一个第一文本特征抽取器的第一层和最后一层所有字的向量表示求平均,得到3个第一文本高维语义向量,分别为第一微型文本高维语义向量albert
‑
small
‑
med
‑
cls
‑
first
‑
last
‑
layer
‑
average
‑
pooling
‑
embedding、第一中型文本高维语义向量albert
‑
middle
‑
med
‑
cls
‑
first
‑
last
‑
layer
‑
average
‑
pooling
‑
embedding、第一大型文本高维语义向量albert
‑
big
‑
med
‑
cls
‑
first
‑
last
‑
layer
‑
average
‑
pooling
‑
embedding;然后将3个第一文本高维语义向量进行叠加融合为健康医疗领域第一文本特征融合向量albert
‑
med
‑
cls
‑
fuse
‑
embedding;S4114,基于CatBoost模型或者lightbgm模型建立第一集成学习分类器,将大量健康医疗领域第一文本特征融合向量albert
‑
med
‑
cls
‑
fuse
‑
embedding以及对应的分类标签送入第一集成学习分类器进行训练,训练完成后得到第一融合不同尺度文本语义特征理解的文本类别分类器albert
‑
med
‑
fuse
‑
cls;S4120,对于健康医疗领域第二微型预训练语言模型RoBERTa
‑
small
‑
med、健康医疗领域第二中型预训练语言模型RoBERTa
‑
middle
‑
med、健康医疗领域第二大型预训练语言模型RoBERTa
‑
big
‑
med:S4121,在健康医疗领域第二微型预训练语言模型RoBERTa
‑
small
‑
med、健康医疗领域第二中型预训练语言模型RoBERTa
‑
middle
‑
med、健康医疗领域第二大型预训练语言模型RoBERTa
‑
big
‑
med的最后一层分别接入softmax神经网络层,分别得到健康医疗领域第二微型文本分类模型RoBERTa
‑
small
‑
med
‑
cls、健康医疗领域第二中型文本分类模型RoBERTa
‑
middle
‑
med
‑
cls和健康医疗领域第二大型文本分类模型RoBERTa
‑
big
‑
med
‑
cls;S4122,将第一尺度数据集、第二尺度数据集和第三尺度数据集中的文本和对应的分类标签分别送入健康医疗领域第二微型文本分类模型RoBERTa
‑
small
‑
med
‑
cls、健康医疗领域第二中型文本分类模型RoBERTa
‑
middle
‑
med
‑
cls和健康医疗领域第二大型文本分类模型RoBERTa
‑
big
‑
med
‑
cls进行训练,当训练完成后去除三个模型最后一层的softmax神经网络层,得到3个第二文本特征抽取器,分别为健康医疗领域第二微型文本特征抽取器RoBERTa
‑
small
‑
med
‑
cls
‑
extractor、健康医疗领域第二中型文本特征抽取器RoBERTa
‑
middle
‑
med
‑
cls
‑
extractor和健康医疗领域第二大型文本特征抽取器RoBERTa
‑
big
‑
med
‑
cls
‑
extractor;S4123,将第一尺度数据集、第二尺度数据集和第三尺度数据集中来自同一篇健康医疗文本的三篇文本分别送入健康医疗领域第二微型文本特征抽取器RoBERTa
‑
small
‑
med
‑
cls
‑
extractor、健康医疗领域第二中型文本特征抽取器RoBERTa
‑
middle
‑
med
‑
cls
‑
extractor和健康医疗领域第二大型文本特征抽取器RoBERTa
‑
big
‑
med
‑
cls
‑
extractor,经过每一个第二文本特征抽取器的第一层和最后一层所有字的向量表示求平均,得到3个第二文本高维语义向量,分别为第二微型文本高维语义向量RoBERTa
‑
small
‑
med
‑
cls
‑
first
‑
last
‑
layer
‑
average
‑
pooling
‑
embedding、第二中型文本高维语义向量RoBERTa
‑
middle
‑
med
‑
cls
‑
first
‑
last
‑
layer
‑
average
‑
pooling
‑
embedding、第二大型文本高维语义向量RoBERTa
‑
big
‑
med
‑
cls
‑
first
‑
last
‑
layer
‑
average
‑
pooling
‑
embedding;然后将3个第二文本高维语义向量进行叠加融合为健康医疗领域第二文本特征融合向量RoBERTa
‑
med
‑
cls
‑
fuse
‑
embedding;S4124,基于CatBoost模型或者lightbgm模型建立第二集成学习分类器,将大量健康医疗领域第二文本特征融合向量RoBERTa
‑
med
‑
cls
‑
fuse
‑
embedding以及对应的分类标签送入第二集成学习分类器进行训练,训练完成后得到第二融合不同尺度文本语义特征理解的文本类别分类器RoBERTa
‑
med
‑
fuse
‑
cls;S4130,对于健康医疗领域第三微型预训练语言模型ERNIE
‑
Doc
‑
small
‑
med、健康医疗领域第三中型预训练语言模型ERNIE
‑
Doc
‑
middle
‑
med、健康医疗领域第三大型预训练语言模型ERNIE
‑
Doc
‑
big
‑
med:S4131,在健康医疗领域第三微型预训练语言模型ERNIE
‑
Doc
‑
small
‑
med、健康医疗领域第三中型预训练语言模型ERNIE
‑
Doc
‑
middle
‑
med、健康医疗领域第三大型预训练语言模型ERNIE
‑
Doc
‑
big
‑
med的最后一层分别接入softmax神经网络层,分别得到健康医疗领域第三微型文本分类模型ERNIE
‑
Doc
‑
small
‑
med
‑
cls、健康医疗领域第三中型文本分类模型ERNIE
‑
Doc
‑
middle
‑
med
‑
cls和健康医疗领域第三大型文本分类模型ERNIE
‑
Doc
‑
big
‑
med
‑
cls;S4132,将第一尺度数据集、第二尺度数据集和第三尺度数据集中的文本和对应的分类标签分别送入健康医疗领域第三微型文本分类模型ERNIE
‑
Doc
‑
small
‑
med
‑
cls、健康医疗领域第三中型文本分类模型ERNIE
‑
Doc
‑
middle
‑
med
‑
cls和健康医疗领域第三大型文本分类模型ERNIE
‑
Doc
‑
big
‑
med
‑
cls进行训练,当训练完成后去除三个模型最后一层的softmax神经网络层,得到3个第三文本特征抽取器,分别为健康医疗领域第三微型文本特征抽取器ERNIE
‑
Doc
‑
small
‑
med
‑
cls
‑
extractor、健康医疗领域第三中型文本特征抽取器ERNIE
‑
Doc
‑
middle
‑
med
‑
cls
‑
extractor和健康医疗领域第三大型文本特征抽取器ERNIE
‑
Doc
‑
big
‑
med
‑
cls
‑
extractor;S4133,将第一尺度数据集、第二尺度数据集和第三尺度数据集中来自同一篇健康医疗文本的三篇文本分别送入健康医疗领域第三微型文本特征抽取器ERNIE
‑
Doc
‑
small
‑
med
‑
cls
‑
extractor、健康医疗领域第三中型文本特征抽取器ERNIE
‑
Doc
‑
middle
‑
med
‑
cls
‑
extractor和健康医疗领域第三大型文本特征抽取器ERNIE
‑
Doc
‑
big
‑
med
‑
cls
‑
extractor,经过每一个第三文本特征抽取器的第一层和最后一层所有字的向量表示求平均,得到3个第三文本高维语义向量,分别为第三微型文本高维语义向量ERNIE
‑
Doc
‑
small
‑
med
‑
cls
‑
first
‑
last
‑
layer
‑
average
‑
pooling
‑
embedding、第三中型文本高维语义向量ERNIE
‑
Doc
‑
middle
‑
med
‑
cls
‑
first
‑
last
‑
layer
‑
average
‑
p...
【专利技术属性】
技术研发人员:顾勤,宋梓语,赵婷,李正,曾怡,
申请(专利权)人:成都健康医联信息产业有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。