一种健康医疗文本自动分类和安全等级自动分级方法技术

技术编号:34081872 阅读:12 留言:0更新日期:2022-07-11 19:04
本发明专利技术提供一种健康医疗文本自动分类和安全等级自动分级方法,包括:分别基于albert神经网络模型、RoBERTa神经网络模型和ERNIE

【技术实现步骤摘要】
一种健康医疗文本自动分类和安全等级自动分级方法


[0001]本专利技术涉及健康医疗文本处理
,具体而言,涉及一种健康医疗文本自动分类和安全等级自动分级方法。

技术介绍

[0002]健康医疗大数据正成为我国重要的基础性战略资源,但在医疗健康领域,目前针对海量健康医疗文本数据的自动分类和自动分级尚没有高效、准确的方法。(1)健康医疗文本自动分类:健康医疗文本自动分类技术可以为不同的文本打上各类标签(1个到若干个),为海量医疗健康文本快速高效的类别分类、相似电子病例检索、机器人辅助诊断、医院智能导诊和医疗机器人智能问答等智慧健康医疗领域提供必要的数据理解技术。(2)健康医疗文本自动分级:健康医疗文本安全分级的目的是为了对数据采取更合理的安全管理和保护,对不同安全级别的数据进行自动标记区分,明确不同级别数据的访问人员和访问方式,采取的安全保护措施。准确清晰的健康医疗数据分级技术,将为建立完善的健康医疗数据生命周期保护框架奠定基础,从而规范和推动健康医疗数据的融合共享、开放应用。
[0003]近些年来,大型互联网科技公司普遍使用机器学习、深度学习、预训练模型等技术来进行海量文本自动分类,以满足其系统在文本分类和内容分发、商品推荐、搜索引擎、智能问答、内容理解和内容安全防护等应用场景的需求。在基于人工智能技术的文本自动分类领域,文本特征抽取技术和将文本语义表示再进行分类的技术是重难点,目前对健康医疗文本的自动分类、分级技术还不够成熟,尤其是对健康医疗文本的安全等级自动分级技术还较少,同时,对健康医疗文本的特征抽取及语义理解还不够充分,在特定领域的文本分类上主要的技术路线是对文本全文进行特征抽取和语义理解,然后将固定维度的特征向量输入含有softmax神经网络的全连接层进行文本分类,目前的分类效果还有待提高,所以需要在特征抽取和分类方法上进行改进和提高,从而提高健康医疗文本自动分类的准确性。
[0004]传统的技术方案具体为:传统的机器学习方法主要利用自然语言处理领域中的基于统计语言模型中n

gram思想对文本进行特征提取,利用词频

逆文档频率对n

gram特征进行计算和语义表示,然后将提取到的文本特征输入到逻辑回归、朴素贝叶斯等分类器中进行训练,最终得到文本分类模型。但是,上述基于词频

逆文档频率的特征提取方法可能存在特征数据稀疏和向量维度爆炸等问题,这对以上分类器来说是灾难性的,并使得训练的机器学习模型泛化能力有限。
[0005]在深度学习技术兴起之后,基于卷积神经网络CNN、循环神经网络RNN、长短期记忆人工神经网络LSTM等神经网络的特征抽取器使得文本分类技术的效果有所提高,近几年BERT、GPT、XLNet等基于大规模预料进行无监督学习的预训练语言模型的出现,使得利用少量标注数据进行模型微调训练就能实现譬如文本分类、命名实体识别、文本对匹配等具体任务,但是对这些预训练模型进行下游任务的微调时由于其预训练使用的数据与下游任务中的具体领域数据语义特征分布并不一定相匹配,因此会影响预训练模型的性能,导致下游任务无法达到很好的效果。
[0006]再者,目前的文本分类技术主要是单独使用基于Transfomer类形成的语义特征抽取模型对文本全文进行特征抽取和语义信息理解,但是文本全文本身存在一定的冗余信息,这种方法就存在一定的局限性,无法对同一篇含有不同尺度文本语义信息(微观、较宏观、宏观)进行特征提取和融合,同时模型对文本核心信息和关键信息的重视度和注意力较低,导致不能充分地理解一篇文章的整体语义信息。此外,在最终的分类上主要是通过含有softmax神经网络分类层的方法,最终分类结果的可解释性较弱,文本分类效果还有待提高。而且,通过Transformer模型(如Bert、GPT

2模型内部的特征抽取器)抽取后的向量表达会产生各向异性,表现状态就是向量会不均匀分布,且充斥在一个狭窄的锥形空间下,低频词离原点远,分布稀疏,高频词向量离原点近,分布紧密,这都是仅使用BERT类模型特征抽取器中最后一层的[cls]向量表达(解释:在BERT输入的每一个序列开头都插入特定的分类token([CLS]),该分类token对应的最后一个Transformer层输出被用来起到聚集整个序列表征信息的作用),导致最终文本分类效果不好的原因。
[0007]综上所述,传统的技术方案存在如下问题:在基于人工智能技术的文本自动分类领域,文本特征抽取和通过文本语义表示后进行分类是重难点,目前对健康医疗文本的自动分类、安全分级技术还不够成熟,尤其是对健康医疗文本的自动安全分级技术还较少,同时,由于健康医疗文本中领域性专有名词较多,目前基于全文文本的自然语言理解模型技术对健康医疗文本的特征抽取及核心语义理解还不够充分,在特定领域的文本分类上主要的技术路线是对文本全文进行特征抽取和语义理解,然后将固定维度的特征向量输入含有softmax神经网络的全连接层进行文本分类,目前的分类效果还有待提高,所以需要在特征抽取和语义理解方法和最终的分类方法上进行改进和提高,从而提高健康医疗文本自动分类、安全等级自动分级的准确性。

技术实现思路

[0008]本专利技术旨在提供一种健康医疗文本自动分类和安全等级自动分级方法,以解决现有技术中使用单一的深度学习算法对健康医疗文本的语义理解不充分,同时由于健康医疗文本中领域性专有名词较多,导致目前基于深度学习技术的自动分类、自动分级的效果不好的技术问题,同时可以结合传统机器学习的文本分类技术技术使得分类模型的可解释性更好,最终提高健康医疗文本自动分类、安全等级自动分级的准确性。
[0009]本专利技术提供的一种健康医疗文本自动分类和安全等级自动分级方法,包括如下步骤:S100,分别基于albert神经网络模型、RoBERTa神经网络模型和ERNIE

Doc神经网络模型构造不同尺度文本语义特征理解的预训练模型;S200,对构造的预训练模型分别进行两次预训练,得到针对健康医疗领域的预训练语言模型;S300,通过对实际健康医疗业务中所用的健康医疗文本进行人工标注得到含有不同尺度文本语义的文本数据集;S400,针对下游分类任务对预训练语言模型进行改造,并利用含有不同尺度文本语义的数据集进行训练,得到融合不同尺度文本语义特征理解的文本类别分类器和文本安全等级分类器;
S500,利用融合不同尺度文本语义特征理解的文本类别分类器和文本安全等级分类器对健康医疗文本进行自动分类和安全等级自动分级。
[0010]进一步的,步骤S100中分别基于albert神经网络模型、RoBERTa神经网络模型和ERNIE

Doc神经网络模型构造不同尺度文本语义特征理解的预训练模型的方法包括:分别通过对albert神经网络模型、RoBERTa神经网络模型和ERNIE

Doc神经网络模型的特征抽取层进行改造,得到不同尺度文本语义特征理解的预训练模型:通过对albert神经网络模型的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种健康医疗文本自动分类和安全等级自动分级方法,其特征在于,包括如下步骤:S100,分别基于albert神经网络模型、RoBERTa神经网络模型和ERNIE

Doc神经网络模型构造不同尺度文本语义特征理解的预训练模型;S200,对构造的预训练模型分别进行两次预训练,得到针对健康医疗领域的预训练语言模型;S300,通过对实际健康医疗业务中所用的健康医疗文本进行人工标注得到含有不同尺度文本语义的数据集;S400,针对下游分类任务对预训练语言模型进行改造,并利用含有不同尺度文本语义的数据集进行训练,得到融合不同尺度文本语义特征理解的文本类别分类器和文本安全等级分类器;S500,利用融合不同尺度文本语义特征理解的文本类别分类器和文本安全等级分类器对健康医疗文本进行自动分类和安全等级自动分级。2.根据权利要求1所述的健康医疗文本自动分类和安全等级自动分级方法,其特征在于,步骤S100中分别基于albert神经网络模型、RoBERTa神经网络模型和ERNIE

Doc神经网络模型构造不同尺度文本语义特征理解的预训练模型的方法包括:分别通过对albert神经网络模型、RoBERTa神经网络模型和ERNIE

Doc神经网络模型的特征抽取层进行改造,得到不同尺度文本语义特征理解的预训练模型:通过对albert神经网络模型的特征抽取层进行改造,得到3个不同尺度的预训练模型,分别为第一微型预训练模型albert

small、第一中型预训练模型albert

middle和第一大型预训练模型albert

big;通过对RoBERTa神经网络模型的特征抽取层进行改造,得到3个不同尺度的预训练模型,分别为第二微型预训练模型RoBERTa

small、第二中型预训练模型RoBERTa

middle和第二大型预训练模型RoBERTa

big;通过对ERNIE

Doc神经网络模型的特征抽取层进行改造,得到3个不同尺度的预训练模型,分别为第三微型预训练模型ERNIE

Doc

small、第三中型预训练模型ERNIE

Doc

middle和第三大型预训练模型ERNIE

Doc

big。3.根据权利要求2所述的健康医疗文本自动分类和安全等级自动分级方法,其特征在于,所述第一微型预训练模型albert

small、第一中型预训练模型albert

middle和第一大型预训练模型albert

big含有不同数量的特征抽取层和自注意力头;所述第二微型预训练模型RoBERTa

small、第二中型预训练模型RoBERTa

middle和第二大型预训练模型RoBERTa

big含有不同数量的特征抽取层和自注意力头;所述第三微型预训练模型ERNIE

Doc

small、第三中型预训练模型ERNIE

Doc

middle和第三大型预训练模型ERNIE

Doc

big含有不同数量的特征抽取层和自注意力头;所述第一微型预训练模型albert

small、第二微型预训练模型RoBERTa

small和第三微型预训练模型ERNIE

Doc

small含有相同数量的特征抽取层,所述第一中型预训练模型albert

small、第二中型预训练模型RoBERTa

small和第三中型预训练模型ERNIE

Doc

small含有相同数量的特征抽取层,所述第一大型预训练模型albert

small、第二大型预训练模型RoBERTa

small和第三大型预训练模型ERNIE

Doc

small含有相同数量的特征抽取层。4.根据权利要求3所述的健康医疗文本自动分类和安全等级自动分级方法,其特征在于,步骤S200中对构造的预训练模型分别进行两次预训练,得到针对健康医疗领域的预训练语言模型的方法包括:
S201,使用大规模通用语料对不同尺度文本语义特征理解的预训练模型分别进行第一次无监督学习预训练,训练任务为在每一句话中随机遮住一定比例的字然后让预训练模型对遮住的字进行预测,从而让各个预训练模型学习通用语料知识和语义关系;S202,使用大规模健康医疗文本,并采用第一次无监督学习预训练的方法,对各个预训练模型进行第二次无监督学习预训练,得到9个训练好的预训练语言模型,分别命名为健康医疗领域第一微型预训练语言模型albert

small

med、健康医疗领域第一中型预训练语言模型albert

middle

med、健康医疗领域第一大型预训练语言模型albert

big

med,健康医疗领域第二微型预训练语言模型RoBERTa

small

med、健康医疗领域第二中型预训练语言模型RoBERTa

middle

med、健康医疗领域第二大型预训练语言模型RoBERTa

big

med,健康医疗领域第三微型预训练语言模型ERNIE

Doc

small

med、健康医疗领域第三中型预训练语言模型ERNIE

Doc

middle

med、健康医疗领域第三大型预训练语言模型ERNIE

Doc

big

med。5.根据权利要求4所述的健康医疗文本自动分类和安全等级自动分级方法,其特征在于,在第二次无监督学习预训练的过程中,需要通过正则化和降低学习率的方法,避免预训练的过程中产生知识灾难遗忘的情况。6.根据权利要求5所述的健康医疗文本自动分类和安全等级自动分级方法,其特征在于,步骤S300中通过对实际健康医疗业务中所用的健康医疗文本进行人工标注得到含有不同尺度文本语义的数据集的方法包括:S301,收集实际健康医疗业务中所用的健康医疗文本,记为1号健康医疗文本;对1号健康医疗文本进行分类和安全等级的人工标注,将1号健康医疗文本和标注的分类和安全等级标签存储为第三尺度数据集;S302,对1号健康医疗文本全文进行摘要抽取,将抽取的摘要作为记为2号健康医疗文本;对2号健康医疗文本全文进行分类和安全等级的人工标注,将2号健康医疗文本和标注的分类和安全等级标签存储为第二尺度数据集;S303,对2号健康医疗文本进行进行关键词提取,将提取的关键词作为3号健康医疗文本;对3号健康医疗文本进行分类和安全等级的人工标注,将3号健康医疗文本和标注的分类和安全等级标签存储为第一尺度数据集。7.根据权利要求6所述的健康医疗文本自动分类和安全等级自动分级方法,其特征在于,S400中针对下游分类任务对预训练语言模型进行改造,并利用含有不同尺度文本语义的数据集进行训练,得到融合不同尺度文本语义特征理解的文本类别分类器的方法包括:S4110,对于第一微型预训练语言模型albert

small

med、健康医疗领域第一中型预训练语言模型albert

middle

med、健康医疗领域第一大型预训练语言模型albert

big

med:S4111,在第一微型预训练语言模型albert

small

med、健康医疗领域第一中型预训练语言模型albert

middle

med、健康医疗领域第一大型预训练语言模型albert

big

med的最后一层分别接入softmax神经网络层,分别得到健康医疗领域第一微型文本分类模型albert

small

med

cls、健康医疗领域第一中型文本分类模型albert

middle

med

cls和健康医疗领域第一大型文本分类模型albert

big

med

cls;S4112,将第一尺度数据集、第二尺度数据集和第三尺度数据集中的文本和对应的分类标签分别送入健康医疗领域第一微型文本分类模型albert

small

med

cls、健康医疗领域
第一中型文本分类模型albert

middle

med

cls和健康医疗领域第一大型文本分类模型albert

big

med

cls进行训练,当训练完成后去除三个模型最后一层的softmax神经网络层,得到3个第一文本特征抽取器,分别为健康医疗领域第一微型文本特征抽取器albert

small

med

cls

extractor、健康医疗领域第一中型文本特征抽取器albert

middle

med

cls

extractor和健康医疗领域第一大型文本特征抽取器albert

big

med

cls

extractor;S4113,将第一尺度数据集、第二尺度数据集和第三尺度数据集中来自同一篇健康医疗文本的三篇文本分别送入健康医疗领域第一微型文本特征抽取器albert

small

med

cls

extractor、健康医疗领域第一中型文本特征抽取器albert

middle

med

cls

extractor、健康医疗领域第一大型文本特征抽取器albert

big

med

cls

extractor,经过每一个第一文本特征抽取器的第一层和最后一层所有字的向量表示求平均,得到3个第一文本高维语义向量,分别为第一微型文本高维语义向量albert

small

med

cls

first

last

layer

average

pooling

embedding、第一中型文本高维语义向量albert

middle

med

cls

first

last

layer

average

pooling

embedding、第一大型文本高维语义向量albert

big

med

cls

first

last

layer

average

pooling

embedding;然后将3个第一文本高维语义向量进行叠加融合为健康医疗领域第一文本特征融合向量albert

med

cls

fuse

embedding;S4114,基于CatBoost模型或者lightbgm模型建立第一集成学习分类器,将大量健康医疗领域第一文本特征融合向量albert

med

cls

fuse

embedding以及对应的分类标签送入第一集成学习分类器进行训练,训练完成后得到第一融合不同尺度文本语义特征理解的文本类别分类器albert

med

fuse

cls;S4120,对于健康医疗领域第二微型预训练语言模型RoBERTa

small

med、健康医疗领域第二中型预训练语言模型RoBERTa

middle

med、健康医疗领域第二大型预训练语言模型RoBERTa

big

med:S4121,在健康医疗领域第二微型预训练语言模型RoBERTa

small

med、健康医疗领域第二中型预训练语言模型RoBERTa

middle

med、健康医疗领域第二大型预训练语言模型RoBERTa

big

med的最后一层分别接入softmax神经网络层,分别得到健康医疗领域第二微型文本分类模型RoBERTa

small

med

cls、健康医疗领域第二中型文本分类模型RoBERTa

middle

med

cls和健康医疗领域第二大型文本分类模型RoBERTa

big

med

cls;S4122,将第一尺度数据集、第二尺度数据集和第三尺度数据集中的文本和对应的分类标签分别送入健康医疗领域第二微型文本分类模型RoBERTa

small

med

cls、健康医疗领域第二中型文本分类模型RoBERTa

middle

med

cls和健康医疗领域第二大型文本分类模型RoBERTa

big

med

cls进行训练,当训练完成后去除三个模型最后一层的softmax神经网络层,得到3个第二文本特征抽取器,分别为健康医疗领域第二微型文本特征抽取器RoBERTa

small

med

cls

extractor、健康医疗领域第二中型文本特征抽取器RoBERTa

middle

med

cls

extractor和健康医疗领域第二大型文本特征抽取器RoBERTa

big

med

cls

extractor;S4123,将第一尺度数据集、第二尺度数据集和第三尺度数据集中来自同一篇健康医疗文本的三篇文本分别送入健康医疗领域第二微型文本特征抽取器RoBERTa

small

med

cls

extractor、健康医疗领域第二中型文本特征抽取器RoBERTa

middle

med

cls

extractor和健康医疗领域第二大型文本特征抽取器RoBERTa

big

med

cls

extractor,经过每一个第二文本特征抽取器的第一层和最后一层所有字的向量表示求平均,得到3个第二文本高维语义向量,分别为第二微型文本高维语义向量RoBERTa

small

med

cls

first

last

layer

average

pooling

embedding、第二中型文本高维语义向量RoBERTa

middle

med

cls

first

last

layer

average

pooling

embedding、第二大型文本高维语义向量RoBERTa

big

med

cls

first

last

layer

average

pooling

embedding;然后将3个第二文本高维语义向量进行叠加融合为健康医疗领域第二文本特征融合向量RoBERTa

med

cls

fuse

embedding;S4124,基于CatBoost模型或者lightbgm模型建立第二集成学习分类器,将大量健康医疗领域第二文本特征融合向量RoBERTa

med

cls

fuse

embedding以及对应的分类标签送入第二集成学习分类器进行训练,训练完成后得到第二融合不同尺度文本语义特征理解的文本类别分类器RoBERTa

med

fuse

cls;S4130,对于健康医疗领域第三微型预训练语言模型ERNIE

Doc

small

med、健康医疗领域第三中型预训练语言模型ERNIE

Doc

middle

med、健康医疗领域第三大型预训练语言模型ERNIE

Doc

big

med:S4131,在健康医疗领域第三微型预训练语言模型ERNIE

Doc

small

med、健康医疗领域第三中型预训练语言模型ERNIE

Doc

middle

med、健康医疗领域第三大型预训练语言模型ERNIE

Doc

big

med的最后一层分别接入softmax神经网络层,分别得到健康医疗领域第三微型文本分类模型ERNIE

Doc

small

med

cls、健康医疗领域第三中型文本分类模型ERNIE

Doc

middle

med

cls和健康医疗领域第三大型文本分类模型ERNIE

Doc

big

med

cls;S4132,将第一尺度数据集、第二尺度数据集和第三尺度数据集中的文本和对应的分类标签分别送入健康医疗领域第三微型文本分类模型ERNIE

Doc

small

med

cls、健康医疗领域第三中型文本分类模型ERNIE

Doc

middle

med

cls和健康医疗领域第三大型文本分类模型ERNIE

Doc

big

med

cls进行训练,当训练完成后去除三个模型最后一层的softmax神经网络层,得到3个第三文本特征抽取器,分别为健康医疗领域第三微型文本特征抽取器ERNIE

Doc

small

med

cls

extractor、健康医疗领域第三中型文本特征抽取器ERNIE

Doc

middle

med

cls

extractor和健康医疗领域第三大型文本特征抽取器ERNIE

Doc

big

med

cls

extractor;S4133,将第一尺度数据集、第二尺度数据集和第三尺度数据集中来自同一篇健康医疗文本的三篇文本分别送入健康医疗领域第三微型文本特征抽取器ERNIE

Doc

small

med

cls

extractor、健康医疗领域第三中型文本特征抽取器ERNIE

Doc

middle

med

cls

extractor和健康医疗领域第三大型文本特征抽取器ERNIE

Doc

big

med

cls

extractor,经过每一个第三文本特征抽取器的第一层和最后一层所有字的向量表示求平均,得到3个第三文本高维语义向量,分别为第三微型文本高维语义向量ERNIE

Doc

small

med

cls

first

last

layer

average

pooling

embedding、第三中型文本高维语义向量ERNIE

Doc

middle

med

cls

first

last

layer

average

p...

【专利技术属性】
技术研发人员:顾勤宋梓语赵婷李正曾怡
申请(专利权)人:成都健康医联信息产业有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1