文本脱敏模型的训练方法、文本脱敏方法及应用技术

技术编号:37178423 阅读:17 留言:0更新日期:2023-04-20 22:46
本发明专利技术公开了一种文本脱敏模型的训练方法、文本脱敏方法及应用,该文本脱敏模型的训练方法包括:基于含有标签信息的样本集,训练得到初始模型;基于所述初始模型,确定待脱敏文本中各个词的标签概率分布;基于所述待脱敏文本中各个词的标签概率分布,确定所述待脱敏文本是否为低置信度样本;若是,获取所述待脱敏文本中各个词的标签,并作为训练样本对所述初始模型进行增量训练。本发明专利技术提供的文本脱敏模型的训练方法,一方面可以快速干预错误脱敏的数据,另一方面可以在不同场景下进行带个性化的快速部署;同时,随着使用场景的增加与模型迭代更新,模型部署的时间将不断缩短。模型部署的时间将不断缩短。模型部署的时间将不断缩短。

【技术实现步骤摘要】
文本脱敏模型的训练方法、文本脱敏方法及应用


[0001]本专利技术是关于计算机数据处理领域,特别是关于一种文本脱敏模型的训练方法及装置、文本脱敏方法及装置、电子设备及计算机可读介质。

技术介绍

[0002]随着互联网技术的发展,用户的隐私以及文件中重要信息变得不再安全,为了保证用户的隐私以及文件中重要信息的安全性,出现了文本脱敏技术。文本脱敏技术是指将用户的隐私或者文件中较为重要的信息进行替换或者进行数据的变形,从而保证用户隐私中重要信息以及文件中重要信息的安全性。现有的文本脱敏方案,文本语义特征抽取能力较弱,对于部分敏感数据识别效果较差,难以实现不同场景下文本脱敏模型的快速部署。
[0003]因此,针对上述技术问题,有必要提供一种新的文本脱敏模型的训练方法、文本脱敏方法及应用。

技术实现思路

[0004]本专利技术的目的在于提供一种文本脱敏模型的训练方法、文本脱敏方法及应用,其具有较佳的敏感数据识别效果,且能够实现不同场景下的文本脱敏模型快速部署。
[0005]为实现上述目的,本专利技术提供的技术方案如下:第一方面,本专利技术提供了一种文本脱敏模型的训练方法,其包括:基于含有标签信息的样本集,训练得到初始模型;基于所述初始模型,确定待脱敏文本中各个词的标签概率分布;基于所述待脱敏文本中各个词的标签概率分布,确定所述待脱敏文本是否为低置信度样本;若是,获取所述待脱敏文本中各个词的标签,并作为训练样本对所述初始模型进行增量训练。
[0006]在一个或多个实施方式中,基于含有标签信息的样本集,训练得到初始模型,具体包括:为预处理后的文本语料中的各个词标注标签;利用词典将标注标签后的文本语料映射为序列化的文本表示;将所述序列化的文本裁剪或填充为固定长度,以获得含有标签信息的样本集;基于所述样本集,对神经网络模型进行训练,以获得初始模型。
[0007]在一个或多个实施方式中,基于所述样本集,对神经网络模型进行训练,具体包括:将所述样本集中的各样本映射为向量化样本;获取所述向量化样本中各个词的上下文语义信息;基于所述语义信息,确定所述向量化样本中各个词的标签概率分布;基于所述标签概率分布,预测所述样本集中各样本的各个词的标签;基于所述预测的标签和所述标注的标签,计算损失误差,以修正神经网络模型的参数。
[0008]在一个或多个实施方式中,基于所述初始模型,确定待脱敏文本中各个词的标签概率分布,具体包括:基于所述初始模型,获取待脱敏文本中各个词的上下文语义信息;基于所述语义
信息,确定所述待脱敏文本中各个词的标签概率分布。
[0009]在一个或多个实施方式中,基于所述待脱敏文本中各个词的标签概率分布,确定所述待脱敏文本是否为低置信度样本,具体包括:基于所述待脱敏文本中各个词的标签概率分布,确定各所述标签概率分布中的最大概率标签为所述待脱敏文本中各个词的预测标签;当所述待脱敏文本中任一个词的预测标签为脱敏标签,且该词的预测标签对应的标签概率小于第一阈值时,所述待脱敏文本确定为低置信度样本。
[0010]在一个或多个实施方式中,基于所述待脱敏文本中各个词的标签概率分布,确定所述待脱敏文本是否为低置信度样本,具体包括:基于所述待脱敏文本中各个词的标签概率分布,确定各所述标签概率分布中的最大概率标签为所述待脱敏文本中各个词的预测标签;当所述待脱敏文本中任一个词的预测标签为非脱敏标签,且该词的预测标签对应的标签概率小于第二阈值,且该词的标签概率分布中概率最大的三个标签中具有脱敏标签时,所述待脱敏文本确定为低置信度样本。
[0011]在一个或多个实施方式中,基于所述待脱敏文本中各个词的标签概率分布,确定所述待脱敏文本是否为低置信度样本,具体包括:基于所述待脱敏文本中各个词的标签概率分布,计算各个词的标签概率分布的标准差;当所述待脱敏文本中任一个词的标签概率分布的标准差小于第三阈值时,所述待脱敏文本确定为低置信度样本。
[0012]第二方面,本专利技术提供了一种文本脱敏方法,其包括:基于如前所述的文本脱敏模型的训练方法,训练得到文本脱敏模型;基于所述文本脱敏模型,对待脱敏文本进行脱敏。
[0013]第三方面,本专利技术提供了一种文本脱敏模型的训练装置,其包括:预训练模块,用于基于含有标签信息的样本集,训练得到初始模型;第一确定模块,用于基于所述初始模型,确定待脱敏文本中各个词的标签概率分布;第二确定模块,用于基于所述待脱敏文本中各个词的标签概率分布,确定所述待脱敏文本是否为低置信度样本;增量训练模块,用于在所述待脱敏文本确定为低置信度样本时,获取所述待脱敏文本中各个词的标签,以作为训练样本对所述初始模型进行增量训练。
[0014]第四方面,本专利技术提供了一种文本脱敏模装置,其特征在于,包括:训练模块,用于基于如前所述的文本脱敏模型的训练方法,训练得到文本脱敏模型;脱敏模块,用于基于所述文本脱敏模型,对待脱敏文本进行脱敏。
[0015]第五方面,本专利技术提供了一种电子设备,包括存储器、处理器、以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如前所述的文本脱敏模型的训练方法和文本脱敏方法。
[0016]第六方面,本专利技术提供了一种计算机可读介质,所述计算机可读介质中承载有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如前所述的文本脱敏模型的训练方法和文本脱敏方法。
[0017]与现有技术相比,本专利技术提供的文本脱敏模型的训练方法、文本脱敏方法及应用,通过初始模型预测待脱敏文本的标签概率分布序列,以筛选出低置信度的样本,并获取低置信度的样本标签信息,以作为训练样本送入初始模型进行增量训练;一方面可以快速干
预错误脱敏的数据,另一方面可以在不同场景下进行带个性化的快速部署;同时,随着使用场景的增加与模型迭代更新,模型部署的时间将不断缩短。
附图说明
[0018]图1是本专利技术一实施方式中脱敏系统的系统架构示意图;图2是本专利技术一实施方式中文本脱敏模型的训练方法的流程图;图3是本专利技术一实施方式中文本脱敏方法的流程图;图4是本专利技术一实施方式中文本脱敏模型的训练装置的结构框图;图5是本专利技术一实施方式中文本脱敏装置的结构框图;图6是本专利技术一实施方式中电子设备的结构框图。
具体实施方式
[0019]下面结合附图,对本专利技术的具体实施方式进行详细描述,但应当理解本专利技术的保护范围并不受具体实施方式的限制。
[0020]除非另有其它明确表示,否则在整个说明书和权利要求书中,术语“包括”或其变换如“包含”或“包括有”等等将被理解为包括所陈述的元件或组成部分,而并未排除其它元件或其它组成部分。
[0021]为了方便理解本申请的技术方案,下面首先对本专利技术中可能出现的技术术语进行详细解释。
[0022]医疗文本:是指用于描述所属对象的医学属性的文本。例如,医疗文本可用于描述所属对象的名字、地址、电话,或者所患疾病的类型(名称)、分期、症状,或者用于描述所属对象使用的药品,或者用于描述所属对象所进行的治疗方案本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本脱敏模型的训练方法,其特征在于,包括:基于含有标签信息的样本集,训练得到初始模型;基于所述初始模型,确定待脱敏文本中各个词的标签概率分布;基于所述待脱敏文本中各个词的标签概率分布,确定所述待脱敏文本是否为低置信度样本;若是,获取所述待脱敏文本中各个词的标签,并作为训练样本对所述初始模型进行增量训练。2.如权利要求1所述的文本脱敏模型的训练方法,其特征在于,基于含有标签信息的样本集,训练得到初始模型,具体包括:为预处理后的文本语料中的各个词标注标签;利用词典将标注标签后的文本语料映射为序列化的文本表示;将所述序列化的文本裁剪或填充为固定长度,以获得含有标签信息的样本集;基于所述样本集,对神经网络模型进行训练,以获得初始模型。3.如权利要求2所述的文本脱敏模型的训练方法,其特征在于,基于所述样本集,对神经网络模型进行训练,具体包括:将所述样本集中的各样本映射为向量化样本;获取所述向量化样本中各个词的上下文语义信息;基于所述语义信息,确定所述向量化样本中各个词的标签概率分布;基于所述标签概率分布,预测所述样本集中各样本的各个词的标签;基于所述预测的标签和所述标注的标签,计算损失误差,以修正神经网络模型的参数。4.如权利要求1所述的文本脱敏模型的训练方法,其特征在于,基于所述初始模型,确定待脱敏文本中各个词的标签概率分布,具体包括:基于所述初始模型,获取待脱敏文本中各个词的上下文语义信息;基于所述语义信息,确定所述待脱敏文本中各个词的标签概率分布。5.如权利要求1所述的文本脱敏模型的训练方法,其特征在于,基于所述待脱敏文本中各个词的标签概率分布,确定所述待脱敏文本是否为低置信度样本,具体包括:基于所述待脱敏文本中各个词的标签概率分布,确定各所述标签概率分布中的最大概率标签为所述待脱敏文本中各个词的预测标签;当所述待脱敏文本中任一个词的预测标签为脱敏标签,且该词的预测标签对应的标签概率小于第一阈值时,所述待脱敏文本确定为低置信度样本。6.如权利要求1所述的文本脱敏模型的训练方法,其特征在于,基于所述待脱敏文本中各个词的标签概率分布,确定所述待脱敏...

【专利技术属性】
技术研发人员:唐小雅王永明徐刚李思泽
申请(专利权)人:杭州太美星程医药科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1