文本脱敏模型的训练方法、文本脱敏方法及应用技术

技术编号：37178423 阅读：46 留言：0更新日期：2023-04-20 22:46

本发明专利技术公开了一种文本脱敏模型的训练方法、文本脱敏方法及应用，该文本脱敏模型的训练方法包括：基于含有标签信息的样本集，训练得到初始模型；基于所述初始模型，确定待脱敏文本中各个词的标签概率分布；基于所述待脱敏文本中各个词的标签概率分布，确定所述待脱敏文本是否为低置信度样本；若是，获取所述待脱敏文本中各个词的标签，并作为训练样本对所述初始模型进行增量训练。本发明专利技术提供的文本脱敏模型的训练方法，一方面可以快速干预错误脱敏的数据，另一方面可以在不同场景下进行带个性化的快速部署；同时，随着使用场景的增加与模型迭代更新，模型部署的时间将不断缩短。模型部署的时间将不断缩短。模型部署的时间将不断缩短。

全部详细技术资料下载

【技术实现步骤摘要】
文本脱敏模型的训练方法、文本脱敏方法及应用

[0001]本专利技术是关于计算机数据处理领域，特别是关于一种文本脱敏模型的训练方法及装置、文本脱敏方法及装置、电子设备及计算机可读介质。

技术介绍

[0002]随着互联网技术的发展，用户的隐私以及文件中重要信息变得不再安全，为了保证用户的隐私以及文件中重要信息的安全性，出现了文本脱敏技术。文本脱敏技术是指将用户的隐私或者文件中较为重要的信息进行替换或者进行数据的变形，从而保证用户隐私中重要信息以及文件中重要信息的安全性。现有的文本脱敏方案，文本语义特征抽取能力较弱，对于部分敏感数据识别效果较差，难以实现不同场景下文本脱敏模型的快速部署。
[0003]因此，针对上述技术问题，有必要提供一种新的文本脱敏模型的训练方法、文本脱敏方法及应用。

技术实现思路

[0004]本专利技术的目的在于提供一种文本脱敏模型的训练方法、文本脱敏方法及应用，其具有较佳的敏感数据识别效果，且能够实现不同场景下的文本脱敏模型快速部署。
[0005]为实现上述目的，本专利技术提供...

【技术保护点】

【技术特征摘要】
1.一种文本脱敏模型的训练方法，其特征在于，包括：基于含有标签信息的样本集，训练得到初始模型；基于所述初始模型，确定待脱敏文本中各个词的标签概率分布；基于所述待脱敏文本中各个词的标签概率分布，确定所述待脱敏文本是否为低置信度样本；若是，获取所述待脱敏文本中各个词的标签，并作为训练样本对所述初始模型进行增量训练。2.如权利要求1所述的文本脱敏模型的训练方法，其特征在于，基于含有标签信息的样本集，训练得到初始模型，具体包括：为预处理后的文本语料中的各个词标注标签；利用词典将标注标签后的文本语料映射为序列化的文本表示；将所述序列化的文本裁剪或填充为固定长度，以获得含有标签信息的样本集；基于所述样本集，对神经网络模型进行训练，以获得初始模型。3.如权利要求2所述的文本脱敏模型的训练方法，其特征在于，基于所述样本集，对神经网络模型进行训练，具体包括：将所述样本集中的各样本映射为向量化样本；获取所述向量化样本中各个词的上下文语义信息；基于所述语义信息，确定所述向量化样本中各个词的标签概率分布；基于所述标签概率分布，预测所述样本集中各样本的各个词的标签；基于所述预测的标签和所述标注的标签，计算损失误差，以修正神经网络模型的参数。4.如权利要求1所述的文本脱敏模型的训练方法，其特征在于，基于所述初始模型，确定待脱敏文本中各个词的标签概率分布，具体包括：基于所述初始模型，获取待脱敏文本中各个词的上下文语义信息；基于所述语义信息，确定所述待脱敏文本中各个词的标签概率分布。5.如权利要求1所述的文本脱敏模型的训练方法，其特征在于，基于所述待脱敏文本中各个词的标签概率分布，确定所述待脱敏文本是否为低置信度样本，具体包括：基于所述待脱敏文本中各个词的标签概率分布，确定各所述标签概率分布中的最大概率标签为所述待脱敏文本中各个词的预测标签；当所述待脱敏文本中任一个词的预测标签为脱敏标签，且该词的预测标签对应的标签概率小于第一阈值时，所述待脱敏文本确定为低置信度样本。6.如权利要求1所述的文本脱敏模型的训练方法，其特征在于，基于所述待脱敏文本中各个词的标签概率分布，确定所述待脱敏...

【专利技术属性】
技术研发人员：唐小雅，王永明，徐刚，李思泽，
申请(专利权)人：杭州太美星程医药科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人