一种长文本中敏感数据的标注方法、系统、设备及介质技术方案

技术编号:42660779 阅读:35 留言:0更新日期:2024-09-10 12:18
本发明专利技术适用于数据处理技术领域,提供了一种长文本中敏感数据的标注方法、系统、设备及介质,其方法包括:获取预处理后的包括敏感数据和非敏感数据的初始长文本数据;构建基于TF‑IDF方法提取特征的自然语言处理模型,将初始长文本数据作为训练样本输入至自然语言处理模型中进行训练;基于训练完成后输出的目标长文本数据确定关键词和所述关键词的权重,关键词表示所述目标长文本数据中的敏感数据;将目标长文本数据切割为若干片段,并选取若干片段中包含关键词的片段;基于关键词的权重将包含关键词的片段进行排序,根据排序结果依次标注敏感数据。通过训练模型和计算关键词及其权重,提高敏感数据的标注效率。

【技术实现步骤摘要】

本专利技术涉及数据处理,特别涉及一种长文本中敏感数据的标注方法、系统、设备及介质


技术介绍

1、随着互联网和大数据技术的发展,越来越多的敏感数据被收集、存储和分享,在使用和分享过程中为了保证数据的安全性需要进行数据标注。一方面是收集和共享的数据包含用户的隐私信息,例如姓名、身份证号和银行卡号等。另一方面是收集和共享的数据可能为敏感数据,如金融数据和军事数据等。在收集和共享过程中,数据拥有者无法限制数据的使用,并且在数据传输、存储和处理过程中很容易受到第三方攻击。目前传统的敏感数据标注只针对短文本,这样就导致长文本中的敏感数据违法精准地标注出来。而针对长文本中敏感数据的标注比较多的是采用自然语言处理的技术,而这类技术的标注方法较为复杂,需要大量数据的训练计算资源,这就容易导致结果出现误差的问题。

2、鉴于此,需要一种长文本中敏感数据的标注方法、系统、设备及介质。


技术实现思路

1、本申请实施例提供了一种长文本中敏感数据的标注方法、系统、设备及介质,用于解决文本中敏感数据的标注因计算复杂结构容易出现本文档来自技高网...

【技术保护点】

1.一种长文本中敏感数据的标注方法,其特征在于,包括:

2.根据权利要求1所述的长文本中敏感数据的标注方法,其特征在于,所述基于训练完成后输出的目标长文本数据确定关键词和所述关键词的权重,包括:

3.根据权利要求2所述的长文本中敏感数据的标注方法,其特征在于,所述共现频率权重的表达式如下:

4.根据权利要求2所述的长文本中敏感数据的标注方法,其特征在于,所述上下文相关性权重的表达式如下:

5.根据权利要求2所述的长文本中敏感数据的标注方法,其特征在于,所述关键词的目标权重的表达式如下:

6.根据权利要求1所述的长文本中敏感数据的...

【技术特征摘要】

1.一种长文本中敏感数据的标注方法,其特征在于,包括:

2.根据权利要求1所述的长文本中敏感数据的标注方法,其特征在于,所述基于训练完成后输出的目标长文本数据确定关键词和所述关键词的权重,包括:

3.根据权利要求2所述的长文本中敏感数据的标注方法,其特征在于,所述共现频率权重的表达式如下:

4.根据权利要求2所述的长文本中敏感数据的标注方法,其特征在于,所述上下文相关性权重的表达式如下:

5.根据权利要求2所述的长文本中敏感数据的标注方法,其特征在于,所述关键词的目标权重的表达式如下:

6.根据权利要求1所述的长文本中敏感数据的标注方法,其特征在于,所述构建基于tf-idf方法提取特征的自然语言处理模型,将所述...

【专利技术属性】
技术研发人员:符华蒙亮石磊王松农淳凯陈丽娜肖春林贵才
申请(专利权)人:广西电网有限责任公司南宁供电局
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1