【技术实现步骤摘要】
一种文本敏感信息检测方法、装置、设备及存储介质
[0001]本专利技术涉及深度学习
,特别涉及一种文本敏感信息检测方法
、
装置
、
设备及存储介质
。
技术介绍
[0002]为了解决隐私泄露的问题,数据脱敏技术应运而生
。
数据脱敏技术流程为首先对敏感信息进行识别,然后对识别出来的敏感信息进行替换
、
加密等脱敏操作
。
[0003]目前,传统的敏感识别方法为人为指定或者使用正则表达式对文本进行匹配识别等,此类方式只能对单一数据项进行整体识别,识别范围小
、
不够灵活,并且无法对长文本中出现的敏感信息进行精准识别
。
因此,如何对长文本中出现的敏感信息进行精准识别是需要解决的
。
技术实现思路
[0004]有鉴于此,本专利技术的目的在于提供一种文本敏感信息检测方法
、
装置
、
设备及存储介质,能够对长文本中出现的敏感信息进行精准识别
...
【技术保护点】
【技术特征摘要】
1.
一种文本敏感信息检测方法,其特征在于,包括:基于预设文本处理方法对获取到的待检测文本进行文本预处理以得到处理后文本;基于预设训练语料长度和预设词嵌入模型对所述处理后文件进行转化拼接以得到目标文本向量;基于预设目标识别模型构建目标敏感信息检测模型,并将所述目标文本向量输入至所述目标敏感信息检测模型中以得到目标识别结果;基于所述目标识别结果确定所述待检测文本的敏感信息识别结果
。2.
根据权利要求1所述的文本敏感信息检测方法,其特征在于,所述基于预设文本处理方法对获取到的待检测文本进行文本预处理以得到处理后文本,包括:基于双向最大匹配算法对获取到的待检测文本进行分词处理以得到分词后文本;对所述分词后文本中的字符进行调整以得到处理后文本
。3.
根据权利要求1所述的文本敏感信息检测方法,其特征在于,所述基于预设训练语料长度和预设词嵌入模型对所述处理后文件进行转化拼接以得到目标文本向量,包括:基于预设语料长度对所述处理后文件中的字符长度调整为目标长度以得到调整后文本;基于连续词袋模型将所述调整后文本中的字符转化为词向量,并将所有所述词向量进行拼接以得到目标文本向量
。4.
根据权利要求3所述的文本敏感信息检测方法,其特征在于,所述基于预设语料长度对所述处理后文件中的字符长度调整为目标长度以得到调整后文本,包括:基于预设填充代码指令和预设语料长度将所述处理后文件中的字符长度调整至目标长度以得到调整后文本
。5.
根据权利要求1所述的文本敏感信息检测方法,其特征在于,所述基于预设目标识别模型构建目标敏感信息检测模型,包括:对
Faster R
‑
CNN
...
【专利技术属性】
技术研发人员:贾荫鹏,李彬,孙善宝,罗清彩,李锐,
申请(专利权)人:山东浪潮科学研究院有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。