文本数据涉敏检测方法、装置、设备及介质制造方法及图纸

技术编号:38704838 阅读:9 留言:0更新日期:2023-09-08 14:45
本申请提供了一种文本数据涉敏检测方法、装置、设备及计算机可读介质,该申请通过根据关键词和/或正则表达式对目标文本数据进行敏感字段匹配,得到匹配结果,若所述匹配结果为所述目标文本数据包含敏感字段,则计算所述目标文本数据与标准敏感文本数据的语义相似度,若所述语义相似度大于预设相似度阈值,则判断所述目标文本数据包含敏感数据,从而能够在关键词匹配和正则表达式匹配的基础上,结合文本的语义对敏感数据进行检测,将字面检测与语义检测相结合而对目标文本数据进行全面的涉敏检测,能够有效减少误判、漏判等问题,进而更加准确地判断目标文本数据是否涉及敏感信息。准确地判断目标文本数据是否涉及敏感信息。准确地判断目标文本数据是否涉及敏感信息。

【技术实现步骤摘要】
文本数据涉敏检测方法、装置、设备及介质


[0001]本申请涉及计算机
,尤其涉及一种文本数据涉敏检测方法、装置、设备及计算机可读介质。

技术介绍

[0002]本部分旨在为权利要求书中陈述的本申请的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就被认为是现有技术。
[0003]随着数据仓库的发展,数据体量愈发增大,数据仓库内存在大量的敏感数据以及敏感文本信息,包括个人身份信息、行为轨迹信息、公司机密数据等,如何从大量的日志数据、业务数据等文本数据中快速准确地发现敏感信息是一个难点。
[0004]现有技术中,主要通过关键词匹配或者正则表达式匹配的方式进行敏感数据的检测,但这些方式只能从字面含义或字面结构进行涉敏检测,对于文本内容复杂的情形,容易存在误判、漏判等问题,整体准确度表现不佳。
[0005]鉴于此,需要提供一种准确度较高的文本数据涉敏检测技术方案。

技术实现思路

[0006]本申请的多个方面提供一种文本数据涉敏检测方法、设备及计算机可读存储介质,用以对文本数据进行涉敏检测。
[0007]本申请的一方面,提供一种文本数据涉敏检测方法,包括:
[0008]根据关键词和/或正则表达式对目标文本数据进行敏感字段匹配,得到匹配结果;
[0009]若所述匹配结果为所述目标文本数据包含敏感字段,则计算所述目标文本数据与标准敏感文本数据的语义相似度;
[0010]若所述语义相似度大于预设相似度阈值,则判断所述目标文本数据包含敏感数据。
>[0011]可选的,所述计算所述目标文本数据与标准敏感文本数据的语义相似度,包括:
[0012]根据词移距离算法确定所述目标文本数据与所述标准敏感文本数据的词移距离;
[0013]根据主题模型确定所述目标文本数据与所述标准敏感文本数据的主题分布距离,所述主题分布距离为所述目标文本数据的主题概率分布与所述标准敏感文本数据的主题概率分布的差异距离;
[0014]根据所述词移距离和所述主题分布距离确定所述目标文本数据与所述标准敏感文本数据的语义相似度。
[0015]可选的,所述根据词移距离算法确定所述目标文本数据与所述标准敏感文本数据的词移距离,包括:
[0016]分别对所述目标文本数据和所述标准敏感文本数据进行关键词提取,得到目标文本关键词集合和标准敏感文本关键词集合;
[0017]根据词移距离算法计算所述目标文本关键词集合和所述标准敏感文本关键词集
合的关键词词移距离;
[0018]将所述关键词词移距离确定为所述目标文本数据与所述标准敏感文本数据的词移距离。
[0019]可选的,在所述分别对所述目标文本数据和所述标准敏感文本数据进行关键词提取,得到目标文本关键词集合和标准敏感文本关键词集合之前,还包括:
[0020]采用预训练的BERT模型分别对所述目标文本数据和所述标准敏感文本数据进行词向量嵌入,得到所述目标文本数据和所述标准敏感文本数据中每个分词对应的词向量;
[0021]所述根据词移距离算法计算所述目标文本关键词集合和所述标准敏感文本关键词集合的关键词词移距离,包括:
[0022]根据词向量嵌入得到的每个分词对应的词向量,确定所述目标文本关键词集合和所述标准敏感文本关键词集合中每个关键词对应的词向量;
[0023]根据所述目标文本关键词集合和所述标准敏感文本关键词集合中每个关键词对应的词向量,采用词移距离算法计算所述目标文本关键词集合和所述标准敏感文本关键词集合的关键词词移距离。
[0024]可选的,所述根据主题模型确定所述目标文本数据与所述标准敏感文本数据的主题分布距离,包括:
[0025]采用LDA主题模型分别生成所述目标文本数据与所述标准敏感文本数据的主题概率分布;
[0026]计算所述目标文本数据的主题概率分布与所述标准敏感文本数据的主题概率分布之间的相对熵,将所述相对熵确定为所述目标文本数据与所述标准敏感文本数据的主题分布距离。
[0027]可选的,所述根据所述词移距离和所述主题分布距离确定所述目标文本数据与所述标准敏感文本数据的语义相似度,包括:
[0028]将所述词移距离和所述主题分布距离进行线性融合,得到所述目标文本数据与所述标准敏感文本数据的融合距离;
[0029]根据所述融合距离确定所述目标文本数据与所述标准敏感文本数据的语义相似度,其中,所述融合距离和所述语义相似度呈负相关。
[0030]可选的,所述根据所述词移距离和所述主题分布距离确定所述目标文本数据与所述标准敏感文本数据的语义相似度,包括:
[0031]根据所述词移距离计算所述目标文本数据与所述标准敏感文本数据的词移距离相似度;
[0032]根据所述主题分布距离计算所述目标文本数据与所述标准敏感文本数据的主题分布相似度;
[0033]将所述词移距离相似度和所述主题分布相似度进行线性融合,得到所述目标文本数据与所述标准敏感文本数据的语义相似度。
[0034]本申请的另一方面,提供一种文本数据涉敏检测装置,包括:
[0035]敏感字段匹配模块,用于根据关键词和/或正则表达式对目标文本数据进行敏感字段匹配,得到匹配结果;
[0036]语义相似度计算模块,用于若所述匹配结果为所述目标文本数据包含敏感字段,
则计算所述目标文本数据与标准敏感文本数据的语义相似度;
[0037]涉敏判断模块,用于若所述语义相似度大于预设相似度阈值,则判断所述目标文本数据包含敏感数据。
[0038]可选的,所述语义相似度计算模块,包括:
[0039]词移距离确定单元,用于根据词移距离算法确定所述目标文本数据与所述标准敏感文本数据的词移距离;
[0040]主题分布距离确定单元,用于根据主题模型确定所述目标文本数据与所述标准敏感文本数据的主题分布距离,所述主题分布距离为所述目标文本数据的主题概率分布与所述标准敏感文本数据的主题概率分布的差异距离;
[0041]语义相似度确定单元,用于根据所述词移距离和所述主题分布距离确定所述目标文本数据与所述标准敏感文本数据的语义相似度。
[0042]可选的,所述词移距离确定单元,包括:
[0043]关键词提取子单元,用于分别对所述目标文本数据和所述标准敏感文本数据进行关键词提取,得到目标文本关键词集合和标准敏感文本关键词集合;
[0044]关键词词移计算子单元,用于根据词移距离算法计算所述目标文本关键词集合和所述标准敏感文本关键词集合的关键词词移距离;
[0045]词移距离确定子单元,用于将所述关键词词移距离确定为所述目标文本数据与所述标准敏感文本数据的词移距离。
[0046]可选的,所述词移距离确定单元,还包括:
[0047]词向量嵌入子单元,用于采用预训练的BERT模型分别对所述目标文本数据和所述标准敏感文本数据进行词向量嵌入,得到所述目标文本数据和所本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种文本数据涉敏检测方法,其中,所述方法包括:根据关键词和/或正则表达式对目标文本数据进行敏感字段匹配,得到匹配结果;若所述匹配结果为所述目标文本数据包含敏感字段,则计算所述目标文本数据与标准敏感文本数据的语义相似度;若所述语义相似度大于预设相似度阈值,则判断所述目标文本数据包含敏感数据。2.根据权利要求1所述的文本数据涉敏检测方法,其中,所述计算所述目标文本数据与标准敏感文本数据的语义相似度,包括:根据词移距离算法确定所述目标文本数据与所述标准敏感文本数据的词移距离;根据主题模型确定所述目标文本数据与所述标准敏感文本数据的主题分布距离,所述主题分布距离为所述目标文本数据的主题概率分布与所述标准敏感文本数据的主题概率分布的差异距离;根据所述词移距离和所述主题分布距离确定所述目标文本数据与所述标准敏感文本数据的语义相似度。3.根据权利要求2所述的文本数据涉敏检测方法,其中,所述根据词移距离算法确定所述目标文本数据与所述标准敏感文本数据的词移距离,包括:分别对所述目标文本数据和所述标准敏感文本数据进行关键词提取,得到目标文本关键词集合和标准敏感文本关键词集合;根据词移距离算法计算所述目标文本关键词集合和所述标准敏感文本关键词集合的关键词词移距离;将所述关键词词移距离确定为所述目标文本数据与所述标准敏感文本数据的词移距离。4.根据权利要求3所述的文本数据涉敏检测方法,其中,在所述分别对所述目标文本数据和所述标准敏感文本数据进行关键词提取,得到目标文本关键词集合和标准敏感文本关键词集合之前,还包括:采用预训练的BERT模型分别对所述目标文本数据和所述标准敏感文本数据进行词向量嵌入,得到所述目标文本数据和所述标准敏感文本数据中每个分词对应的词向量;所述根据词移距离算法计算所述目标文本关键词集合和所述标准敏感文本关键词集合的关键词词移距离,包括:根据词向量嵌入得到的每个分词对应的词向量,确定所述目标文本关键词集合和所述标准敏感文本关键词集合中每个关键词对应的词向量;根据所述目标文本关键词集合和所述标准敏感文本关键词集合中每个关键词对应的词向量,采用词移距离算法计算所述目标文本关键词集合和所述标准敏感文本关键词集合的关键词词移距离。5.根据权利要求2所述的文本数...

【专利技术属性】
技术研发人员:伍伟豪董子平吴剑雄
申请(专利权)人:上海哔哩哔哩科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1