【技术实现步骤摘要】
一种敏感信息识别方法及系统
[0001]本专利技术涉及信息处理领域,具体涉及一种敏感信息识别方法及系统。
技术介绍
[0002]随着互联网的发展,网络中往往会存在恶意用户故意发布敏感信息和内容,比如政治类敏感信息往往具有极高的社会危害性,且涉及政治事件、政治人物等多方面识别内容,存在覆盖范围广、识别内容多、事件及人物关联性强等特征。
[0003]目前常见的敏感信息识别方法是利用深度学习算法对发布信息的文本中敏感内容进行分类、目标检测识别,模型训练效果完全依赖语料特征,难以有效提高分布稀疏、危害性高的某类敏感信息的识别覆盖能力。
技术实现思路
[0004]本专利技术实施例提供一种敏感信息识别方法及系统,用以解决模型训练效果完全依赖语料特征,难以有效提高分布稀疏、危害性高的某类敏感信息的识别覆盖能力的问题。
[0005]为达上述目的,一方面,本专利技术实施例提供一种敏感信息识别方法,包括:
[0006]获取待发布信息,基于敏感信息的字典树自待发布信息中提取表达实体的片段,将所述表达实体的片段与所述字典树中相应实体生成候选实体对,所述字典树包括实体及其指代词,所述实体是指表示敏感信息的实体文本关键词或者所述实体文本关键词相应的图片;
[0007]将所述候选实体对输入实体匹配模型对所述候选实体对中表达实体的片段与相应实体进行匹配计算,输出所述候选实体对中表达实体的片段与相应实体的匹配值;
[0008]将所述匹配值满足预设配置阈值的候选实体对作为目标候选实体对,基于预先构 ...
【技术保护点】
【技术特征摘要】
1.一种敏感信息识别方法,其特征在于,包括:获取待发布信息,基于敏感信息的字典树自待发布信息中提取表达实体的片段,将所述表达实体的片段与所述字典树中相应实体生成候选实体对,所述字典树包括实体及其指代词,所述实体是指表示敏感信息的实体文本关键词或者所述实体文本关键词相应的图片;将所述候选实体对输入实体匹配模型对所述候选实体对中表达实体的片段与相应实体进行匹配计算,输出所述候选实体对中表达实体的片段与相应实体的匹配值;将所述匹配值满足预设配置阈值的候选实体对作为目标候选实体对,基于预先构建的敏感信息的多模知识图谱,得到所述目标候选实体对中与表达实体的片段相对应的实体的类目;基于所述实体的类目确定所述待发布信息的识别结果,并将所述待发布信息召回。2.根据权利要求1所述的敏感信息识别方法,其特征在于,所述敏感信息的多模知识图谱包括类目层、实体层、图床层,其中,所述实体层与所述类目层相关联,所述图床层与所述实体层相关联;所述敏感信息的多模知识图谱通过如下方法构建,包括:收集设定类别的敏感信息的类目关键词,根据所述类目关键词创建类目的树状结构,得到类目层,所述树状结构包括叶子类目,所述叶子类目用于与实体层直接相连;识别包括所述设定类别的敏感信息的文本中词语所属的实体类别,得到各实体类别的实体文本关键词,采用实体文本关键词构建实体文本关键词的三元组,通过各实体文本关键词的三元组构建实体层;其中,所述实体文本关键词的三元组包括:头实体、关系、尾实体,所述头实体表示第一实体文本关键词,所述尾实体表示与所述头实体具有关联关系的第二实体文本关键词,所述关系表示所述尾实体与所述头实体之间的关联关系;将实体层的头实体与类目层的叶子类目进行关联;根据设定类别的敏感信息的实体文本关键词,在数据集中获取所述实体文本关键词相应的图片及其结构化信息,采用所获取的图片构建图片的三元组,通过各图片的三元组构建图床层;其中,所述图片的三元组包括:头实体、关系、尾实体,所述尾实体为所述图片,所述头实体为实体层的头实体或尾实体,所述关系为所述图片的结构化信息,所述图片的结构化信息用于表示所述头实体与所述尾实体之间的关联关系。3.根据权利要求2所述的敏感信息识别方法,其特征在于,所述敏感信息识别方法,还包括:根据所述敏感信息的多模知识图谱内实体层或图床层的实体,构建敏感信息的字典树,所述字典树包括:实体及其指代词,所述实体包括实体文本关键词的三元组中的头实体和尾实体、以及图片的三元组中的尾实体。4.根据权利要求2所述的敏感信息识别方法,其特征在于,在所述通过各实体文本关键词的三元组构建实体层之前,还包括:针对已构建的各实体文本关键词的三元组,基于实体文本关键词之间的相似度,将头实体中相似度超过设定相似度阈值的不同实体文本关键词采用同一节点标识表示,将尾实体中相似度超过设定相似度阈值的不同实体文本关键词采用同一节点标识表示,以及将关系中所关联的节点标识相同的不同关系采用同一节点标识表示;清除不属于所述设定类别
的敏感信息的实体文本关键词的三元组、以及错误的实体文本关键词的三元组,所保留的实体文本关键词的三元组用于构建实体层;所述通过图片三元组构建图片层之前,还包括:针对已构建的各图片的三元组,清除不属于所述设定类别的敏感信息的图片的三元组、以及错误的图片的三元组,所保留的图片的三元组用于构建图床层。5.根据权利要求2所述的敏感信息识别方法,其特征在于,还包括:在通过各实体文本关键词的三元组构建实体层之后,遍历实体层内的各实体文本关键词的三元组,其中,所述头实体采用所述第一实体文本关键词、以及对实体的描述信息表示,所述尾实体采用所述第二实体文本关键词、以及对实体的描述信息表示,所述关系采用文本表示;依次将所述实体文本关键词的三元组中所述头实体、尾实体、以及关系输入预训练的文本特征提取网络,通过预训练的文本特征提取网络分别提取所述头实体、尾实体、关系的文本特征向量,输出所述实体文本关键词的三元组的文本特征向量,将各实体文本关键词的三元组的文本特征向量保存至实体向量表;其中,预训练的文本特征提取网络采用如下方法进行训练:将训练样本的头实体、关系、尾实体输入通用知识库transE的卷积网络、以及Robert语言模型进行模型迭代训练,直至文本特征提取网络的损失函数达到模型收敛条件时,得到预训练的文本特征提取网络;其中,进行模型迭代训练的具体步骤包括:将训练样本的头实体、关系、尾实体输入通用知识库transE的卷积网络,得到各自的文本特征低维向量;将头实体、关系、尾实体各自的文本特征低维向量输入Robert语言模型,采用第一预设概率隐藏头实体、关系、尾实体各自的文本特征低维向量内的字符,采用第二预设概率随机替换头实体、关系、尾实体各自的文本特征低维向量内的字符,输出处理后的头实体、关系、尾实体各自的文本特征低维向量;所述文本特征提取网络的损失函数包括通用知识库transE的损失函数和Robert语言模型的损失函数,所述通用知识库transE的损失函数表示头实体的文本特征低维向量与关系的文本特征低维向量之和、与尾实体的文本特征低维向量之间的关系;所述Robert语言模型的损失函数表示处理后的头实体、关系、尾实体各自的文本特征低维向量的交叉熵。6.根据权利要求5所述的敏感信息识别方法,其特征在于,所述基于敏感信息的字典树自待发布信息提取表达实体的片段,将表达实体的片段与所述字典树中相应实体生成候选实体对,包括:将待发布信息遍历所述敏感信息的字典树...
【专利技术属性】
技术研发人员:赵金阁,江锦,李玲,韦昌佗,王亚斌,
申请(专利权)人:微梦创科网络科技中国有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。