安全类别标签检测方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:30230986 阅读:24 留言:0更新日期:2021-09-29 10:04
本申请公开一种安全类别标签检测方法、装置、计算机设备及存储介质,包括:获取待检测安全类别标签的文本信息;调用序列标注模型为文本信息标注文本信息中的关键词及关键词所属的安全类别标签,根据各安全类别标签所标注的关键词计算该文本信息分别属于各安全类别标签的分词评估分值;调用文本分类模型为文本信息进行分类评估,获得该文本信息分别命中所述各个安全类别标签的全文评估分值;将各个安全类别标签相对应的两种分值进行线性融合,获得文本信息分别属于各个安全类别标签的综合评估分值,确定综合评估分值最大者为文本信息的安全类别标签。本申请通过融合两种标签分类模型,从词组及全文的维度精准地检测文本信息的安全类别。安全类别。安全类别。

【技术实现步骤摘要】
安全类别标签检测方法、装置、计算机设备及存储介质


[0001]本专利技术实施例涉及信息安全领域,尤其是一种安全类别标签检测方法、装 置、计算机设备及存储介质。

技术介绍

[0002]在现有的技术中,较多是使用违规关键词,对信息内容进行匹配,当匹配 内容中存在的关键词,结合白名单进行判断内容是否违规;也有部分技术,计 算了信息文本与数据库中黑名单内容的文本相似性,当相似度高于阈值时,则 判断内容违规。
[0003][0004]通过关键词匹配的方法,忽略了文本之间的语义信息,召回出来的数据大 多数是与违规类别不相关的噪声数据。而通过相似度的方法,则非常依赖于收 集的样本库,当信息文本出现了数据库中不存在的样本,那么该方法很大可能 会出现漏召回的情况。因此,如何提高推送的信息文本的违规检测的质量,成 为需要本领域技术人员解决的技术问题。

技术实现思路

[0005]本申请的目的在于克服现有技术的至少部分不足而提供一种安全类别标签 检测方法、装置、计算机设备及存储介质。
[0006]为实现本申请的目的,采用如下技术方案:
[0007]适应本申请的目的之一而提出的一种安全类别标签检测方法,包括如下步 骤:
[0008]获取待检测安全类别标签的文本信息;
[0009]调用序列标注模型为所述文本信息标注文本信息中的关键词及关键词所属 的安全类别标签,根据各安全类别标签所标注的关键词计算该文本信息分别属 于各安全类别标签的分词评估分值,所述序列标注模型被预先训练至收敛状态;/>[0010]调用文本分类模型为所述文本信息进行分类评估,获得该文本信息分别命 中所述各个安全类别标签的全文评估分值,所述文本分类模型被预先训练至收 敛状态;
[0011]将各个安全类别标签相对应的分词评估分值与全文评估分值进行线性融 合,获得所述文本信息分别属于各个安全类别标签的综合评估分值,确定综合 评估分值最大者为所述文本信息的安全类别标签。
[0012]进一步的实施例中,获取待检测安全类别标签的文本信息的步骤,包括: 响应文本信息提交事件,提取其中的文本信息,该文本信息包含待发布广告的 内容文本、待发布公告的内容文本或待发表文章的内容文本;
[0013]而在确定综合评估分值最大者为所述文本信息的安全类别标签之后,包括 如下步骤:判断所述安全类别标签的安全属性,当其为非安全属性时,禁止发 布该文本信息;当其为安全属性时,允许发布该文本信息。
[0014]进一步的实施例中,调用序列标注模型为所述文本信息标注文本信息中的 关键词及关键词所属的安全类别标签,根据各安全类别标签所标注的关键词计 算该文本信息
分别属于各安全类别标签的分词评估分值,包括如下具体步骤:
[0015]将所述文本信息导入序列标注模型中进行基于语义特征的关键词提取,获 得表征为语义向量的关键词序列;
[0016]所述序列标注模型基于所述语义向量对关键词序列进行标签预测,获得描 述各个关键词相对应的安全类别标签的标签序列;
[0017]所述序列标注模型根据所述标签序列中属于非安全属性的安全类别标签所 对应的关键词计算该文本信息分别属于各安全类别标签的分词评估分值。
[0018]进一步的实施例中,根据所述标签序列中属于非安全属性的安全类别标签 所对应的关键词计算该文本信息分别属于各安全类别标签的分词评估分值的步 骤中,每个安全类别标签相对应的分词评估分值的计算步骤如下:
[0019]确定该安全类别标签所标注的所有关键词各自的字数之和值;
[0020]确定所述文本信息的总字数;
[0021]以所述和值与所述总字数的比值作为该安全类别标签相对应的分词评估分 值。
[0022]进一步的实施例中,调用文本分类模型为所述文本信息进行分类评估,获 得该文本信息分别命中所述各个安全类别标签的全文评估分值,包括如下具体 步骤:
[0023]将所述文本信息导入文本分类模型中进行基于语义特征提取,获得文本表 征的语义向量;
[0024]所述文本分类模型以回归分类器对所述语义向量进行分类,获得整个语义 向量命中所述各个安全类别标签的概率,作为各个安全类别标签相应的所述全 文评估分值。
[0025]进一步的实施例中,将各个安全类别标签相对应的分词评估分值与全文评 估分值进行线性融合的步骤中,所述分词评估分值与全文评估分值分别携带各 自的权重,两个权重以同一预设的超参数体现彼此的相关性,以实现彼此的线 性加权,以获得所述文本信息分别属于各个安全类别标签的综合评估分值。
[0026]较佳的实施例中,所述序列标注模型与所述文本分类模型基于同一文本预 训练模型构造其语义特征提取器,用于实现所述基于语义特征的提取。
[0027]适应本申请的目的而提出的一种安全类别标签检测装置,其包括:
[0028]文本信息获取模块,用于获取待检测安全类别标签的文本信息;
[0029]分词估计分值计算模块,用于调用序列标注模型为所述文本信息标注文本 信息中的关键词及关键词所属的安全类别标签,根据各安全类别标签所标注的 关键词计算该文本信息分别属于各安全类别标签的分词评估分值,所述序列标 注模型被预先训练至收敛状态;
[0030]全文评估分值获取模块,用于调用文本分类模型为所述文本信息进行分类 评估,获得该文本信息分别命中所述各个安全类别标签的全文评估分值,所述 文本分类模型被预先训练至收敛状态;
[0031]综合评估值获取模块,用于将各个安全类别标签相对应的分词评估分值与 全文评估分值进行线性融合,获得所述文本信息分别属于各个安全类别标签的 综合评估分值,确定综合评估分值最大者为所述文本信息的安全类别标签。
[0032]进一步的实施例中,所述分词估计分值计算模块包括:
[0033]关键词序列子模块,用于将所述文本信息导入序列标注模型中进行基于语 义特
征的关键词提取,获得表征为语义向量的关键词序列;
[0034]标签预测子模块,用于所述序列标注模型基于所述语义向量对关键词序列 进行标签预测,获得描述各个关键词相对应的安全类别标签的标签序列;
[0035]评估分值子模块,用于所述序列标注模型根据所述标签序列中属于非安全 属性的安全类别标签所对应的关键词计算该文本信息分别属于各安全类别标签 的分词评估分值。
[0036]进一步的实施例中,所述全文评估分值获取模块包括:
[0037]关键词序列子模块,用于将所述文本信息导入文本分类模型中进行基于语 义特征提取,获得文本表征的语义向量;
[0038]全文评分子模块,用于所述文本分类模型以回归分类器对所述语义向量进 行分类,获得整个语义向量命中所述各个安全类别标签的概率,作为各个安全 类别标签相应的所述全文评估分值。
[0039]为解决上述技术问题本专利技术实施例还提供一种计算机设备,包括存储器和 处理器,所述存储器中存储有计算机可读指令,所述本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种安全类别标签检测方法,其特征在于,包括如下步骤:获取待检测安全类别标签的文本信息;调用序列标注模型为所述文本信息标注文本信息中的关键词及关键词所属的安全类别标签,根据各安全类别标签所标注的关键词计算该文本信息分别属于各安全类别标签的分词评估分值,所述序列标注模型被预先训练至收敛状态;调用文本分类模型为所述文本信息进行分类评估,获得该文本信息分别命中所述各个安全类别标签的全文评估分值,所述文本分类模型被预先训练至收敛状态;将各个安全类别标签相对应的分词评估分值与全文评估分值进行线性融合,获得所述文本信息分别属于各个安全类别标签的综合评估分值,确定综合评估分值最大者为所述文本信息的安全类别标签。2.根据权利要求1所述的方法,其特征在于,获取待检测安全类别标签的文本信息的步骤,包括:响应文本信息提交事件,提取其中的文本信息,该文本信息包含待发布广告的内容文本、待发布公告的内容文本或待发表文章的内容文本;而在确定综合评估分值最大者为所述文本信息的安全类别标签之后,包括如下步骤:判断所述安全类别标签的安全属性,当其为非安全属性时,禁止发布该文本信息;当其为安全属性时,允许发布该文本信息。3.根据权利要求1所述的方法,其特征在于,调用序列标注模型为所述文本信息标注文本信息中的关键词及关键词所属的安全类别标签,根据各安全类别标签所标注的关键词计算该文本信息分别属于各安全类别标签的分词评估分值,包括如下具体步骤:将所述文本信息导入序列标注模型中进行基于语义特征的关键词提取,获得表征为语义向量的关键词序列;所述序列标注模型基于所述语义向量对关键词序列进行标签预测,获得描述各个关键词相对应的安全类别标签的标签序列;所述序列标注模型根据所述标签序列中属于非安全属性的安全类别标签所对应的关键词计算该文本信息分别属于各安全类别标签的分词评估分值。4.根据权利要求3所述的方法,其特征在于,根据所述标签序列中属于非安全属性的安全类别标签所对应的关键词计算该文本信息分别属于各安全类别标签的分词评估分值的步骤中,每个安全类别标签相对应的分词评估分值的计算步骤如下:确定该安全类别标签所标注的所有关键词各自的字数之和值;确定所述文本信息的总字数;以所述和值与所述总字数的比值作为该安全类别标签相对应的分词评估分...

【专利技术属性】
技术研发人员:吴智东
申请(专利权)人:广州华多网络科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1