一种信息识别方法及其装置制造方法及图纸

技术编号:32903861 阅读:17 留言:0更新日期:2022-04-07 11:54
本申请公开了一种信息识别方法及其装置。该方法包括:获取第一待识别信息;确定第一待识别信息与违规词数据集之间的匹配结果;匹配结果包括既存在于第一待识别信息,也存在于违规词数据集中的目标违规词;若匹配结果满足预设条件,则在第一待识别信息中获取包括目标违规词的第二待识别信息;利用深度模型判断该第二待识别信息是否违规。通过这种方式,可以有效识别违规信息,有利于创建更健康的网络环境。境。境。

【技术实现步骤摘要】
一种信息识别方法及其装置


[0001]本申请涉及计算机
,尤其涉及一种信息识别方法及其装置。

技术介绍

[0002]随着电子产品的普及,手机、电脑等电子产品逐渐成为人们生活中不可缺少的部分。同时随着互联网行业的飞速发展,各种网页能够为用户提供的信息越来越多。然而由于网络信息越来越容易获得,伴随着的是一些不法分子或者别有用心者将一些违规信息在网络上进行传播,容易给很多网民和企业结机构造成不可挽回的误导和影响。
[0003]因此,如何有效地识别违规信息是亟待解决的技术问题。

技术实现思路

[0004]本申请公开了一种信息识别方法及其装置,可以有效识别违规信息,有利于创建更健康的网络环境。
[0005]第一方面,本申请实施例提供了一种信息识别方法,所述方法包括:
[0006]获取第一待识别信息;
[0007]确定第一待识别信息与违规词数据集之间的匹配结果;匹配结果包括既存在于第一待识别信息,也存在于违规词数据集中的目标违规词;
[0008]若匹配结果满足预设条件,则在第一待识别信息中获取包括目标违规词的第二待识别信息;
[0009]利用深度模型判断第二待识别信息是否违规。
[0010]在一种可选的实施方式中,第二待识别信息包括多个字词;利用深度模型判断第二待识别信息是否违规的具体实施方式为:利用深度模型,确定第二待识别信息中字词之间的语义依赖关系;并根据该语义依赖关系,判断第二待识别信息是否违规。
[0011]在一种可选的实施方式中,第二待识别信息包括第一字词、定语和第二字词;在第二待识别信息中,第一字词、定语和第二字词的出现顺序递减;利用深度模型,确定第二待识别信息中字词之间的语义依赖关系的具体实施方式为:利用深度模型,从第一字词和第二字词中确定该定语的修饰对象为该第一字词。
[0012]在一种可选的实施方式中,目标违规词的数量为一个或多个;预设条件包括以下一项或多项:目标违规词的长度小于第一阈值;目标违规词的数量小于第二阈值;第一待处理信息的违规程度值小于第三阈值,第一待处理信息的违规程度值由目标违规词的词性确定。
[0013]在一种可选的实施方式中,在第一待识别信息中获取包括目标违规词的第二待识别信息的具体实施方式为:确定目标违规词在第一待识别信息中的位置;根据该位置,对第一待识别信息进行切句,得到包括目标违规词的第二待识别信息;其中,第二待识别信息包括的字符长度小于第四阈值,和/或,第二待识别信息具有完整的句子结构。
[0014]在一种可选的实施方式中,第一待识别信息为与过滤对象数据集中的对象不匹配
的爬取信息,过滤对象数据集包括黑名单对象和/或白名单对象。
[0015]在一种可选的实施方式中,该方法还可以包括:根据爬取策略,爬取得到所述爬取信息;其中,爬取策略包括以下一项或多项:在爬取过程中,利用第一信息发送预设数量的请求,后续利用第二信息发送请求;第一信息为身份信息和/或地址信息;若检测到爬取的网页的页面结构并非预设结构,则格式化该网页的页面结构;若检测到爬取URL不完整,则对该爬取URL对应的页面进行动态抓包。
[0016]第二方面,本申请实施例提供了一种信息识别装置,所述装置包括用于实现第一方面所述的方法的单元。
[0017]第三方面,本申请实施例提供另一种信息识别装置,包括处理器;该处理器,用于执行第一方面所述的方法。
[0018]在一种可选的实施方式中,该信息识别装置还可以包括存储器;该存储器用于存储计算机程序;处理器,具体用于从该存储器中调用计算机程序,执行第一方面所述的方法。
[0019]第四方面,本申请实施例提供一种芯片,该芯片用于执行第一方面所述的方法。
[0020]第五方面,本申请实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行如第一方面所述的方法。
附图说明
[0021]图1是本申请实施例提供的一种信息识别方法的流程示意图;
[0022]图2是本申请实施例提供的一种使用深度模型进行违规信息的识别的结果示意图;
[0023]图3是本申请实施例提供的一种信息识别系统的架构示意图;
[0024]图4是本申请实施例提供的一种网页中的层级结构的示意图;
[0025]图5是本申请实施例提供的一种文本研判模块的处理流程的示意图;
[0026]图6是本申请实施例提供的一种信息识别装置的结构示意图;
[0027]图7是本申请实施例提供的另一种信息识别装置的结构示意图。
具体实施方式
[0028]下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0029]为了更好地理解本申请实施例提供的技术方案,首先对本申请实施例涉及的技术术语进行介绍。
[0030](1)深度模型
[0031]深度模型用于识别待识别信息是否违规。本申请中,深度模型可以使用深度模型架构biLSTM。可选的,深度模型可以使用biLSTM和textcnn模型的结合。可选的,深度模型可以使用biLSTM加textcnn模型和虚拟对抗训练(Virtual Adversarial Training)的方式来
作为文本分类的模型架构,即在训练biLSTM的时候添加Virtual Adversarial Training扰动后的部分模型。
[0032]对抗训练的思想是培养一个对手(对抗网络),不断完善自己(生成网络)的学习。例如,用不同的目标分别训练对抗网络与生成网络进行竞争。本申请中的深度模型使用Virtual Adversarial Training,可以提高模型的泛化能力和鲁棒性。
[0033]对抗训练是针对某一个模型产生的对抗样本进行学习,那么模型势必会更具有针对性,所以就可能在面对其他模型生成的对抗样本攻击时会出现比原始模型更高的错误率。另外,各个模型普遍对于对抗模型产生的对抗样本具有好的鲁棒性。对抗训练不仅仅是拟合了对模型有影响的扰动,其同时弱化了单步攻击时需要依赖的模型的线性假设,进一步提升模型对黑盒攻击的鲁棒性。
[0034]对抗性扰动通常包括对许多实值输入进行小的修改。对于文本分类,输入是离散的,通常表示为一系列高维一维热编码向量。由于高维一维热编码向量集不允许无穷小扰动,本申请中的深度模型定义了连续词嵌入上的扰动,而不是离散词输入上的扰动。传统的对抗性训练和虚拟对抗性训练都可以解释为正则化策略作为防御敌人提供恶意输入。由于扰动嵌入不映射到任何单词,并且对手可能没有访问单词嵌入层的权限,所以本申请中的训练策略不再是针对对手的防御策略。
[0035](2)云服务<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种信息识别方法,其特征在于,所述方法包括:获取第一待识别信息;确定所述第一待识别信息与违规词数据集之间的匹配结果;所述匹配结果包括既存在于所述第一待识别信息,也存在于所述违规词数据集中的目标违规词;若所述匹配结果满足预设条件,则在所述第一待识别信息中获取包括所述目标违规词的第二待识别信息;利用深度模型判断所述第二待识别信息是否违规。2.根据权利要求1所述的方法,其特征在于,所述第二待识别信息包括多个字词;所述利用深度模型判断所述第二待识别信息是否违规,包括:利用深度模型,确定所述第二待识别信息中字词之间的语义依赖关系;根据所述语义依赖关系,判断所述第二待识别信息是否违规。3.根据权利要求2所述的方法,其特征在于,所述第二待识别信息包括第一字词、定语和第二字词;在所述第二待识别信息中,所述第一字词、所述定语和所述第二字词的出现顺序递减;所述利用深度模型,确定所述第二待识别信息中字词之间的语义依赖关系,包括:利用深度模型,从所述第一字词和所述第二字词中确定所述定语的修饰对象为所述第一字词。4.根据权利要求1~3中任一项所述的方法,其特征在于,所述目标违规词的数量为一个或多个;所述预设条件包括以下一项或多项:所述目标违规词的长度小于第一阈值;所述目标违规词的数量小于第二阈值;所述第一待处理信息的违规程度值小于第三阈值,所述第一待处理信息的违规程度值由所述目标违规词的词性确定。5.根据权利要求1~3中任一项所述的方法,其特征在于,所述...

【专利技术属性】
技术研发人员:李小江阮禄吴洋
申请(专利权)人:重庆市通信产业服务有限公司中冉信息分公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1