变体文本检测方法、模型训练方法、装置及电子设备制造方法及图纸

技术编号:30647385 阅读:24 留言:0更新日期:2021-11-04 00:58
本公开提供了一种变体文本检测方法、模型训练方法、装置及电子设备,涉及人工智能技术领域,尤其涉及文本处理领域。该方法包括:将多个文本分别输入变体文本检测模型,得到多个文本中每个文本的变体分数,变体文本检测模型是采用变体文本样本对文本识别模型进行训练得到的;根据每个文本的变体分数确定多个文本中的第一变体文本,并确定第一变体文本对应的第一账户;确定与第一账户相关的可疑账户;对可疑账户提交的文本进行内容特征检测,并根据内容特征检测的结果,确定可疑账户提交的文本中的第二变体文本,实现了对变体文本及时主动地挖掘。挖掘。挖掘。

【技术实现步骤摘要】
变体文本检测方法、模型训练方法、装置及电子设备


[0001]本公开涉及人工智能
中的文本处理技术,尤其涉及一种变体文本检测方法、模型训练方法、装置及电子设备。

技术介绍

[0002]UGC(User Generated Content,用户生成内容)平台常常会受到黑产团队的侵害,黑产团队往往通过大量账户以变体文本等形式发布其想要传递的违规网址等违禁内容。为了实现内容发布的目的,黑产团队通过对文本进行同音、谐音、近形、甚至结构上的变异等方式构造变体文本,在保障文本语义传达的情况下,通过变体文本绕过UGC 平台的风控检查,该行为严重影响了正常用户的使用体验,因此,对UGC 平台的内容进行变体文本检测十分必要。
[0003]相关技术中,通常是利用训练后的文本检测模型对UGC平台的内容进行检测,模型的检测能力与训练时的样本相关,然而,由于变体文本同时具有形式变异和语义正常传递这两个特性,在构造样本时很难构造出同时满足这两个特性的样本,且黑产全队的新的变体文本形式层出不穷,导致模型难以检测出新的变体文本。

技术实现思路

[0004]本公开提供了一种实现了对变体文本进行及时主动地挖掘的变体文本检测方法、模型训练方法、装置及电子设备。
[0005]根据本公开的一方面,提供了一种变体文本检测方法,方法包括:
[0006]将多个文本分别输入变体文本检测模型,得到多个文本中每个文本的变体分数,变体文本检测模型是采用变体文本样本对文本识别模型进行训练得到的;
[0007]根据每个文本的变体分数确定多个文本中的第一变体文本,并确定第一变体文本对应的第一账户;
[0008]确定与第一账户相关的可疑账户;
[0009]对可疑账户提交的文本进行内容特征检测,并根据内容特征检测的结果,确定可疑账户提交的文本中的第二变体文本。
[0010]根据本公开的另一方面,提供了一种模型训练方法,方法包括:
[0011]获取第一变体文本和第二变体文本,其中,第一变体文本是将多个文本分别输入变体文本检测模型,得到每个文本的变体分数后,根据每个文本的变体分数得到的变体文本,第二变体文本是对与第一变体文本对应的第一账户相关的可疑账户提交的文本进行内容特征检测,并根据内容特征检测的结果确定出的变体文本;
[0012]采用第一变体文本和第二变体文本,对变体文本检测模型进行训练,以更新变体文本检测模型的模型参数。
[0013]根据本公开的再一方面,提供了一种变体文本检测装置,装置包括:
[0014]输入模块,用于将多个文本分别输入变体文本检测模型,得到多个文本中每个文
本的变体分数,变体文本检测模型是采用变体文本样本对文本识别模型进行训练得到的;
[0015]第一确定模块,用于根据每个文本的变体分数确定多个文本中的第一变体文本,并确定第一变体文本对应的第一账户;
[0016]第二确定模块,用于确定与第一账户相关的可疑账户;
[0017]检测模块,用于对可疑账户提交的文本进行内容特征检测,并根据内容特征检测的结果,确定可疑账户提交的文本中的第二变体文本。
[0018]根据本公开的再一方面,提供了一种模型训练装置,装置包括:
[0019]获取模块,用于获取第一变体文本和第二变体文本,其中,第一变体文本是将多个文本分别输入变体文本检测模型,得到每个文本的变体分数后,根据每个文本的变体分数得到的变体文本,第二变体文本是对与第一变体文本对应的第一账户相关的可疑账户提交的文本进行内容特征检测,并根据内容特征检测的结果确定出的变体文本;
[0020]训练模块,用于采用第一变体文本和第二变体文本,对变体文本检测模型进行训练,以更新变体文本检测模型的模型参数。
[0021]根据本公开的再一方面,提供了一种电子设备,包括:
[0022]至少一个处理器;以及
[0023]与至少一个处理器通信连接的存储器;其中,
[0024]存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行上述第一方面或第二方面的方法。
[0025]根据本公开的又一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,计算机指令用于使计算机执行上述第一方面或第二方面的方法。
[0026]根据本公开的又一方面,提供了一种计算机程序产品,程序产品包括:计算机程序,计算机程序存储在可读存储介质中,电子设备的至少一个处理器可以从可读存储介质读取计算机程序,至少一个处理器执行计算机程序使得电子设备执行第一方面或第二方面的方法。
[0027]根据本公开的技术方案,实现了对变体文本的及时主动地挖掘。
[0028]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0029]附图用于更好地理解本方案,不构成对本公开的限定。其中:
[0030]图1是根据本公开实施例提供的变体文本检测方法的流程示意图;
[0031]图2是根据本公开实施例提供的模型训练方法的流程示意图;
[0032]图3是根据本公开实施例提供的变体文本检测装置的结构示意图;
[0033]图4是根据本公开实施例提供的模型训练装置的结构示意图;
[0034]图5是用来实现本公开实施例的变体文本检测方法的电子设备的示意性框图。
具体实施方式
[0035]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识
到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0036]利用文本检测模型对UGC平台的内容进行变体文本检测时,模型的检测能力与训练时的样本相关,若要提高模型的检测能力,则需要扩充模型训练的相关样本,然而,由于变体文本同时具有形式变异和语义正常传递这两个特性,在构造样本时很难构造出同时满足这两个特性的样本。
[0037]示例的,在传统方法中,通过对现有样本进行对抗增强,比如首先提取现有样本中的关键词而后对其进行拼音、字形等变异,生成对抗样本以获取更多的训练数据,增强模型检测能力。这种传统的方法可以保证生成的变体文本满足语义正常传递的特性,但是其变异形式单一,但是实际中,黑产团队构造变体文本的形式层出不穷,因此,采用这种传统的方法获得样本对模型进行训练,仍不足以实现对新的变体文本形式的及时检测。
[0038]示例的,在基于深度学习的方法中,例如对抗生成网络,利用一个生成器和一个判别器,生成器的目标是生成可以绕过判别器检测的变体样本,判别器的目标则是正确识别出生成器生成的变体样本,通过这种方法提高判别器的变体文本检测能力。然而,这种基于深度学习的方本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种变体文本检测方法,包括:将多个文本分别输入变体文本检测模型,得到多个文本中每个文本的变体分数,所述变体文本检测模型是采用变体文本样本对文本识别模型进行训练得到的;根据所述每个文本的变体分数确定所述多个文本中的第一变体文本,并确定所述第一变体文本对应的第一账户;确定与所述第一账户相关的可疑账户;对所述可疑账户提交的文本进行内容特征检测,并根据内容特征检测的结果,确定所述可疑账户提交的文本中的第二变体文本。2.根据权利要求1所述的方法,其中,所述根据所述每个文本的变体分数确定所述多个文本中的第一变体文本,包括:将变体分数大于或等于第一阈值的第一文本确定为所述第一变体文本。3.根据权利要求2所述的方法,还包括:对于变体分数大于或等于第二阈值且小于所述第一阈值的第二文本,输出第一指示信息,所述第一指示信息用于指示为所述第二文本添加标注,若接收到所述第二文本的标注为变体文本,则将所述第二文本确定为所述第一变体文本。4.根据权利要求1

3任一项所述的方法,其中,所述确定与所述第一账户相关的可疑账户,包括:将与所述第一账户的互联网协议地址相同的账户确定为所述可疑账户。5.根据权利要求1

3任一项所述的方法,其中,所述确定与所述第一账户相关的可疑账户,包括:将与所述第一账户的互动值大于预设值的账户确定为所述可疑账户。6.根据权利要求1

5任一项所述的方法,其中,所述对所述可疑账户提交的文本进行内容特征检测,包括:将所述可疑账户提交的文本输入所述变体文本检测模型,得到所述可疑账户提交的文本的变体分数;对所述可疑账户提交的文本中,变体分数小于第三阈值的第三文本,进行内容特征检测。7.根据权利要求6所述的方法,其中,所述根据内容特征检测的结果,确定所述可疑账户提交的文本中的第二变体文本,包括:若所述内容特征检测的结果满足预设条件,则输出第二指示信息,所述第二指示信息用于指示为所述第三文本添加标注,若接收到所述第三文本的标注为变体文本,则将所述第三文本确定为所述第二变体文本。8.根据权利要求7所述的方法,其中,所述对所述可疑账户提交的文本中,变体分数小于第三阈值的第三文本,进行内容特征检测,包括:对所述第三文本中的所有文本两两进行相似度检测,若两个文本的相似度大于相似度阈值,则确定所述两个文本为相似文本;所述若所述内容特征检测的结果满足预设条件,则输出第二指示信息,包括:若所述第三文本中相似文本的数量大于预设值,则输出所述第二指示信息。9.根据权利要求7所述的方法,其中,所述对所述可疑账户提交的文本中,变体分数小
于第三阈值的第三文本,进行内容特征检测,包括:对所述第三文本和所述第三文本的上级文本对象进行语义相关性检测,得到所述第三文本和所述第三文本的上级文本对象的相关性分数;所述若所述内容特征检测的结果满足预设条件,则输出第二指示信息,包括:若所述第三文本和所述第三文本的上级文本对象的相关性分数小于相关性阈值,则输出所述第二指示信息。10.根据权利要求7所述的方法,其中,所述对所述可疑账户提交的文本中,变体分数小于第三阈值的第三文本,进行内容特征检测,包括:将所述第三文本与预设的特殊字符库进行匹配,得到所述第三文本中包含的特殊字符的数量;所述若所述内容特征检测的结果满足预设条件,则输出第二指示信息,包括:若所述第三文本中包含的特殊字符的数量大于特殊字符阈值,则输出所述第二指示信息。11.根据权利要求7所述的方法,其中,所述对所述可疑账户提交的文本中,变体分数小于第三阈值的第三文本,进行内容特征检测,包括:将所述第三文本与关键词词库进行匹配,得到所述第三文本中包括的关键词的数量,其中,所述关键词词库是通过对预设的变体文本进行关键词提取获得的;所述若所述内容特征检测的结果满足预设条件,则输出第二指示信息,包括:若所述第三文本中包括的关键词的数量大于关键词阈值,则输出所述第二指示信息。12.根据权利要求6

11任一项所述的方法,还包括:对所述可疑账户提交的文本中,变体分数大于或等于第三阈值且小于第二阈值的第四文本,输出第三指示信息,所述第三指示信息用于指示为所述第四文本添加标注,若接收到所述第四文本的标注为变体文本,则将所述第四文本确定为所述第二变体文本。13.一种模型训练方法,包括:获取第一变体文本和第二变体文本,其中,所述第一变体文本是将多个文本分别输入变体文本检测模型,得到每个文本的变体分数后,根据所述每个文本的变体分数得到的变体文本,所述第二变体文本是对与所述第一变体文本对应的第一账户相关的可疑账户提交的文本进行内容特征检测,并根据所述内容特征检测的结果确定出的变体文本;采用所述第一变体文本和所述第二变体文本,对所述变体文本检测模型进行训练,以更新所述变体文本检测模型的模型参数。14.一种变体文本检测装置,包括:输入模块,用于将多个文本分别输入变体文本检测模型,得到所述多个文本中每个文本的变体分数,所述变体文本检测模型是采用变体文本样本对文...

【专利技术属性】
技术研发人员:孙晓洁吕中厚王洋高梦晗
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1