【技术实现步骤摘要】
变体文本检测方法、模型训练方法、装置及电子设备
[0001]本公开涉及人工智能
中的文本处理技术,尤其涉及一种变体文本检测方法、模型训练方法、装置及电子设备。
技术介绍
[0002]UGC(User Generated Content,用户生成内容)平台常常会受到黑产团队的侵害,黑产团队往往通过大量账户以变体文本等形式发布其想要传递的违规网址等违禁内容。为了实现内容发布的目的,黑产团队通过对文本进行同音、谐音、近形、甚至结构上的变异等方式构造变体文本,在保障文本语义传达的情况下,通过变体文本绕过UGC 平台的风控检查,该行为严重影响了正常用户的使用体验,因此,对UGC 平台的内容进行变体文本检测十分必要。
[0003]相关技术中,通常是利用训练后的文本检测模型对UGC平台的内容进行检测,模型的检测能力与训练时的样本相关,然而,由于变体文本同时具有形式变异和语义正常传递这两个特性,在构造样本时很难构造出同时满足这两个特性的样本,且黑产全队的新的变体文本形式层出不穷,导致模型难以检测出新的变体文本。
技术实现思路
[0004]本公开提供了一种实现了对变体文本进行及时主动地挖掘的变体文本检测方法、模型训练方法、装置及电子设备。
[0005]根据本公开的一方面,提供了一种变体文本检测方法,方法包括:
[0006]将多个文本分别输入变体文本检测模型,得到多个文本中每个文本的变体分数,变体文本检测模型是采用变体文本样本对文本识别模型进行训练得到的;
[0007]根据每个文本的 ...
【技术保护点】
【技术特征摘要】
1.一种变体文本检测方法,包括:将多个文本分别输入变体文本检测模型,得到多个文本中每个文本的变体分数,所述变体文本检测模型是采用变体文本样本对文本识别模型进行训练得到的;根据所述每个文本的变体分数确定所述多个文本中的第一变体文本,并确定所述第一变体文本对应的第一账户;确定与所述第一账户相关的可疑账户;对所述可疑账户提交的文本进行内容特征检测,并根据内容特征检测的结果,确定所述可疑账户提交的文本中的第二变体文本。2.根据权利要求1所述的方法,其中,所述根据所述每个文本的变体分数确定所述多个文本中的第一变体文本,包括:将变体分数大于或等于第一阈值的第一文本确定为所述第一变体文本。3.根据权利要求2所述的方法,还包括:对于变体分数大于或等于第二阈值且小于所述第一阈值的第二文本,输出第一指示信息,所述第一指示信息用于指示为所述第二文本添加标注,若接收到所述第二文本的标注为变体文本,则将所述第二文本确定为所述第一变体文本。4.根据权利要求1
‑
3任一项所述的方法,其中,所述确定与所述第一账户相关的可疑账户,包括:将与所述第一账户的互联网协议地址相同的账户确定为所述可疑账户。5.根据权利要求1
‑
3任一项所述的方法,其中,所述确定与所述第一账户相关的可疑账户,包括:将与所述第一账户的互动值大于预设值的账户确定为所述可疑账户。6.根据权利要求1
‑
5任一项所述的方法,其中,所述对所述可疑账户提交的文本进行内容特征检测,包括:将所述可疑账户提交的文本输入所述变体文本检测模型,得到所述可疑账户提交的文本的变体分数;对所述可疑账户提交的文本中,变体分数小于第三阈值的第三文本,进行内容特征检测。7.根据权利要求6所述的方法,其中,所述根据内容特征检测的结果,确定所述可疑账户提交的文本中的第二变体文本,包括:若所述内容特征检测的结果满足预设条件,则输出第二指示信息,所述第二指示信息用于指示为所述第三文本添加标注,若接收到所述第三文本的标注为变体文本,则将所述第三文本确定为所述第二变体文本。8.根据权利要求7所述的方法,其中,所述对所述可疑账户提交的文本中,变体分数小于第三阈值的第三文本,进行内容特征检测,包括:对所述第三文本中的所有文本两两进行相似度检测,若两个文本的相似度大于相似度阈值,则确定所述两个文本为相似文本;所述若所述内容特征检测的结果满足预设条件,则输出第二指示信息,包括:若所述第三文本中相似文本的数量大于预设值,则输出所述第二指示信息。9.根据权利要求7所述的方法,其中,所述对所述可疑账户提交的文本中,变体分数小
于第三阈值的第三文本,进行内容特征检测,包括:对所述第三文本和所述第三文本的上级文本对象进行语义相关性检测,得到所述第三文本和所述第三文本的上级文本对象的相关性分数;所述若所述内容特征检测的结果满足预设条件,则输出第二指示信息,包括:若所述第三文本和所述第三文本的上级文本对象的相关性分数小于相关性阈值,则输出所述第二指示信息。10.根据权利要求7所述的方法,其中,所述对所述可疑账户提交的文本中,变体分数小于第三阈值的第三文本,进行内容特征检测,包括:将所述第三文本与预设的特殊字符库进行匹配,得到所述第三文本中包含的特殊字符的数量;所述若所述内容特征检测的结果满足预设条件,则输出第二指示信息,包括:若所述第三文本中包含的特殊字符的数量大于特殊字符阈值,则输出所述第二指示信息。11.根据权利要求7所述的方法,其中,所述对所述可疑账户提交的文本中,变体分数小于第三阈值的第三文本,进行内容特征检测,包括:将所述第三文本与关键词词库进行匹配,得到所述第三文本中包括的关键词的数量,其中,所述关键词词库是通过对预设的变体文本进行关键词提取获得的;所述若所述内容特征检测的结果满足预设条件,则输出第二指示信息,包括:若所述第三文本中包括的关键词的数量大于关键词阈值,则输出所述第二指示信息。12.根据权利要求6
‑
11任一项所述的方法,还包括:对所述可疑账户提交的文本中,变体分数大于或等于第三阈值且小于第二阈值的第四文本,输出第三指示信息,所述第三指示信息用于指示为所述第四文本添加标注,若接收到所述第四文本的标注为变体文本,则将所述第四文本确定为所述第二变体文本。13.一种模型训练方法,包括:获取第一变体文本和第二变体文本,其中,所述第一变体文本是将多个文本分别输入变体文本检测模型,得到每个文本的变体分数后,根据所述每个文本的变体分数得到的变体文本,所述第二变体文本是对与所述第一变体文本对应的第一账户相关的可疑账户提交的文本进行内容特征检测,并根据所述内容特征检测的结果确定出的变体文本;采用所述第一变体文本和所述第二变体文本,对所述变体文本检测模型进行训练,以更新所述变体文本检测模型的模型参数。14.一种变体文本检测装置,包括:输入模块,用于将多个文本分别输入变体文本检测模型,得到所述多个文本中每个文本的变体分数,所述变体文本检测模型是采用变体文本样本对文...
【专利技术属性】
技术研发人员:孙晓洁,吕中厚,王洋,高梦晗,
申请(专利权)人:百度在线网络技术北京有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。