异常文本检测方法、装置、设备及计算机可读存储介质制造方法及图纸

技术编号:40291704 阅读:15 留言:0更新日期:2024-02-07 20:42
本申请提供了一种异常文本检测方法、装置、设备及计算机可读存储介质;方法包括:从异常文本数据库获取至少一个异常种子信息;查询与异常种子信息的相似度大于相似度阈值的异常信息,将发布异常信息的账号确定为异常账号;获取异常账号发布的多个变种信息,其中,变种信息是对异常信息进行变化得到的;对多个变种信息进行聚类操作,将得到的目标聚类中心对应的变种信息作为目标变种信息;根据目标变种信息更新异常文本数据库,其中,更新后的异常文本数据库用于检测新的异常文本。本申请能够全面和准确地检测异常文本。

【技术实现步骤摘要】

本申请涉及自然语言处理技术,尤其涉及一种异常文本检测方法、装置、设备及计算机可读存储介质


技术介绍

1、自然语言处理(nature language processing,nlp)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

2、以游戏场景为例,为检测游戏内的异常文本以及基于异常文本生成的变种文本,传统基于关键词匹配的文本检测系统成本过高且准确率低,而基于深度学习的文本检测系统效率和召回率较低。相关技术暂无较好的方案对异常文本进行自动收集和高准确率高效率检测。


技术实现思路

1、本申请实施例提供一种异常文本检测方法、装置、电子设备、计算机程序产品及计算机可读存储介质,能够自动收集和检测异常文本以及本文档来自技高网...

【技术保护点】

1.一种异常文本检测方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,

3.根据权利要求2所述的方法,其特征在于,所述从所述多个信息中识别出多个变种信息,包括:

4.根据权利要求2所述的方法,其特征在于,所述方法还包括:

5.根据权利要求1所述的方法,其特征在于,所述查询与所述异常种子信息的相似度大于相似度阈值的异常信息,包括:

6.根据权利要求5所述的方法,其特征在于,所述确定所述异常种子信息和所述候选信息之间的编辑距离,包括:

7.根据权利要求1至6任一项所述的方法,其特征在于,所述查询...

【技术特征摘要】

1.一种异常文本检测方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,

3.根据权利要求2所述的方法,其特征在于,所述从所述多个信息中识别出多个变种信息,包括:

4.根据权利要求2所述的方法,其特征在于,所述方法还包括:

5.根据权利要求1所述的方法,其特征在于,所述查询与所述异常种子信息的相似度大于相似度阈值的异常信息,包括:

6.根据权利要求5所述的方法,其特征在于,所述确定所述异常种子信息和所述候选信息之间的编辑距离,包括:

7.根据权利要求1至6任一项所述的方法,其特征在于,所述查询与所述异常种子信息的相似度大于相似度阈值的异常信息,包括:

8.根据权利要求1至6任一项所述的方法,其特征在于...

【专利技术属性】
技术研发人员:刘庭辉
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1