This application discloses an anomaly text detection method, which includes: pretreatment of the detected text to obtain the first intermediate text corresponding to the text to be detected; extraction of feature data from the first intermediate text; detection of the detected text based on the feature data; and determination of the text to be detected when the detection result indicates that the text to be detected contains anomalous content. Exceptional text. By using the scheme provided by the embodiment of this application, the factors affecting the validity of abnormal text detection results are eliminated through text preprocessing, so as to improve the accuracy of abnormal text detection results and effectively prevent and control the risk of text content.
【技术实现步骤摘要】
异常文本检测方法及装置
本申请涉及计算机
,尤其涉及一种异常文本检测方法及装置。
技术介绍
随着互联网技术的快速发展,网络社区平台越来越普及,越来越多的用户选择使用网络社区平台分享生活、交流经验、拓展业务等。与此同时,网络社区平台用户的爆发式增长,也可能导致平台内容良莠不齐,甚至违规违限,降低用户体验。因此,亟需一种异常文本检测方法,以防控内容风险,提升用户体验。
技术实现思路
本申请实施例提供一种异常文本检测方法及装置,旨在通过对文本进行预处理,消除影响异常文本检测结果有效性的因素,达到提高异常文本检测结果的准确性,进而有效防控文本内容风险的目的。本申请实施例采用下述技术方案:第一方面,本申请实施例提供一种异常文本检测方法,包括:对待检测文本进行预处理,得到与所述待检测文本相对应的第一中间文本;提取所述第一中间文本中的特征数据;基于所述特征数据,对所述待检测文本进行检测;在检测结果指示所述待检测文本中包含异常内容的情况下,确定所述待检测文本为异常文本。可选的,本申请第一方面提供的异常文本检测方法中,对所述待检测文本进行预处理,包括以下至少一项:将所述待检测文本 ...
【技术保护点】
1.一种异常文本检测方法,包括:对待检测文本进行预处理,得到与所述待检测文本相对应的第一中间文本;提取所述第一中间文本中的特征数据;基于所述特征数据,对所述待检测文本进行检测;在检测结果指示所述待检测文本中包含异常内容的情况下,确定所述待检测文本为异常文本。
【技术特征摘要】
1.一种异常文本检测方法,包括:对待检测文本进行预处理,得到与所述待检测文本相对应的第一中间文本;提取所述第一中间文本中的特征数据;基于所述特征数据,对所述待检测文本进行检测;在检测结果指示所述待检测文本中包含异常内容的情况下,确定所述待检测文本为异常文本。2.根据权利要求1所述方法,对所述待检测文本进行预处理,包括以下至少一项:将所述待检测文本中包含的内容资源链接替换为第一预设字符;将所述待检测文本中包含的表情符号替换为第二预设字符;在所述待检测文本的文本末尾包含连续标点符号的情况下,去除所述连续标点符号。3.根据权利要求2所述方法,提取所述第一中间文本中的特征数据,包括:基于所述第一中间文本的内容结构数据,提取所述特征数据,所述内容结构数据包括段落结构数据和字符结构数据中至少一种。4.根据权利要求3所述方法,所述段落结构数据包括段落个数和段落长度;则基于所述第一中间文本的所述内容结构数据,提取所述特征数据,包括:确定所述第一中间文本中所包含的段落,得到段落个数;统计所述第一中间文本中每个段落的长度,得到至少一个段落长度;基于所述段落个数和所述至少一个段落长度,确定所述第一中间文本的平均段落长度;根据所述段落个数、所述至少一个段落长度和所述平均段落长度中至少一项,确定所述特征数据。5.根据权利要求3所述方法,所述字符结构数据包括文本字符总个数;则基于所述第一中间文本的所述内容结构数据,提取所述特征数据,包括:统计所述第一中间文本中所包含的字符的个数,作为所述文本字符总个数;根据所述文本字符总个数,确定所述特征数据。6.根据权利要5所述方法,所述字符结构数据还包括非汉字字符个数、非数字字符个数和非字母字符个数;则基于所述第一中间文本的所述内容结构数据,提取所述特征数据,包括:统计所述第一中间文本中所包含的非汉字字符的个数、非数字字符的个数和非字母字符的个数,分别对应得到非汉字字符个数、非数字字符个数和非字母字符个数;计算所述非汉字字符个数、所述非数字字符个数和所述非字母字符个数之和,作为目标字符个数;基于所述目标字符个数与所述文本字符总个数,确定目标字符占比;根据所述目标字符个数和所述目标字符占比中至少一项,确定所述特征数据。7.根据权利要求5所述方法,所述字符结构数据还包括标点符号个数;则基于所述第一中间文本的所述内容结构数据,提取所述特征数据,包括:统计所述第一中间文本中所包含的标点符号的个数,得到标点符号个数;基于所述标点符号个数与所述文本字符总个数,确定标点符号占比;根据所述标点符号个数和所述标点符号占比中至少一项,确定所述特征数据。8.根据权利要求5所述方法,所述字符结构数据还包括每种指定字符的个数;则基于所述第一中间文本的所述内容结构数据,提取所述特征数据,包括:统计所述第一中间文本中所包含的每种所述指定字符的个数;基于每种所述指定字符的个数和所述文本字符总个数,确定每种所述指定字符的占比;根据每种所述指定字符的个数和每种所述指定字符的占比中至少一项,确定所述特征数据;其中,所述指定字符包括繁体字符、日文字符、字母字符中至少一种。9.根据权利要求3所述方法,所述字符结构数据包括:每种特定字符的个数;则基于所述第一中间文本的所述内容结构数据,提取所述特征数据,...
【专利技术属性】
技术研发人员:周书恒,祝慧佳,赵智源,郭亚,
申请(专利权)人:阿里巴巴集团控股有限公司,
类型:发明
国别省市:开曼群岛,KY
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。