异常文本的检测方法和装置制造方法及图纸

技术编号:17596963 阅读:29 留言:0更新日期:2018-03-31 10:10
本申请提供异常文本的检测方法和装置,首先通过对待检测文本进行分词和语义分析,使得所有分词表达格式统一,便于后续的查询匹配,能有效提高待检测文本中的异常词的匹配准确率;其次根据用户行为日志确定用户行为的异常值;以及计算待检测文本中的异常词在待检测文本中的重要性权值;当用户行为的异常值大于预设的异常阈值,且异常词在待检测文本中的重要性权值大于预设的权值阈值时,确定待检测文本为异常文本。上述综合考虑用户行为的异常值和异常词在待检测文本中的重要性权值来确定待检测文本的异常情况,更加客观准确的检测文本的异常情况。

Detection methods and devices for abnormal text

The invention provides a method and apparatus for detecting abnormal text segmentation and semantic analysis, first through the detected text, makes all participle unified format for subsequent query matching, can effectively improve the matching words in the text of the anomaly detection accuracy; secondly according to the abnormal value of user behavior log of user behavior to determine the weights of importance; and calculate the abnormal detection in the text word in the text to the test; the abnormal threshold value is greater than the preset value when the abnormal behavior of users, and the important value of abnormal words in the text to be detected in more than a preset threshold value, determining the detected text for abnormal text. Considering the outliers of user behavior and the importance weight of abnormal words in the text to be detected, the above is to detect the abnormal situation of the text to be detected, and detect the anomaly of the text more objectively and accurately.

【技术实现步骤摘要】
异常文本的检测方法和装置
本申请涉及信息处理
,尤其涉及一种异常文本的检测方法和装置。
技术介绍
现有技术中,对目标文本的异常识别多通过人工方式,或者人工建立异常词表,通过机器基于该异常词表对目标文本进行简单的匹配查询,以确定目标文本的异常。上述识别目标文本异常的方法,需要不断人工添加异常词,无法自动进行异常词表的扩展,同时,对于一些经常与异常赋值较高的异常词同时出现,但是其本身又不具有明显的色情、暴力、反动含义的词,上述方法无法识别,从而导致识别目标文本异常的效果较差。因此,如何提供一种异常文本的检测方法或设备,同时提高机器识别目标文本异常的准确率,成为目前急需解决的问题之一。
技术实现思路
本申请的多个方面提供一种异常文本的检测方法和装置,可以提高机器识别目标文本异常的准确率。本申请实施例提供一种异常文本的检测方法,获取待检测文本,对待检测文本进行分词和语义分析,确定待检测文本中的异常词;获取发布待检测文本的用户行为日志,根据用户行为日志确定用户行为的异常值;计算待检测文本中的异常词在待检测文本中的重要性权值;当用户行为的异常值大于预设的异常阈值,且异常词在待检测文本中的重要性本文档来自技高网...
异常文本的检测方法和装置

【技术保护点】
一种异常文本的检测方法,其特征在于,包括:获取待检测文本,对待检测文本进行分词和语义分析,确定待检测文本中的异常词;获取发布待检测文本的用户行为日志,根据用户行为日志确定用户行为的异常值;计算待检测文本中的异常词在待检测文本中的重要性权值;当用户行为的异常值大于预设的异常阈值,且异常词在待检测文本中的重要性权值大于预设的权值阈值时,确定待检测文本为异常文本。

【技术特征摘要】
1.一种异常文本的检测方法,其特征在于,包括:获取待检测文本,对待检测文本进行分词和语义分析,确定待检测文本中的异常词;获取发布待检测文本的用户行为日志,根据用户行为日志确定用户行为的异常值;计算待检测文本中的异常词在待检测文本中的重要性权值;当用户行为的异常值大于预设的异常阈值,且异常词在待检测文本中的重要性权值大于预设的权值阈值时,确定待检测文本为异常文本。2.根据权利要求1所述的方法,其特征在于,对待检测文本进行分词和语义分析,确定待检测文本中的异常词,包括:对待检测文本进行基于字符串匹配的分词、基于语义理解的分词和基于语义统计的分词处理;在预设的异常词库中进行匹配,确定待检测文本中存在的异常词。3.根据权利要求1所述的方法,其特征在于,获取发布待检测文本的用户行为日志,根据用户行为日志确定用户行为的异常值,包括:获取发布待检测文本的用户行为日志;根据用户行为日志提取用户行为特征;根据用户行为特征确定用户行为的异常值。4.根据权利要求1所述的方法,其特征在于,计算待检测文本中的异常词在待检测文本中的重要性权值,包括:根据异常词在待检测文本中出现的频率确定异常词在待检测文本中的重要性权值。5.根据权利要求3所述的方法,其特征在于,所述用户行为特征包括用户通信量和用户通信时间;根据用户行为特征确定用户行为的异常值,包括:分别确定用户通信量和用户通信时间的异常值;根据用户通信量和用户通信时间的异常值,综合确定用户行为...

【专利技术属性】
技术研发人员:武万杰张菊元
申请(专利权)人:北京潘达互娱科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1