一种离散文本内容风险识别方法和系统技术方案

技术编号:20176968 阅读:48 留言:0更新日期:2019-01-23 00:27
本发明专利技术提供了一种离散文本内容风险识别方法和系统,其中,该方法包括:对日志进行分割,并对分割得到的离散文本内容进行拼接;根据拼接的结果,确定离散文本内容是否存在风险。

A Discrete Text Content Risk Recognition Method and System

The invention provides a method and system for risk identification of discrete text content, in which the method includes: dividing the log and splicing the separated discrete text content; determining whether the discrete text content is at risk according to the splicing results.

【技术实现步骤摘要】
一种离散文本内容风险识别方法和系统
本专利技术涉及计算机
,特别涉及一种离散文本内容风险识别方法和系统。
技术介绍
内容类网络平台的迅猛发展,在给信息交流带来方便、快捷的同时,也让一些垃圾信息日益激增,例如,一些违禁、欺诈、色情等内容通过用户在一段时间内发出的多条内容(即离散文本内容)进行传播,对网络环境造成污染。因此,对用户发送的离散文本内容进行风险识别以净化网络环境是至关重要的。
技术实现思路
鉴于此,本专利技术实施例提供了一种离散文本内容风险识别方法和系统,能够节省离散文本内容风险识别的成本。第一方面,本专利技术实施例提供了一种离散文本内容风险识别方法,包括:对日志进行分割,得到离散文本内容;对所述离散文本内容进行拼接;根据拼接的结果,确定所述离散文本内容是否存在风险。优选地,所述对日志进行分割,得到离散文本内容,包括:根据分隔符对日志进行分割,得到离散文本内容、发送时间、用户ID和/或群ID。优选地,所述对所述离散文本内容进行拼接,包括:将所述用户ID和/或所述群ID对应的日志中,所述发送时间在当前日志之前的日志的离散文本内容,作为所述当前日志的离散文本内容的前缀进行拼接。本文档来自技高网...

【技术保护点】
1.一种离散文本内容风险识别方法,包括:对日志进行分割,得到离散文本内容;对所述离散文本内容进行拼接;根据拼接的结果,确定所述离散文本内容是否存在风险。

【技术特征摘要】
1.一种离散文本内容风险识别方法,包括:对日志进行分割,得到离散文本内容;对所述离散文本内容进行拼接;根据拼接的结果,确定所述离散文本内容是否存在风险。2.如权利要求1所述的离散文本内容风险识别方法,所述对日志进行分割,得到离散文本内容,包括:根据分隔符对日志进行分割,得到离散文本内容、发送时间、用户ID和/或群ID。3.如权利要求2所述的离散文本内容风险识别方法,所述对所述离散文本内容进行拼接,包括:将所述用户ID和/或所述群ID对应的日志中,所述发送时间在当前日志之前的日志的离散文本内容,作为所述当前日志的离散文本内容的前缀进行拼接。4.如权利要求3所述的离散文本内容风险识别方法,所述将所述用户ID和/或所述群ID对应的日志中,所述发送时间在当前日志之前的日志的离散文本内容,作为所述当前日志的离散文本内容的前缀进行拼接,包括:将所述用户ID和/或所述群ID对应的日志中,所述发送时间在预设的时间滑动窗口内、且在当前日志之前的日志的离散文本内容,作为所述当前日志的离散文本内容的前缀进行拼接。5.如权利要求1-4中任一所述的离散文本内容风险识别方法,所述根据拼接的结果,确定所述离散文本内容是否存在风险,包括:对拼接的结果进行分词;将分词的结果与预设的风险词库进行匹配,确定所述拼接的结果的第一风险值;当所述第一风险值在预设的第一风险范围内时,确定所述离散文本内容存在风险,否则,确定所述离散文本内容不存在风险;和/或,所述根据拼接的结果,确定所述离散文本内容是否存在风险,包括:对拼接的结果进行特征提取;根据特征提取的结果和预先构建的至少一个风险模型,确定所述拼接的结果所属的目标风险模型;根据所述目标风险模型,确定所述拼接的结果的第二风险值;当所述第二风险值在预设的第二风险范围内时,确定所述离散文本内容存在风险,否则,确定所述离散文本内容不存在风险。6.如权利要求1所述的离散文本内容风险识别方法,在所述对日志进行分割之前,进一步包括:从业务系统中采集所述日志。7.如权利要求6所述的离散文本内容风险识别方法,所述从业务系统中采集所述日志,包括:根据预设的日志采集任务中的业务系统标识,确定业务系统;根据所述日志采集任务中的日志文件标识,在所述业务系统中确定日志文件;当检测到所述日志文件中有所述日志写入时,采集所述日志。8.如权利要求1所述的离散文本内容风险识别方法,当所述离散文本内容存在风险时,进一步包括:根据所述离散文本内容进行风险控制。9.如权利要求8所述的离散文本内容风险识别方法,所述根据所述离散文本内容进行风险控制,包括:删除所述离散文本内容;和/或,所述根据所述...

【专利技术属性】
技术研发人员:谢谱模
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛,KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1