一种特征提取和风险识别的方法、装置及设备制造方法及图纸

技术编号:19341901 阅读:49 留言:0更新日期:2018-11-07 13:48
本说明书公开一种特征提取和风险识别的方法、装置及设备,该方法中可以采集若干已识别出存在风险的各风险文本,确定发送这些风险文本的各用户,并从确定出的各用户中选取满足预设条件的若干用户作为风险用户,针对每个风险用户,根据该风险用户所发送的各风险文本,确定该风险用户对应的风险特征信息,该风险特征信息用于表征该风险用户发送的风险文本的文本特征,而后,可将确定出的各风险用户对应的风险特征信息保存。

Method, device and device for feature extraction and risk identification

This specification discloses a method, device and equipment for feature extraction and risk identification. In this method, several risk texts that have identified risks can be collected, the users who send these risk texts can be determined, and a number of users satisfying preset conditions can be selected from the identified users as risk users. Each risk user determines the risk characteristic information corresponding to the risk user according to the risk text sent by the risk user. The risk characteristic information is used to characterize the text characteristics of the risk text sent by the risk user, and then the risk characteristic information corresponding to the identified risk user can be saved.

【技术实现步骤摘要】
一种特征提取和风险识别的方法、装置及设备
本说明书涉及计算机
,尤其涉及一种特征提取和风险识别的方法、装置及设备。
技术介绍
当前,用户可以通过发帖、评论等方式,与他人进行互动,从而极大的增进了各用户之间的交流。为了保障各用户能够通过网络进行更好的交流,需要对用户发表的文本进行风险识别,并在识别出风险文本后,将这些风险文本屏蔽,以营造良好的网络交流氛围。在现有技术中,通常是通过预设的风险词库中保存的各风险词语识别出风险文本的。然而,在实际应用中,用户为了防止自己发表的风险文本被识别出来,会将一些可能会被识别出来的风险词语进行变更,以减少风险文本中包含的可被识别出的风险词语的数量,从而降低了风险文本可被识别出的可能性。基于现有技术,需要更为有效、准确的风险识别方式。
技术实现思路
本说明书提供一种特征提取的方法,用以解决现有技术无法有效识别出风险文本的问题。本说明书提供了一种特征提取的方法,包括:采集若干已识别出存在风险的各风险文本;确定发送所述各风险文本的各用户,并从所述各用户中选取满足预设条件的若干用户作为风险用户;针对每个风险用户,根据该风险用户所发送的各风险文本,确定该风险用本文档来自技高网...

【技术保护点】
1.一种特征提取的方法,包括:采集若干已识别出存在风险的各风险文本;确定发送所述各风险文本的各用户,并从所述各用户中选取满足预设条件的若干用户作为风险用户;针对每个风险用户,根据该风险用户所发送的各风险文本,确定该风险用户对应的风险特征信息,所述风险特征信息用于表征由该风险用户发送的风险文本的文本特征;将确定出的各风险用户对应的风险特征信息进行保存。

【技术特征摘要】
1.一种特征提取的方法,包括:采集若干已识别出存在风险的各风险文本;确定发送所述各风险文本的各用户,并从所述各用户中选取满足预设条件的若干用户作为风险用户;针对每个风险用户,根据该风险用户所发送的各风险文本,确定该风险用户对应的风险特征信息,所述风险特征信息用于表征由该风险用户发送的风险文本的文本特征;将确定出的各风险用户对应的风险特征信息进行保存。2.如权利要求1所述的方法,从所述各用户中选取满足预设条件的若干用户作为风险用户,具体包括:针对确定出的发送所述各风险文本的每个用户,确定由该用户所发送的风险文本的数量;将发送的风险文本的数量满足预设数量的用户作为风险用户。3.如权利要求1所述的方法,针对每个风险用户,根据该风险用户所发送的各风险文本,确定该风险用户对应的风险特征信息,具体包括:针对每个风险用户,从该风险用户发送的各风险文本中提取出该风险用户对应的原始特征信息;将提取出的各风险用户对应的各原始特征信息中包含的字符进行变更处理,得到各风险用户对应的各风险特征信息。4.如权利要求3所述的方法,针对每个风险用户,从该风险用户发送的各风险文本中提取出该风险用户对应的原始特征信息,具体包括:针对该风险用户发送的每个风险文本,通过预设的常用字符库,从该风险文本中剔除各常用字符,得到处理后的风险文本;统计该风险用户对应的各处理后的风险文本中各字符的出现次数;将所述各处理后的风险文本中的各字符按照确定出的各字符的出现次数由大到小进行排序,并将设定排位之前的各字符所组成的字符串作为该风险用户对应的原始特征信息。5.如权利要求4所述的方法,将提取出的各风险用户对应的各原始特征信息中包含的字符进行变更处理,得到各风险用户对应的各风险特征信息,具体包括:从确定出的各原始特征信息中选取若干原始特征信息;针对选取出的各原始特征信息中的任意两个原始特征信息,将第一原始特征信息中的N个字符与第二文本特征信息中的M个字符进行交换,得到两个风险特征信息,N和M不小于1。6.如权利要求4所述的方法,将提取出的各风险用户对应的各原始特征信息中包含的字符进行变更处理,得到各风险用户对应的各风险特征信息,具体包括:从确定出的各原始特征信息中选取若干原始特征信息;针对选取出的每个原始特征信息,从除选取出的原始特征信息以外的其他原始特征信息中选取至少一个字符,并通过选取出的至少一个字符对该原始特征信息中的字符进行替换,得到该原始特征信息对应的风险特征信息。7.如权利要求5或6所述的方法,从确定出的各原始特征信息中选取若干原始特征信息,具体包括:分别为各风险用户分配随机数;确定随机数不超过设定数值的风险用户;将确定出的风险用户所对应的原始特征信息进行选取。8.一种风险识别的方法,包括:获取待识别文本;根据预先保存的各风险特征信息,对所述待识别文本进行风险识别,所述风险特征信息为如权利要求1~7任一方法所述的风险特征信息;当确定所述待识别文本与所述各风险特征信息中的至少一个风险特征信息相匹配时,则确定所述待识别文本为风险文本。9.如权利要求1所述的方法,确定所述待识别文本与所述各风险特征信息中的至少一个风险特征信息相匹配,具体包括:针对每个风险特征信息,当确定该风险特征信息中不低于设定数量的字符出现在所述待识别文本中时,则确定所述待识别文本与该风险特征信息相匹配。10.一种特征提取的装置,包括:采集模块,采集若干已识别出存在风险的各风险文本;选取模块,确定发送所述各风险文本的各用户,并从所述各用户中选取满足预设条件的若干用户作为风险用户;确定模块,针对每个风险用户...

【专利技术属性】
技术研发人员:何栋栋
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛,KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1