【技术实现步骤摘要】
对消息进行过滤处理的方法及装置
本专利技术涉及信息处理技术,尤其涉及对消息进行过滤处理的方法及装置。
技术介绍
在消息发布领域,常涉及对消息进行过滤处理,以确定发布的是否为低质量消息,如果为低质量消息,则滤除掉该消息,进而筛选出高质量的消息。 进行消息滤除的应用场景很多,下面具体以在微博平台发布消息为例,进行说明。微博平台是一个比较开放的消息分享与交流平台,同时微博开放平台提供了较多的应用程序编程接口(API,Applicat1n Programming Interface),通过API将微博平台的功能开放给第三方应用。目前使用微博开放平台的API应用多达2000家,在众多应用中,各个应用发布的消息质量参差不齐。很多应用在微博平台发布的消息质量很低,带来很大的干扰;为此需要一套低质量过滤方案,以自动识别出低质量消息,帮助筛选高质量的消息,优化消息发布。 目前对消息进行过滤处理的方法主要有以下两种,下面进行详细说明。 方法一、 根据消息来源判断消息是低质量消息还是高质量消息。该方法存在以下缺陷:分析消息的发表来源比较困难,较难实现对消息的质量的判别,导致筛选的准确率较低。 针对开放平台的某一应用,根据消息来源对该应用发布的所有消息进行过滤,如果判断出发布的消息中80%为低质量消息,可以封杀该应用的分享能力;但这种方式只能封杀发布大量低质量内容的应用,对于发布少量低质量内容的应用无法进行封杀。 方法二、 首先进行分析,提取低质量特征词;然后进行判断,如果消息中包含这些特征词,则判定为低质量消息的概率很高,将其确定为低质量消 ...
【技术保护点】
一种对消息进行过滤处理的方法,其特征在于,该方法包括:由消息训练样本构建出特征词数据模型,特征词数据模型包含特征词与特征词所在消息的低质量概率之间的映射关系;从待处理消息中提取特征词;采用特征词训练模型确定出特征词对应的低质量概率,对待处理消息的所有特征词对应的低质量概率进行联合计算,得到联合概率,作为待处理消息的低质量概率;判断待处理消息的低质量概率是否大于第一设定阈值,如果是,则将待处理消息滤除掉。
【技术特征摘要】
1.一种对消息进行过滤处理的方法,其特征在于,该方法包括: 由消息训练样本构建出特征词数据模型,特征词数据模型包含特征词与特征词所在消息的低质量概率之间的映射关系; 从待处理消息中提取特征词; 采用特征词训练模型确定出特征词对应的低质量概率,对待处理消息的所有特征词对应的低质量概率进行联合计算,得到联合概率,作为待处理消息的低质量概率; 判断待处理消息的低质量概率是否大于第一设定阈值,如果是,则将待处理消息滤除掉。2.如权利要求1所述的方法,其特征在于,所述由消息训练样本构建出特征词数据模型包括: 从消息训练样本中选取一组低质量消息和高质量消息; 由选取的低质量消息和高质量消息,构建出特征词数据模型; 再从消息训练样本中提取另一组低质量消息和高质量消息,采用提取的所述另一组低质量消息和高质量消息计算由特征词数据模型确定低质量消息的准确率; 判断准确率是否低于第二设定阈值,如果是,则对构建的特征词数据模型进行调整;否贝U,将构建出的特征词数据模型用于后续计算。3.如权利要求1所述的方法,其特征在于,所述从待处理消息中提取特征词包括: 对待处理消息进行降噪处理,得到降噪处理后消息; 对降噪处理后消息进行划分,得到分词; 计算出各分词在降噪处理后消息中的权重,对权重进行排序,从最大的权重开始提取出设定个数的分词,作为待处理消息的特征词。4.如权利要求3所述的方法,其特征在于,所述计算出各分词在降噪处理后消息中的权重包括: 将需要计算的分词称为待处理分词,计算出待处理分词在降噪处理后消息中出现的概率TF =TF=(待处理分词在降噪处理后消息中出现的个数)/(降噪处理后消息中出现的分词总个数); 计算出待处理分词在消息训练样本中出现的概率IDF:IDF=log(消息训练样本的消息总条数/(包含待处理分词的消息条数+1)); 由TF和IDF计算出待处理分词在降噪处理后消息中的权重TF-1DF:TF-1DF=TF*IDF。5.如权利要求1至4中任一项所述的方法,其特征在于,如果判断出待处理消息的低质量概率不大于第一设定阈值,则将待处理消息推送给请求方。6.如权利要求5所述的方法,其特征在于,所述从待处理消息中提取特征词之前,该方法还包括: 接收请求方输入的订阅条件; 判断待处理消息是否满足订阅条件,如果满足,则执行所述从待处理消息中提取特征词的步骤。7.如权利要求6所述的方法,其特征在于,接收请求方输入的订阅条件之后,该方法还包括: 判断是否进行了消息更新,如果是,则将更新消息作为待处理消息,执行所述判断待处理消息是否满足订阅条件的步骤。8.一种对消息进行过滤处理的装置,其特征在于,该装置包括模型训练单元、特征词提取单元、联合概率计算单元和过滤判断单元; 所述模型训练单元,由消息训练样本构建出特征词数据模型,特征词数据模型包含特征词与特征词所在消息的低质量概率之间的映射关系; 所述特征词提取单元,从待处理消息中提取特征词,发送给所述联合概率计算单元; ...
【专利技术属性】
技术研发人员:贾铸斌,袁昌文,
申请(专利权)人:腾讯科技北京有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。