一种识别垃圾文本的方法和系统技术方案

技术编号:3756643 阅读:282 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种识别垃圾文本的方法和系统,该方法包括:提取垃圾样本的特征,按照包含该特征的文本属于垃圾文本的概率从垃圾样本的所有特征中确定出垃圾特征,并为每个垃圾特征赋予垃圾权重,由所有赋予了垃圾权重的垃圾特征组成垃圾特征库;将待处理文本与垃圾特征库中的垃圾特征进行匹配,根据匹配到的所有垃圾特征的垃圾权重判断待处理文本是否是垃圾文本。该系统包括垃圾特征库和垃圾文本识别装置;垃圾特征库,存储有赋予了垃圾权重的垃圾特征;垃圾文本识别装置,接收待处理文本,将待处理文本与垃圾特征库中的垃圾特征进行匹配,根据匹配到的所有垃圾特征的垃圾权重判断待处理文本是否是垃圾文本。本发明专利技术能够提高识别垃圾文本的准确性。

【技术实现步骤摘要】

本专利技术涉及互联网信息处理和冲莫式识别
,尤其涉及一种识别垃 ;及文本的方法和系统。
技术介绍
在互联网领域中,为了能够为互联网用户提供其所需要的信息,需要进 行信息过滤。信息过滤是指,计算机根据反映用户需求的模板信息,从动态 变化的信息流中识别出满足用户需求的信息,并剔除与用户需求无关或者对 用户需求有害的信息。信息过滤的一个典型应用是,从互联网中的新闻文本、问答互动平台中 的提问或回答文本等文本中过滤垃圾文本,使得提供给用户的新闻文本、挺 问文本和回答文本是能够满足用户需求的文本。过滤垃圾文本的过程中,首先要识别出垃圾文本。目前,现有技术中存 在一种根据敏感词识别垃圾文本的方法,具体参见图1。图l是现有技术中根据敏感词识别垃圾文本的方法流程图,如图l所示,该方法包4舌步骤101:手动方式建立敏感词表。该敏感词表由垃圾文本识别程序或者装置的设计人员根据当前的社会需求来确定,例如,将涉及当前国家安全的词、网络广告中的常用词设置为敏感词,存入敏感词表中。步骤102:判断待处理文本中是否包含敏感词表中的敏感词,如果是,执行步骤103,否则,4丸行步骤104。步骤103,将该待处理文本识别为垃圾文本,结束本流程。步骤104,将该待处理文本识別为非垃圾文本,结束本流程。由图l可见,现有这种识别垃圾文本的方法中,只要待处理文本中含有敏感词,就将其识别为垃圾文本,而实际上,待处理文本中含有的敏感词不同、或者含有敏感词的数目不同时,其属于垃圾文本的概率也是不同的,图 1所示方法将非垃圾文本识别为垃圾文本的概率较大。
技术实现思路
有鉴于此,本专利技术实施例的目的在于提供一种识别垃圾文本的方法和系 统,以提高识别垃圾文本的准确性。为达到上述目的,本专利技术实施例的技术方案具体是这样实现的 一种识别垃圾文本的方法,该方法包括提取垃圾样本的特征,按照包含该特征的文本属于垃圾文本的概率从垃圾 样本的所有特征中确定出垃圾特征,并为每个垃圾特征赋予垃圾权重,由所有 赋予了垃圾权重的垃圾特征组成垃圾特征库;将待处理文本与垃圾特征库中的垃圾特征进行匹配,根据匹配到的所有垃 圾特征的垃圾权重判断待处理文本是否是垃圾文本。一种识别垃圾文本的系统,该系统包括垃圾特征库和垃圾文本识别装置;所述垃圾特征库,存储有赋予了垃圾权重的垃圾特征;所述垃圾文本识别装置,接收待处理文本,将待处理文本与垃圾特征库中 的垃圾特征进行匹配,根据匹配到的所有垃圾特征的垃圾权重判断待处理文本 是否是垃圾文本。由上述技术方案可见,本专利技术在识别垃圾文本之前,预先建立垃圾特征库, 其中的每个垃圾特征都按照包含该垃圾特征的文本属于垃圾文本的概率被赋予 了垃圾权重,在识别垃圾文本时,首先提取待处理文本的特征,判断待处理文 本的各个特征是否在垃圾特征库中,根据匹配到的所有垃圾特征的垃圾权重判 断待处理文本是否是垃圾文本,与现有技术中只要匹配到垃圾特征,就将其判 定为垃圾文本相比,由于本专利技术考虑了匹配到的所有垃圾特征,并根据所有垃 圾特征的垃圾权重判断待处理文本是否是垃圾文本,因此,能够提高识别垃圾 文本的准确性。附图说明图1是现有技术中根据敏感词识别垃圾文本的方法流程图。 图2是本专利技术识别垃圾文本的方法流程图。图3是从本专利技术角度一出发识别垃圾文本的方法流程图。 图4是本专利技术通过建立敏感词的上下文特征库来实现根据上下文的语义联 系识别垃圾文本的方法流程图。图5是从本专利技术角度二出发识别垃圾文本的方法流程图。 图6是本专利技术识别垃圾文本的系统结构图。具体实施例方式为使本专利技术的目的、技术方案及优点更加清楚明白,以下参照附图并举 实施例,对本专利技术进一步详细说明。本专利技术识别垃圾文本的方法主要分为两大步骤,具体请见图2。图2是本专利技术识别垃圾文本的方法流程图,如图2所示,该方法包括步骤201,建立垃圾特征库。本步骤中,提取垃圾样本的特征,按照包含该特征的文本属于垃圾文本的 概率从垃圾样本的所有特征中确定出垃圾特征,并为每个垃圾特征赋予垃圾权 重,由所有赋予了垃圾权重的垃圾特征组成垃圾特征库。其中的垃圾样本一般由编辑人员/;j斤有文本中进行人工筛选,然后手动标注得到。步骤202,根据匹配到的所有垃圾特征判断待处理文本是否是垃圾文本。 本步骤中,首先提取待处理文本的特征,判断待处理文本的各个特征是否在垃圾特征库中,然后根据匹配到的所有垃圾特征的垃圾权重判断待处理文本是否是垃圾文本。一般来说,不同的处理对象表现出的特征不相同。例如,与新闻类型的文 本相比,问答互动平台的文本的长度较短。不同的处理对象中的垃圾文本涵 盖的范围也不相同,例如,问答互动平台的垃圾文本中包括威胁国家或社会 稳定的反动、色情等特定内容的信息,与问答互动平台的知识性相背离的广 告、征友、恶意灌水、恶意辱骂等非问答信息。问答互动平台的文本的特殊性,给问答互动平台的垃圾文本过滤带来了 困难。例如,由于互动问答平台的文本一般较短,比如提问文本一般不超过 100个汉字,平均长度是20个汉字,这使得挖掘这类文本的信息的难度加 大。另外,问答互动平台的文本的规范性也很差。例如,在词法上,存在口语、方言、错字、火星文、脑残体等非常规汉字;在表达上,标点符号使用 很不规范,有的提问文本甚至没有标点符号。本专利技术针对问答互动平台的文本的特殊性,从多个角度提取问答互动平台 的文本的特征,从中提取出垃圾特征并建立垃圾特征库,然后根据垃圾特征库 识别待处理文本是否是垃圾文本。从本专利技术提供的任意角度出发,均能够提高 识别垃圾文本的准确性,当综合考虑垃圾特征库中从各个角度触发提取的垃圾 特征来识別垃圾文本时,识别垃圾文本的准确性会进一步得到提高。另外,针 对问答互动平台的文本的不规范性,还可以在从垃圾样本中提取特征和从待处 理文本中提取特征之前,对垃圾样本和待处理文本进行预处理, 一方面减小垃 圾特征库的大小,另 一方面也提高识别垃圾文本的速度。上文所述从多个角度提取问答互动平台的文本的特征主要包括三个角度。 角度一,从问答互动平台的文本中可能包括威胁国家或社会稳定的反动、色 情等特定内容的信息出发,由编辑人员以手动方式建立敏感词表,将表示该 特定内容的敏感词写入敏感词表,并根据当前的社会需求即根据包含该敏感 词的文本属于垃圾文本的概率为每个敏感词赋予垃圾权重。角度二,从问答 互动平台的文本中可能包括与问答互动平台的知识性相背离的广告、征友、 恶意灌水、恶意辱骂等非问答信息出发,利用有监督的机器学习机制从这些 非问答信息中学习出垃圾特征,并根据包含该垃圾特征的文本属于垃圾文本 的概率为每个垃圾特征赋予垃圾权重。通过角度二可以涵盖角度一所未能涵 盖的其他垃圾特征。角度三,从问答互动平台中的垃圾文本的格式角度出发, 根据广告、征友、恶意灌水、恶意辱骂等垃圾文本所具有的区别于非垃圾文 本的格式信息,提取相应的格式特征。其中,在从角度一或角度二出发识别垃圾文本时,还可以将同时出现在同 一垃圾样本中的概率大于第 一预定阈值的两个以上的特征组合为组合垃圾特 征,将该組合垃圾特征确定为用于组成垃圾特征库的特征并写入垃i及特征库。 由于通常情况下,当某些特征同时出现在待处理文本中时,待处理文本是垃圾 文本的概率较大,而当该某些特征中只有一个特征出现在待处理文本中时本文档来自技高网...

【技术保护点】
一种识别垃圾文本的方法,其特征在于,该方法包括: 提取垃圾样本的特征,按照包含该特征的文本属于垃圾文本的概率从垃圾样本的所有特征中确定出垃圾特征,并为每个垃圾特征赋予垃圾权重,由所有赋予了垃圾权重的垃圾特征组成垃圾特征库; 将待 处理文本与垃圾特征库中的垃圾特征进行匹配,根据匹配到的所有垃圾特征的垃圾权重判断待处理文本是否是垃圾文本。

【技术特征摘要】

【专利技术属性】
技术研发人员:刘怀军方高林
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:94[中国|深圳]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1