短文本垃圾识别以及建模方法和装置制造方法及图纸

技术编号:9223449 阅读:190 留言:0更新日期:2013-10-04 17:29
本发明专利技术公开了一种短文本垃圾识别以及建模方法和装置,所述方法包括:对待判定短文本进行分词得到词语集合,并对所述待判定短文本进行垃圾特征分析得到分析信息;将所述待判定短文本的分析信息以及词语集合中每个词语分别与预先确定的特征元素集合中的特征元素进行比较,根据与所述特征元素集合中的特征元素相匹配的词语或分析信息的特征值,生成所述待判定短文本的词语特征向量;根据所述待判定短文本的词语特征向量,以及分类模型,确定所述待判定短文本是否为垃圾文本;其中分类模型是结合训练集中的样本数,选择合适的分类算法预先训练出的。由于采用扩充了分析信息的特征值的词语特征向量进行垃圾识别,从而提高了识别垃圾文本的识别准确率。

【技术实现步骤摘要】
短文本垃圾识别以及建模方法和装置
本专利技术涉及互联网领域,尤其涉及一种短文本垃圾识别以及建模方法和装置。
技术介绍
互联网技术迅猛发展,网上信息爆炸式增长;随着生活、工作节奏的加快,人们越来越倾向于用简短的文字来沟通交流。以twitter(推特)和新浪微博为代表的以较小的短文本来生产、组织和传播信息的SNS(SocialNetworkService,社会性网络服务)网站,获得网友的青睐。目前,对互联网上的短文本内容进行自动垃圾识别的主要方法是,采用基于分类模型的方法,对于某个短文本内容将其分类为垃圾文本,或非垃圾文本;该方法包括:训练阶段和分类阶段。在训练阶段,根据训练集中大量的短文本进行建模:对于训练集中已区分为垃圾文本,或非垃圾文本的各个短文本,进行分词得到每个短文本的词语集合,根据每个短文本的词语集合计算得到每个短文本的词语特征向量;基于训练集中每个短文本的词语特征向量训练出分类模型。例如,运用SVM(SupportVectorMachine,支持向量机)分类算法、或贝叶斯分类算法、或决策树分类算法、或最大熵分类算法,根据所述训练集中各短文本的词语特征向量训练出分类模型。在分类阶段,对于待判定短文本,进行分词得到该待判定短文本的词语集合后,根据该待判定短文本的词语集合计算出该待判定短文本的词语特征向量;根据该待判定短文本的词语特征向量与之前训练出的分类模型,判定该待判定短文本是否为垃圾文本。如何根据该待判定短文本的词语特征向量和分类模型进行垃圾文本的判定有多种算法,为本领域技术人员所熟知,此处不再赘述。但是,在实际应用中,本专利技术的专利技术人发现,SNS网站由于其社交属性,在SNS网站上的短文本通常内容简短,基于如此简短内容而提取的词语集合中的词语很少,由此得到的词语特征向量中的有效的特征值非常稀疏,有时得到的短文本的词语特征向量中可能仅有1、2个有效的特征值;基于如此少的特征值进行垃圾文本集和非垃圾文本集的归属判断的准确性大大降低;亦即,目前现有技术的短文本内容的垃圾识别方法识别准确率不高。
技术实现思路
针对上述现有技术存在的缺陷,本专利技术提供了一种短文本垃圾识别以及建模方法和装置,用以提高对短文本的内容进行垃圾识别的准确性。根据本专利技术的一个方面,提供了一种短文本垃圾识别方法,包括:对待判定短文本进行分词得到词语集合,并对所述待判定短文本进行垃圾特征分析得到分析信息;将所述待判定短文本的分析信息以及词语集合中每个词语分别与预先确定的特征元素集合中的特征元素进行比较,根据与所述特征元素集合中的特征元素相匹配的词语或分析信息的特征值,生成所述待判定短文本的词语特征向量;根据所述待判定短文本的词语特征向量,以及预先训练出的分类模型,确定所述待判定短文本是否为垃圾文本。较佳地,所述分析信息包括如下任一信息,或如下信息的任意组合:是否包含联系方式特征的信息、干扰性符号的占比信息、生僻字的占比信息、繁体字符的占比信息、词语间的转移概率、前后词的词性间转移概率、名词的占比信息、动词的占比信息、标点符号的占比信息、一元词的占比信息、二元词的占比信息、不同词性词汇搭配比例、标点符号与名词的数量比例信息。较佳地,所述分析信息的特征值具体包括:对于所述是否包含联系方式特征的信息,其特征值为二值的0或1;对于所述干扰性符号的占比信息、或生僻字的占比信息、或繁体字符的占比信息、或词语间的转移概率、或前后词的词性间转移概率、或名词的占比信息、或动词的占比信息、或标点符号的占比信息、或一元词的占比信息、或二元词的占比信息、或不同词性词汇搭配比例、或标点符号与名词的数量比例信息,其特征值为0~1之间的数值。进一步的,在所述生成所述待判定短文本的词语特征向量之前,还包括:对与所述特征元素集合中的特征元素相匹配的分析信息的特征值进行归一化:将其中是否包含联系方式特征的信息的特征值归一化为二值的0或100;将其中干扰性符号的占比信息、或生僻字的占比信息、或繁体字符的占比信息、或词语间的转移概率、或前后词的词性间转移概率、或名词的占比信息、或动词的占比信息、或标点符号的占比信息、或一元词的占比信息、或二元词的占比信息、或不同词性词汇搭配比例、或标点符号与名词的数量比例信息的特征值乘以100,得到0~100之间的归一化数值。较佳地,所述词语的特征值根据如下方法得到:计算该词语的TF、IDF值,并根据如下公式1计算出该词语的特征值:log(TF+1.0)×IDF(公式1)较佳地,所述分类模型的训练方法,以及所述特征元素集合的确定方法包括:对于训练集中已区分为垃圾文本,或非垃圾文本的每个短文本,进行分词后得到该短文本的词语集合,并对该短文本进行垃圾特征分析后得到该短文本的分析信息;针对所述训练集中的每个短文本,计算该短文本的词语集合中每个词语的特征值,并计算该短文本的分析信息的特征值后,对计算出的特征值求取类别区分度;将类别区分度大于设定阈值的词语,以及分析信息作为所述特征元素集合中的特征元素;针对所述训练集中的每个短文本,将该短文本的分析信息以及词语集合中每个词语分别与所述特征元素集合中的特征元素进行比较,根据与所述特征元素集合中的特征元素相匹配的词语或分析信息的特征值,生成该短文本的词语特征向量;根据所述训练集中各短文本的词语特征向量训练出所述分类模型。较佳地,所述根据所述训练集中各短文本的词语特征向量训练出所述分类模型具体为:运用SVM分类算法、或贝叶斯分类算法、或决策树分类算法、或最大熵分类算法,根据所述训练集中各短文本的词语特征向量训练出所述分类模型。根据本专利技术的另一个方面,还提供了一种建模方法,包括:对于训练集中已区分为垃圾文本,或非垃圾文本的每个短文本,进行分词后得到该短文本的词语集合,并对该短文本进行垃圾特征分析后得到该短文本的分析信息;针对所述训练集中的每个短文本,计算该短文本的词语集合中每个词语的特征值,并计算该短文本的分析信息的特征值后,对计算出的特征值求取类别区分度;将类别区分度大于设定阈值的词语,以及分析信息作为特征元素集合中的特征元素;针对所述训练集中的每个短文本,将该短文本的分析信息以及词语集合中每个词语分别与所述特征元素集合中的特征元素进行比较,根据与所述特征元素集合中的特征元素相匹配的词语或分析信息的特征值,生成该短文本的词语特征向量;根据所述训练集中各短文本的词语特征向量训练出分类模型。较佳地,所述分析信息包括如下任一信息,或如下信息的任意组合:是否包含联系方式特征的信息、干扰性符号的占比信息、生僻字的占比信息、繁体字符的占比信息、词语间的转移概率、前后词的词性间转移概率、名词的占比信息、动词的占比信息、标点符号的占比信息、一元词的占比信息、二元词的占比信息、不同词性词汇搭配比例、标点符号与名词的数量比例信息。较佳地,所述分析信息的特征值具体包括:对于所述是否包含联系方式特征的信息,其特征值为二值的0或1;对于所述干扰性符号的占比信息、或生僻字的占比信息、或繁体字符的占比信息、或词语间的转移概率、或前后词的词性间转移概率、或名词的占比信息、或动词的占比信息、或标点符号的占比信息、或一元词的占比信息、或二元词的占比信息、或不同词性词汇搭配比例、或标点符号与名词的数量比例信息,其特征值为0本文档来自技高网
...
短文本垃圾识别以及建模方法和装置

【技术保护点】
一种短文本垃圾识别方法,其特征在于,包括:?对待判定短文本进行分词得到词语集合,并对所述待判定短文本进行垃圾特征分析得到分析信息;?将所述待判定短文本的分析信息以及词语集合中每个词语分别与预先确定的特征元素集合中的特征元素进行比较,根据与所述特征元素集合中的特征元素相匹配的词语或分析信息的特征值,生成所述待判定短文本的词语特征向量;?根据所述待判定短文本的词语特征向量,以及预先训练出的分类模型,确定所述待判定短文本是否为垃圾文本。

【技术特征摘要】
1.一种短文本垃圾识别方法,其特征在于,包括:对待判定短文本进行分词得到词语集合,并对所述待判定短文本进行垃圾特征分析得到分析信息;将所述待判定短文本的分析信息以及词语集合中每个词语分别与预先确定的特征元素集合中的特征元素进行比较,根据与所述特征元素集合中的特征元素相匹配的词语或分析信息的特征值,生成所述待判定短文本的词语特征向量;根据所述待判定短文本的词语特征向量,以及预先训练出的分类模型,确定所述待判定短文本是否为垃圾文本;其中,所述分析信息包括如下任一信息,或如下信息的任意组合:是否包含联系方式特征的信息、干扰性符号的占比信息、生僻字的占比信息、繁体字符的占比信息、词语间的转移概率、前后词的词性间转移概率、名词的占比信息、动词的占比信息、标点符号的占比信息、一元词的占比信息、二元词的占比信息、不同词性词汇搭配比例、标点符号与名词的数量比例信息;以及所述分析信息的特征值具体包括:对于所述是否包含联系方式特征的信息,其特征值为二值的0或1;对于所述干扰性符号的占比信息、或生僻字的占比信息、或繁体字符的占比信息、或词语间的转移概率、或前后词的词性间转移概率、或名词的占比信息、或动词的占比信息、或标点符号的占比信息、或一元词的占比信息、或二元词的占比信息、或不同词性词汇搭配比例、或标点符号与名词的数量比例信息,其特征值为0~1之间的数值。2.如权利要求1所述的方法,其特征在于,在所述生成所述待判定短文本的词语特征向量之前,还包括:对与所述特征元素集合中的特征元素相匹配的分析信息的特征值进行归一化:将其中是否包含联系方式特征的信息的特征值归一化为二值的0或100;将其中干扰性符号的占比信息、或生僻字的占比信息、或繁体字符的占比信息、或词语间的转移概率、或前后词的词性间转移概率、或名词的占比信息、或动词的占比信息、或标点符号的占比信息、或一元词的占比信息、或二元词的占比信息、或不同词性词汇搭配比例、或标点符号与名词的数量比例信息的特征值乘以100,得到0~100之间的归一化数值。3.如权利要求1或2所述的方法,其特征在于,所述词语的特征值根据如下方法得到:计算该词语的TF、IDF值,并根据如下公式1计算出该词语的特征值:log(TF+1.0)×IDF(公式1)。4.如权利要求1或2所述的方法,其特征在于,所述分类模型的训练方法,以及所述特征元素集合的确定方法包括:对于训练集中已区分为垃圾文本,或非垃圾文本的每个短文本,进行分词后得到该短文本的词语集合,并对该短文本进行垃圾特征分析后得到该短文本的分析信息;针对所述训练集中的每个短文本,计算该短文本的词语集合中每个词语的特征值,并计算该短文本的分析信息的特征值后,对计算出的特征值求取类别区分度;将类别区分度大于设定阈值的词语,以及分析信息作为所述特征元素集合中的特征元素;针对所述训练集中的每个短文本,将该短文本的分析信息以及词语集合中每个词语分别与所述特征元素集合中的特征元素进行比较,根据与所述特征元素集合中的特征元素相匹配的词语或分析信息的特征值,生成该短文本的词语特征向量;根据所述训练集中各短文本的词语特征向量训练出所述分类模型。5.如权利要求4所述的方法,其特征在于,所述根据所述训练集中各短文本的词语特征向量训练出所述分类模型具体为:运用SVM分类算法、或贝叶斯分类算法、或决策树分类算法、或最大熵分类算法,根据所述训练集中各短文本的词语特征向量训练出所述分类模型。6.一种建模方法,其特征在于,包括:对于训练集中已区分为垃圾文本,或非垃圾文本的每个短文本,进行分词后得到该短文本的词语集合,并对该短文本进行垃圾特征分析后得到该短文本的分析信息;针对所述训练集中的每个短文本,计算该短文本的词语集合中每个词语的特征值,并计算该短文本的分析信息的特征值后,对计算出的特征值求取类别区分度;将类别区分度大于设定阈值的词语,以及分析信息作为特征元素集合中的特征元素;针对所述训练集中的每个短文本,将该短文本的分析信息以及词语集合中每个词语分别与所述特征元素集合中的特征元素进行比较,根据与所述特征元素集合中的特征元素相匹配的词语或分析信息的特征值,生成该短文本的词语特征向量;根据所述训练集中各短文本的词语特征向量训练出分类模型;其中,所述分析信息包括如下任一信息,或如下信息的任意组合:是否包含联系方式特征的信息、干扰性符号的占比信息、生僻字的占比信息、繁体字符的占比信息、词语间的转移概率、前后词的词性间转移概率、名词的占比信息、动词的占比信息、标点符号的占比信息、一元词的占比信息、二元词的占比信息、不同词性词汇搭配比例、标点符号与名词的数量比例信息;以及所述分析信息的特征值具体包括:对于所述是否包含联系方式特征的信息,其特征值为二值的0或1;对于所述干扰性符号的占比信息、或生僻字的占比信息、或繁体字符的占比信息、或词语间的转移概率、或前后词的词性间转移概率、或名词的占比信息、或动词的占比信息、或标点符号的占比信息、或一元词的占比信息、或二元词的占比信息、或不同词性词汇搭配比例、或标点符号与名词的数量比例信息,其特征值为0~1之间的数值。7.如权利要求6所述的方法,其特征在于,在所述计算该短文本的分析信息的特征值后,以及所...

【专利技术属性】
技术研发人员:姜贵彬
申请(专利权)人:微梦创科网络科技中国有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1