基于信息增益的英文社交媒体账号分类方法技术

技术编号:16779614 阅读:108 留言:0更新日期:2017-12-12 23:54
本发明专利技术公开了一种基于信息增益的英文社交媒体账号分类方法,包括以下步骤:S1、数据预处理,得到账号的特征词;S2、特征选取:利用信息增益的方法对账号的特征词进行选择,得到具有类别代表性的特征词;S3、特征扩散:利用wordnet寻找特征词的近义词和人工增加领域类别的一些关键词对特征词进行扩散;S4、分类模型构建:采用机器学习技术进行处理,生成账号分类的分类模型;S5、对未知的社交媒体账号进行分类。本发明专利技术将常用的文本分类的方法应用于英文社交媒体的账号分类,使用户能从海量的账户中能够快速查找出某一领域类别的账号,并从中获取该领域类别的相关有效信息。

English social media account classification method based on information gain

The invention discloses a classification method of information gain English social media account based on S1, which comprises the following steps: data preprocessing, feature words account; S2, feature selection methods: feature words using information gain to account for selection, with class representative feature words; S3, feature diffusion: the use of WordNet to find the feature word synonyms and artificially increase the field categories some keywords of feature words spread; constructing S4, classification model: using machine learning technology, classification model generation account classification; S5, the unknown social media account classification. The invention applies the commonly used text classification method to account classification of English social media, enabling users to quickly find out accounts in a specific category from massive accounts, and get relevant effective information in this category.

【技术实现步骤摘要】
基于信息增益的英文社交媒体账号分类方法
本专利技术属于文本分类
,特别涉及一种基于信息增益的英文社交媒体账号分类方法。
技术介绍
文本分类技术,是信息检索和文本挖掘的重要基础,其主要任务是在预先给定的类别标记集合下,根据文本内容判定它的类别。文本分类在自然语言处理与理解、信息组织与管理、内容信息过滤等领域有着广泛的应用。20世纪90年代逐渐成熟的基于机器学习的文本分类方法,更注重分类器的模型自动挖掘和生成及动态优化能力,在分类效果和灵活性上都比之前基于知识工程和专家系统的文本分类模式有所突破,成为相关领域研究和应用的经典范例。对于文本分类这一课题,已经有一些常用的流程。基于机器学习文本分类的基础技术由文本的表示、分类方法及效果评估三部分组成。其中文本表示主要用到了项或特征的向量空间表示模型以及特征选择、特征提取等特征提取方法。分类方法主要用到了一些较成熟的分类模型方法,如朴素贝叶斯、支持向量机等。分类效果指标有例如正确率(precision)、召回率(recall)、精度(accuracy)等。但是,文本种类的多样性、标注的困难等问题还是给文本分类带来了巨大的挑战。随着网络技术的发展,社交媒体已经成为最大最活跃的社交平台,为数亿用户提供优质且良好的沟通渠道。社交媒体在人们的日常生产生活中扮演着越来越重要的角色,社交媒体的账号数量与日俱增,各种信息充斥于社交媒体中,使得从海量社交媒体数据中提取所关注领域信息的工作量十分巨大。社交媒体用户由于个人爱好、工作性质等原因导致用户发布的博文通常具有一定的领域性特点。如果能够将海量的账号根据其所关注领域进行分类,例如分为政治、经济、体育等类别,那么我们就可以从某一类别的账号中快速准确地获取到所关注领域的信息,信息获取更具有针对性。现有对账号分类的研究主要集中于垃圾账号识别这一方面,主要利用账号的一些统计特征,例如一个账号的好友数、发送状态数量等等来对一些广告账号、僵尸账号等垃圾账号进行过滤。然而对于一个社交媒体账号,怎样判断它涉及的内容是属于体育、娱乐或是别的领域的,目前还没有成熟的方法。而且社交网络账号发布的博文文本一般以短文本居多,如何利用社交媒体账号的博文信息进行账号分类成为了难点。利用文本分类的方法去进行社交媒体账号的分类,迄今为止也没有相关的研究。
技术实现思路
本专利技术的目的在于克服现有技术的不足,提供一种将常用的文本分类的方法应用于英文社交媒体的账号分类,使用户能从海量的账户中能够快速查找出某一领域类别的账号,并从中获取该领域类别的相关有效信息的基于信息增益的英文社交媒体账号分类方法。本专利技术的目的是通过以下技术方案来实现的:基于信息增益的英文社交媒体账号分类方法,包括以下步骤:S1、数据预处理:对社交媒体账号发布的博文做分词处理、去除停止词及无用符号处理,得到账号的特征词;S2、特征选取:利用信息增益的方法对账号的特征词进行选择,得到具有类别代表性的特征词;S3、特征扩散:利用wordnet寻找特征词的近义词和人工增加领域类别的一些关键词来对S2得到的特征词进行扩散;S4、分类模型构建:人工标注少量账号样本,并利用词袋模型,选用词频对账号进行特征的提取,构建样本训练集;然后采用机器学习技术进行处理,生成账号分类的分类模型,实现对英文社交媒体账号的识别;S5、对未知的社交媒体账号进行分类:利用步骤S4生成的分类模型,对未知的社交媒体账号进行分类,得到未知社交媒体账号的类别属性,完成社交媒体账号类别的划分。进一步地,所述步骤S1具体实现方法为:分词处理:将账号的文本语句切分成字词,以字词来作为特征表征一个账号;去除停止词及无用符号处理:将冠词、介词设置为停止词,将语句的标点符号设置为无用符号;将停止词和无用符号删除。进一步地,所述步骤S2具体实现方法为:信息增益是一种基于熵的评估方法,其用于特征选择时,衡量的是某个词的出现与否对判断一个文本是否属于某个类所提供的信息量;其定义为某一特征值在文档中出现前后的信息量之差,计算公式为:其中P(ω)表示特征词ω在文本中出现的概率;P(ci|ω)表示文本包含ω时属于ci类的条件概率;P(ci)表示ci类文本在文本集中出现的概率;表示文本中不包含特征词ω的概率,表示文本不包含特征词ω时属于ci类的条件概率,|c|表示类别总数;根据信息增益计算公式计算每个特征词的信息增益,并选择信息增益大于设定的阈值的特征词作为具有类别代表性的特征词,进行下一步操作。进一步地,所述步骤S3具体实现方法为:利用wordnet进行特征词的扩展:利用wordnet寻找出一个特征词不同词性类别的近义词;人工增加领域类别关键词:通过字典词库,选择专业词汇对对特征词进行扩充。进一步地,所述步骤S4中采用支持向量机的机器学习算法对样本集进行分类识别;具体实现方法为:构造一个最优分类超平面wx+b=0,用于对样本集进行分类,其中,w为超平面的法向量,b为截距;对于给定一个特征空间上的训练数据集T={(x1,y1),(x2,y2),...,(xN,yN)},其中xi∈X=Rn,yi∈Y={+1,-1},i=1,2,...,N,N为样本数量;xi为第i个特征向量,也称为实例;yi为xi的类标记,当yi=1时,称xi为正例;当yi=-1时,称xi为负例,(xi,yi)称为样本点;直线H把正例样本和负例样本分开,称为分类线;分别在正例样本和负例样本中找到离分类线H最近的样本点,分别过该样本点做平行于分类线H的直线,记为H1和H2;直线H1和H2之间的距离叫做分类间隔;定义超平面(w,b)关于样本点(xi,yi)的函数间隔为:定义超平面(w,b)关于训练数据集T的函数间隔为超平面(w,b)关于T中所有样本点(xi,yi)的函数间隔之最小值,即:而对于给定的训练数据集T和超平面(w,b),定义超平面(w,b)关于样本点(xi,yi)的几何间隔为:||w||为w的L2范数;定义超平面(w,b)关于训练数据集T的几何间隔为超平面(w,b)关于T中所有样本点(xi,yi)的几何间隔之最小值,即:将最大化间隔分离超平面转化为下面的约束优化问题:因为函数间隔和w,b的取值有关,但是又不影响最优化问题的解,所以取得到下面的线性可分支持向量机学习的最优化问题:求得:通过上式,得到使得b最大化的||w||,得到最终的最优分类超平面。本专利技术的有益效果是:1、本专利技术将常用的文本分类的方法应用于英文社交媒体的账号分类,能够基于英文社交媒体的账号发布的博文文本信息对英文社交媒体账号进行领域类别的划分,使用户能从海量的账户中能够快速查找出某一领域类别的账号,并从中获取该领域类别的相关有效信息;2、本专利技术利用wordnet寻找特征词的近义词、并人工添加领域类别的专有词这两种方式,对特征词集进行扩充,使特征词集更具有类别代表性和类别区分度,弥补了单纯使用文本分类的处理方式对账号进行分类的不足,提升了账户分类的准确度。附图说明图1为本专利技术的英文社交媒体账号分类方法的流程图;图2为本专利技术的支持向量机最优分类面示意图。具体实施方式下面结合附图进一步说明本专利技术的技术方案。如图1所示,基于信息增益的英文社交媒体账号分类方法,包括以下步骤:S1、数据预处理:对社交媒体账号发布的博文做分词处理、本文档来自技高网
...
基于信息增益的英文社交媒体账号分类方法

【技术保护点】
基于信息增益的英文社交媒体账号分类方法,其特征在于,包括以下步骤:S1、数据预处理:对社交媒体账号发布的博文做分词处理、去除停止词及无用符号处理,得到账号的特征词;S2、特征选取:利用信息增益的方法对账号的特征词进行选择,得到具有类别代表性的特征词;S3、特征扩散:利用wordnet寻找特征词的近义词和人工增加领域类别的一些关键词来对S2得到的特征词进行扩散;S4、分类模型构建:人工标注少量账号样本,并利用词袋模型,选用词频对账号进行特征的提取,构建样本训练集;然后采用机器学习技术进行处理,生成账号分类的分类模型,实现对英文社交媒体账号的识别;S5、对未知的社交媒体账号进行分类:利用步骤S4生成的分类模型,对未知的社交媒体账号进行分类,得到未知社交媒体账号的类别属性,完成社交媒体账号类别的划分。

【技术特征摘要】
1.基于信息增益的英文社交媒体账号分类方法,其特征在于,包括以下步骤:S1、数据预处理:对社交媒体账号发布的博文做分词处理、去除停止词及无用符号处理,得到账号的特征词;S2、特征选取:利用信息增益的方法对账号的特征词进行选择,得到具有类别代表性的特征词;S3、特征扩散:利用wordnet寻找特征词的近义词和人工增加领域类别的一些关键词来对S2得到的特征词进行扩散;S4、分类模型构建:人工标注少量账号样本,并利用词袋模型,选用词频对账号进行特征的提取,构建样本训练集;然后采用机器学习技术进行处理,生成账号分类的分类模型,实现对英文社交媒体账号的识别;S5、对未知的社交媒体账号进行分类:利用步骤S4生成的分类模型,对未知的社交媒体账号进行分类,得到未知社交媒体账号的类别属性,完成社交媒体账号类别的划分。2.根据权利要求1所述的基于信息增益的英文社交媒体账号分类方法,其特征在于,所述步骤S1具体实现方法为:分词处理:将账号的文本语句切分成字词,以字词来作为特征表征一个账号;去除停止词及无用符号处理:将冠词、介词设置为停止词,将语句的标点符号设置为无用符号;将停止词和无用符号删除。3.根据权利要求1所述的基于信息增益的英文社交媒体账号分类方法,其特征在于,所述步骤S2具体实现方法为:信息增益是一种基于熵的评估方法,其用于特征选择时,衡量的是某个词的出现与否对判断一个文本是否属于某个类所提供的信息量;其定义为某一特征值在文档中出现前后的信息量之差,计算公式为:其中P(ω)表示特征词ω在文本中出现的概率;P(ci|ω)表示文本包含ω时属于ci类的条件概率;P(ci)表示ci类文本在文本集中出现的概率;表示文本中不包含特征词ω的概率,表示文本不包含特征词ω时属于ci类的条件概率,|c|表示类别总数;根据信息增益计算公式计算每个特征词的信息增益,并选择信息增益大于设定的阈值的特征词作为具有类别代表性的特征词,进行下一步操作。4.根据权利要求1所述的基于信息增益的英文社交媒体账号分类方法,其特征在于,所述步骤S3具体实现方法为:利用wordnet进行特征词的扩展:利用wordnet寻找出一个特征词不同词...

【专利技术属性】
技术研发人员:费高雷朱闻一陈浩赵海林谢星辰
申请(专利权)人:电子科技大学
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1