The invention discloses a classification method of information gain English social media account based on S1, which comprises the following steps: data preprocessing, feature words account; S2, feature selection methods: feature words using information gain to account for selection, with class representative feature words; S3, feature diffusion: the use of WordNet to find the feature word synonyms and artificially increase the field categories some keywords of feature words spread; constructing S4, classification model: using machine learning technology, classification model generation account classification; S5, the unknown social media account classification. The invention applies the commonly used text classification method to account classification of English social media, enabling users to quickly find out accounts in a specific category from massive accounts, and get relevant effective information in this category.
【技术实现步骤摘要】
基于信息增益的英文社交媒体账号分类方法
本专利技术属于文本分类
,特别涉及一种基于信息增益的英文社交媒体账号分类方法。
技术介绍
文本分类技术,是信息检索和文本挖掘的重要基础,其主要任务是在预先给定的类别标记集合下,根据文本内容判定它的类别。文本分类在自然语言处理与理解、信息组织与管理、内容信息过滤等领域有着广泛的应用。20世纪90年代逐渐成熟的基于机器学习的文本分类方法,更注重分类器的模型自动挖掘和生成及动态优化能力,在分类效果和灵活性上都比之前基于知识工程和专家系统的文本分类模式有所突破,成为相关领域研究和应用的经典范例。对于文本分类这一课题,已经有一些常用的流程。基于机器学习文本分类的基础技术由文本的表示、分类方法及效果评估三部分组成。其中文本表示主要用到了项或特征的向量空间表示模型以及特征选择、特征提取等特征提取方法。分类方法主要用到了一些较成熟的分类模型方法,如朴素贝叶斯、支持向量机等。分类效果指标有例如正确率(precision)、召回率(recall)、精度(accuracy)等。但是,文本种类的多样性、标注的困难等问题还是给文本分类带来了巨大的挑战。随着网络技术的发展,社交媒体已经成为最大最活跃的社交平台,为数亿用户提供优质且良好的沟通渠道。社交媒体在人们的日常生产生活中扮演着越来越重要的角色,社交媒体的账号数量与日俱增,各种信息充斥于社交媒体中,使得从海量社交媒体数据中提取所关注领域信息的工作量十分巨大。社交媒体用户由于个人爱好、工作性质等原因导致用户发布的博文通常具有一定的领域性特点。如果能够将海量的账号根据其所关注领域进行分类, ...
【技术保护点】
基于信息增益的英文社交媒体账号分类方法,其特征在于,包括以下步骤:S1、数据预处理:对社交媒体账号发布的博文做分词处理、去除停止词及无用符号处理,得到账号的特征词;S2、特征选取:利用信息增益的方法对账号的特征词进行选择,得到具有类别代表性的特征词;S3、特征扩散:利用wordnet寻找特征词的近义词和人工增加领域类别的一些关键词来对S2得到的特征词进行扩散;S4、分类模型构建:人工标注少量账号样本,并利用词袋模型,选用词频对账号进行特征的提取,构建样本训练集;然后采用机器学习技术进行处理,生成账号分类的分类模型,实现对英文社交媒体账号的识别;S5、对未知的社交媒体账号进行分类:利用步骤S4生成的分类模型,对未知的社交媒体账号进行分类,得到未知社交媒体账号的类别属性,完成社交媒体账号类别的划分。
【技术特征摘要】
1.基于信息增益的英文社交媒体账号分类方法,其特征在于,包括以下步骤:S1、数据预处理:对社交媒体账号发布的博文做分词处理、去除停止词及无用符号处理,得到账号的特征词;S2、特征选取:利用信息增益的方法对账号的特征词进行选择,得到具有类别代表性的特征词;S3、特征扩散:利用wordnet寻找特征词的近义词和人工增加领域类别的一些关键词来对S2得到的特征词进行扩散;S4、分类模型构建:人工标注少量账号样本,并利用词袋模型,选用词频对账号进行特征的提取,构建样本训练集;然后采用机器学习技术进行处理,生成账号分类的分类模型,实现对英文社交媒体账号的识别;S5、对未知的社交媒体账号进行分类:利用步骤S4生成的分类模型,对未知的社交媒体账号进行分类,得到未知社交媒体账号的类别属性,完成社交媒体账号类别的划分。2.根据权利要求1所述的基于信息增益的英文社交媒体账号分类方法,其特征在于,所述步骤S1具体实现方法为:分词处理:将账号的文本语句切分成字词,以字词来作为特征表征一个账号;去除停止词及无用符号处理:将冠词、介词设置为停止词,将语句的标点符号设置为无用符号;将停止词和无用符号删除。3.根据权利要求1所述的基于信息增益的英文社交媒体账号分类方法,其特征在于,所述步骤S2具体实现方法为:信息增益是一种基于熵的评估方法,其用于特征选择时,衡量的是某个词的出现与否对判断一个文本是否属于某个类所提供的信息量;其定义为某一特征值在文档中出现前后的信息量之差,计算公式为:其中P(ω)表示特征词ω在文本中出现的概率;P(ci|ω)表示文本包含ω时属于ci类的条件概率;P(ci)表示ci类文本在文本集中出现的概率;表示文本中不包含特征词ω的概率,表示文本不包含特征词ω时属于ci类的条件概率,|c|表示类别总数;根据信息增益计算公式计算每个特征词的信息增益,并选择信息增益大于设定的阈值的特征词作为具有类别代表性的特征词,进行下一步操作。4.根据权利要求1所述的基于信息增益的英文社交媒体账号分类方法,其特征在于,所述步骤S3具体实现方法为:利用wordnet进行特征词的扩展:利用wordnet寻找出一个特征词不同词...
【专利技术属性】
技术研发人员:费高雷,朱闻一,陈浩,赵海林,谢星辰,
申请(专利权)人:电子科技大学,
类型:发明
国别省市:四川,51
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。