基于信息增益的英文社交媒体账号分类方法技术

技术编号：16779614 阅读：120 留言：0更新日期：2017-12-12 23:54

本发明专利技术公开了一种基于信息增益的英文社交媒体账号分类方法，包括以下步骤：S1、数据预处理，得到账号的特征词；S2、特征选取：利用信息增益的方法对账号的特征词进行选择，得到具有类别代表性的特征词；S3、特征扩散：利用wordnet寻找特征词的近义词和人工增加领域类别的一些关键词对特征词进行扩散；S4、分类模型构建：采用机器学习技术进行处理，生成账号分类的分类模型；S5、对未知的社交媒体账号进行分类。本发明专利技术将常用的文本分类的方法应用于英文社交媒体的账号分类，使用户能从海量的账户中能够快速查找出某一领域类别的账号，并从中获取该领域类别的相关有效信息。

English social media account classification method based on information gain

The invention discloses a classification method of information gain English social media account based on S1, which comprises the following steps: data preprocessing, feature words account; S2, feature selection methods: feature words using information gain to account for selection, with class representative feature words; S3, feature diffusion: the use of WordNet to find the feature word synonyms and artificially increase the field categories some keywords of feature words spread; constructing S4, classification model: using machine learning technology, classification model generation account classification; S5, the unknown social media account classification. The invention applies the commonly used text classification method to account classification of English social media, enabling users to quickly find out accounts in a specific category from massive accounts, and get relevant effective information in this category.

全部详细技术资料下载

【技术实现步骤摘要】
基于信息增益的英文社交媒体账号分类方法
本专利技术属于文本分类
，特别涉及一种基于信息增益的英文社交媒体账号分类方法。
技术介绍
文本分类技术，是信息检索和文本挖掘的重要基础，其主要任务是在预先给定的类别标记集合下，根据文本内容判定它的类别。文本分类在自然语言处理与理解、信息组织与管理、内容信息过滤等领域有着广泛的应用。20世纪90年代逐渐成熟的基于机器学习的文本分类方法，更注重分类器的模型自动挖掘和生成及动态优化能力，在分类效果和灵活性上都比之前基于知识工程和专家系统的文本分类模式有所突破，成为相关领域研究和应用的经典范例。对于文本分类这一课题，已经有一些常用的流程。基于机器学习文本分类的基础技术由文本的表示、分类方法及效果评估三部分组成。其中文本表示主要用到了项或特征的向量空间表示模型以及特征选择、特征提取等特征提取方法。分类方法主要用到了一些较成熟的分类模型方法，如朴素贝叶斯、支持向量机等。分类效果指标有例如正确率(precision)、召回率(recall)、精度(accuracy)等。但是，文本种类的多样性、标注的困难等问题还是给文本分类带来了巨大...
基于信息增益的英文社交媒体账号分类方法

【技术保护点】
基于信息增益的英文社交媒体账号分类方法，其特征在于，包括以下步骤：S1、数据预处理：对社交媒体账号发布的博文做分词处理、去除停止词及无用符号处理，得到账号的特征词；S2、特征选取：利用信息增益的方法对账号的特征词进行选择，得到具有类别代表性的特征词；S3、特征扩散：利用wordnet寻找特征词的近义词和人工增加领域类别的一些关键词来对S2得到的特征词进行扩散；S4、分类模型构建：人工标注少量账号样本，并利用词袋模型，选用词频对账号进行特征的提取，构建样本训练集；然后采用机器学习技术进行处理，生成账号分类的分类模型，实现对英文社交媒体账号的识别；S5、对未知的社交媒体账号进行分类：利用步骤S4生...

【技术特征摘要】
1.基于信息增益的英文社交媒体账号分类方法，其特征在于，包括以下步骤：S1、数据预处理：对社交媒体账号发布的博文做分词处理、去除停止词及无用符号处理，得到账号的特征词；S2、特征选取：利用信息增益的方法对账号的特征词进行选择，得到具有类别代表性的特征词；S3、特征扩散：利用wordnet寻找特征词的近义词和人工增加领域类别的一些关键词来对S2得到的特征词进行扩散；S4、分类模型构建：人工标注少量账号样本，并利用词袋模型，选用词频对账号进行特征的提取，构建样本训练集；然后采用机器学习技术进行处理，生成账号分类的分类模型，实现对英文社交媒体账号的识别；S5、对未知的社交媒体账号进行分类：利用步骤S4生成的分类模型，对未知的社交媒体账号进行分类，得到未知社交媒体账号的类别属性，完成社交媒体账号类别的划分。2.根据权利要求1所述的基于信息增益的英文社交媒体账号分类方法，其特征在于，所述步骤S1具体实现方法为：分词处理：将账号的文本语句切分成字词，以字词来作为特征表征一个账号；去除停止词及无用符号处理：将冠词、介词设置为停止词，将语句的标点符号设置为无用符号；将停止词和无用符号删除。3.根据权利要求1所述的基于信息增益的英文社交媒体账号分类方法，其特征在于，所述步骤S2具体实现方法为：信息增益是一种基于熵的评估方法，其用于特征选择时，衡量的是某个词的出现与否对判断一个文本是否属于某个类所提供的信息量；其定义为某一特征值在文档中出现前后的信息量之差，计算公式为：其中P(ω)表示特征词ω在文本中出现的概率；P(ci|ω)表示文本包含ω时属于ci类的条件概率；P(ci)表示ci类文本在文本集中出现的概率；表示文本中不包含特征词ω的概率，表示文本不包含特征词ω时属于ci类的条件概率，|c|表示类别总数；根据信息增益计算公式计算每个特征词的信息增益，并选择信息增益大于设定的阈值的特征词作为具有类别代表性的特征词，进行下一步操作。4.根据权利要求1所述的基于信息增益的英文社交媒体账号分类方法，其特征在于，所述步骤S3具体实现方法为：利用wordnet进行特征词的扩展：利用wordnet寻找出一个特征词不同词...

【专利技术属性】
技术研发人员：费高雷，朱闻一，陈浩，赵海林，谢星辰，
申请(专利权)人：电子科技大学，
类型：发明
国别省市：四川,51

全部详细技术资料下载我是这个专利的主人