The invention discloses an information gain English social media account based on the classification method of feature words were selected by the method of information gain and, through the selection of special testimony extensions, generating training samples for the study of the training sample according to the learning method of support vector machine classification model, so as to realize the classification of unknown account; solve the English social media account domain category classification problem and the application by using WordNet for feature words and synonyms, added field categories with the terminology of the two ways, expands the feature set, the feature set is more representative categories and categories of discrimination, and thus can improve the classification accuracy.
【技术实现步骤摘要】
基于信息增益的英文社交媒体账号分类方法
本专利技术属于网络文本分类领域,特别涉及一种英文社交媒体账号分类技术。
技术介绍
随着网络技术的发展,社交媒体已经成为最大最活跃的社交平台,为数亿用户提供优质且良好的沟通渠道。然而,随着社交媒体用户数量的剧增和各种信息的交流互动,社交网络正朝着多样性、复杂性的方向发展。对于一个特定的账号来说,它所发布的博文一般是会属于某一领域类别的,所谓领域类别就是这个账号发布的博文是属于政治、经济还是体育、娱乐,抑或是其他的方面。例如如果一个账号它所发布的博文大部分是关于体育方面的,那么就认为这个账号是体育类账号。如果能对于社交媒体中的这些海量的账号根据其发布的博文进行领域类别的划分,那么人们能够通过关注某一领域的账号快速准确地获取这一领域的相关信息。文本分类技术,是信息检索和文本挖掘的重要基础,其主要任务是在预先给定的类别标记集合下,根据文本内容判定它的类别。文本分类在自然语言处理与理解、信息组织与管理、内容信息过滤等领域有着广泛的应用。20世纪90年代逐渐成熟的基于机器学习的文本分类方法,更注重分类器的模型自动挖掘和生成及动态优化能力 ...
【技术保护点】
基于信息增益的英文社交媒体账号分类方法,其特征在于,基于信息增益的英文社交媒体账号分类方法,包括:S1、数据预处理,得到各社交账号对应的特征词;S2、根据信息增益对特征词进行选取;S3、对步骤S2选取出来的特征词进行扩展;S4、根据步骤S3扩展的特征词构建分类模型;S5、根据步骤S4建立的分类模型对未知账号进行分类。
【技术特征摘要】
1.基于信息增益的英文社交媒体账号分类方法,其特征在于,基于信息增益的英文社交媒体账号分类方法,包括:S1、数据预处理,得到各社交账号对应的特征词;S2、根据信息增益对特征词进行选取;S3、对步骤S2选取出来的特征词进行扩展;S4、根据步骤S3扩展的特征词构建分类模型;S5、根据步骤S4建立的分类模型对未知账号进行分类。2.根据权利要求1所述的基于信息增益的英文社交媒体账号分类方法,其特征在于,步骤S2所述根据信息增益对特征词进行选取,具体计算公式为:
【专利技术属性】
技术研发人员:费高雷,朱闻一,胡光岷,于富财,
申请(专利权)人:电子科技大学,
类型:发明
国别省市:四川,51
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。