一种基于社交媒体平台的文本分类方法技术

技术编号：26505165 阅读：37 留言：0更新日期：2020-11-27 15:32

本发明专利技术公开了一种基于社交媒体平台的文本分类方法，利用Python爬取社交媒体平台公开发布的信息，并对爬取数据进行预处理，通过词频统计按从大到小顺序排列并平均分为3个关键字列表，其分别对应于不同的权重，采用相似度函数计算输入的预分类文本中的单词与上述建立的关键字列表的相似度，进而基于相似度计算相关特征，将相关特征映射到模糊集上,从而输出具体的类别，解决了传统文本分类算法无法对较短文本和包含口语、缩略词的文本准确分类的问题。本方法利用模糊逻辑对文本内容非常好的描述能力，实现在具体应用中直接将文本内容转换为计算机和人工智能能够识别的适当数值，有利于提高包含复杂语义的文本和较短文本的分类准确性。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于社交媒体平台的文本分类方法
本专利技术涉及数据获取和模糊逻辑文本分类技术，具体是一种基于社交媒体平台的文本分类方法。
技术介绍
当代文本分类方法的目标是充分运用相关领域技术，为每一个输入的文本实现类别划分，让每个用户更便捷的获取所需类别信息。另一方面，随着互联网的快速发展和个人计算机的广泛普及，越来越多的消息和数据通过超文本传输协议以电子文档的形式发布。于是，数据分类的速度和能力遇到了巨大的挑战。如何准确并及时地在浩如烟海的信息世界中获取用户所需类别的信息，已成为互联网发展至今的一大难题。社交媒体平台作为互联网交互式web3.0应用程序的一部分，其为用户提供了一个简单而方便的渠道来分享表达他们的观点以及交流信息。社交媒体信息通常包含其发布时间和地点信息，并描述人们的行为和感受，但是，由于社交媒体信息中包含着大量冗余、无意义和不可靠的信息，且文本内容较短，没有丰富的语义，传统的分类算法并不适用于处理社交媒体文本。基于朴素贝叶斯的分类、TF-IDF分类、正则分类这些传统的分类算法通常只使用关键词来区分文本内容是否...

【技术保护点】
1.一种基于社交媒体平台的文本分类方法，其特征是：包括如下步骤：/n（1）爬取社交媒体公开发布的事件相关数据信息，并对所爬取的数据进行清理、加工，得到文本中的有用信息，将处理过的信息存储到数据库，形成结构化数据，以便提取相关特征；/n（2）提取社交媒体文本相关特征：从步骤（1）的结构化数据中统计出现频率最高的单词，并对其分别计算权重分数，对每个单词从高到低进行排序，平均分为三个关键词列表，三个关键词列表对应不同的权重；将要进行分类的社交媒体文本内容与三个关键词列表一一进行相似度计算，得到每个单词的相似度值，进一步计算该文本内容的相关特征；/n（3）基于模糊逻辑完成社交媒体文本分类：将步骤（2）...

【技术特征摘要】
1.一种基于社交媒体平台的文本分类方法，其特征是：包括如下步骤：
（1）爬取社交媒体公开发布的事件相关数据信息，并对所爬取的数据进行清理、加工，得到文本中的有用信息，将处理过的信息存储到数据库，形成结构化数据，以便提取相关特征；
（2）提取社交媒体文本相关特征：从步骤（1）的结构化数据中统计出现频率最高的单词，并对其分别计算权重分数，对每个单词从高到低进行排序，平均分为三个关键词列表，三个关键词列表对应不同的权重；将要进行分类的社交媒体文本内容与三个关键词列表一一进行相似度计算，得到每个单词的相似度值，进一步计算该文本内容的相关特征；
（3）基于模糊逻辑完成社交媒体文本分类：将步骤（2）获取的相关特征映射到模糊模型中，模糊模型输出每个特征对应的文本价值，对输出的特征文本价值运用模糊规则，输出社交媒体文本分类结果。

2.根据权利要求1所述的文本分类方法，其特征是：步骤（1）所述爬取社交媒体公开发布的事件相关数据信息，是利用Selenium爬取用户ID、时间戳、位置、文本内容的相关信息；所述的用户ID、时间戳、位置、文本内容的相关信息的数据来源为微博、twitter网站公开发布的关于某事件的文本数据。

3.根据权利要求1所述的文本分类方法，其特征是：步骤（1）所述的对所爬取的数据进行清理、加工的方法步骤为：
1）数据清理：当爬取的数据有缺失值、噪声数据时，通过使用一个全局变量填充缺失值或使用属性的中心度量填充缺失值等方法来填充数据，通过分箱、回归、离群点分析等方法去除噪声；
2）数据标记：从爬取的数据中随机选择2000条文本内容，对其手动标记为与某事件高关联、中关联、低关联、无关联四类；
3）数据集成：将来自多个数据源的数据去重集成到一起，形成数据集；
4）数据规约：将数据集按维规约或数值规约简化表示。

4.根据权利要求1所述的文本分类方法，其特征是：步骤（2）所述的单词权重分数的计算公式如下：

(1)
公式（1）中，为第i个单词在高关联、中关联、低关联、无关联四类中出...

【专利技术属性】
技术研发人员：钟艳如，曹良斌，甘才军，李芳，罗笑南，
申请(专利权)人：桂林电子科技大学，
类型：发明
国别省市：广西;45

全部详细技术资料下载我是这个专利的主人