当前位置: 首页 > 专利查询>贺州学院专利>正文

基于智慧校园信息服务平台的话题发现方法技术

技术编号:15895403 阅读:84 留言:0更新日期:2017-07-28 19:51
本发明专利技术提供一种基于智慧校园信息服务平台的话题发现方法。所述基于智慧校园信息服务平台的话题发现方法针对校园热点话题发现中涉及的新技术,分析了常用的文本聚类算法和文本表示模型,通过利用分词系统将对消息文本进行了分词和关键词的提取,提出消息文本的知识表示模型,通过对构建基于向量空间模型的研究,使用统计消息的词频来确定初始聚类中心并改进优化算法。与相关技术相比,本发明专利技术提供的基于智慧校园信息服务平台的话题发现方法可以获得准确的舆情方式和重要元素,从而正确形成舆论。对智慧主题聚类过程可以更快更好地进行处理,并且当报告的消息数量较大时,聚类的精度可以保持较高。

Topic discovery method based on intelligent campus information service platform

The invention provides a topic discovery method based on the intelligent campus information service platform. The smart campus information service platform based on topic discovery method for involving new technology found the campus hot topic, analysis of the commonly used text clustering algorithm and text representation model, through the use of word segmentation system of message text segmentation and extraction of keywords, the message text model of knowledge representation, through the research on the construction of vector based on spatial model, using statistical information of word frequency to determine the initial cluster centers and improved optimization algorithm. Compared with the related technologies, the invention provides a topic discovery method based on the intelligent campus information service platform, which can obtain accurate public opinion mode and important elements, thereby forming the public opinion correctly. The clustering process of intelligent topics can be handled faster and better, and the accuracy of clustering can be kept high when the number of reported messages is large.

【技术实现步骤摘要】
基于智慧校园信息服务平台的话题发现方法
本专利技术涉及一种热门话题发现领域,尤其涉及一种基于智慧校园信息服务平台的话题发现方法。
技术介绍
计算机网络的不断发展,越来越丰富了校园生活。网络信息已成为校园生活中的重要组成部分,互联网已经成为学生获取信息、交流沟通的重要场所。如何有效掌握网络的海量数据,提取其中的热点话题,或者获取自己想要的信息,成为长期困扰网络用户的难题。热点话题发现,可从各种信息资源中发现某段时间内各个领域中引起人们广泛关注的话题,方便学生获取当前重要资讯,快速掌握当前信息。因此,有必要提供一种于智慧校园信息服务平台的话题发现方法来实现以上技术方案。
技术实现思路
本专利技术的目的在于提供一种基于智慧校园信息服务平台的话题发现方法,以满足用户实时发现网络论坛突发性热点话题的需求。本专利技术提供一种基于智慧校园信息服务平台的话题发现方法,包括:步骤1,建立智能校园信息服务平台,在互联网上校园主题的消息收集形成消息数据库;步骤2,对该数据库中的消息文本进行文本预处理,文本预处理即为分词处理,包括语义歧义分析、未登录词提取、关键字提取和停用词处理;步骤3,对预处理后的文本进行特本文档来自技高网...
基于智慧校园信息服务平台的话题发现方法

【技术保护点】
一种基于智慧校园信息服务平台的话题发现方法,其特征在于,包括:步骤1,建立智能校园信息服务平台,在互联网上校园主题的消息收集形成消息数据库;步骤2,对该数据库中的消息文本进行文本预处理,文本预处理即为分词处理,包括语义歧义分析、未登录词提取、关键字提取和停用词处理;步骤3,对预处理后的文本进行特征提取,其文本特征提取为独立评价方法,所述独立评价方法包括信息增益、X

【技术特征摘要】
1.一种基于智慧校园信息服务平台的话题发现方法,其特征在于,包括:步骤1,建立智能校园信息服务平台,在互联网上校园主题的消息收集形成消息数据库;步骤2,对该数据库中的消息文本进行文本预处理,文本预处理即为分词处理,包括语义歧义分析、未登录词提取、关键字提取和停用词处理;步骤3,对预处理后的文本进行特征提取,其文本特征提取为独立评价方法,所述独立评价方法包括信息增益、X2统计量和文档频率算法,所述信息增益通过需要计算特征项权重大小来对文本类簇进行分类,其是通过下述公式(1)计算获取分类信息多的特征词,其中,文本集合表示类别ci的概率是P(ci),并且文本集合表示特征词t的概率是P(t),P(ci|t)包含特征词t文本属于预定义类别ci,是如果特征词t不在文本内则文本属于类别ci的概率,n是文本类别的数量;所述X2统计量是用于评估特征项的重要水平,由特征项携带的文本信息的量通过量化来量化,其通过下述公式(2)来统计量,其中,N是提取的文本的数目,Cj是聚类,A是Cj中的文本的数目,并且C不是特征中的文本,B是特征项ti外部的文本的数目Cj簇,并且D是不在特征项ti中的Cj簇外部的文本的数量;所述文档频率算法是通过包括多个文档来计算文档的数量以评估特征;步骤4,将提取的特征词指定为知识表示模型;步骤5,针对文本知识表示模型由计算机通过聚类算法...

【专利技术属性】
技术研发人员:王凤领
申请(专利权)人:贺州学院
类型:发明
国别省市:广西,45

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1