【技术实现步骤摘要】
一种基于多元数据分析的高校中文分词系统
[0001]本专利技术涉及中文分词
,更具体地涉及一种基于多元数据分析的高校中文分词系统。
技术介绍
[0002]随着信息技术的飞速发展,人们获取信息的方式逐渐从传统媒体发展到互联网再到社交媒体,社交媒体上传播的信息已成为人们浏览互联网的重要内容,高校学生会在社交媒体平台上针对学校的学习、生活以及学校问题发表意见与观点,表达情绪,同时反映了高校学生们的诉求,充分了解学生们的情绪与诉求,对于高校的思想政治工作而言至关重要,是保障高校学生心理健康的重要手段,现有的中文分词系统通过对文本进行深层次的语法语义分析,对文本进行预处理,将连续的汉字分割成具有意义的词,针对特定的应用场景制定特定的分词流程。
[0003]但是现有的中文分词系统较少应用于高校,因而无法通过对高校学生的社交网络数据进行文本分析,从而更好地获取高校学生在学习、生活以及对学校意见建议方面的信息,无法及时掌握学生的情绪,无法为高校思想政治工作提供帮助,从而无法达到更好更高效的管理,甚至会导致高校发生严重的心理安全 ...
【技术保护点】
【技术特征摘要】
1.一种基于多元数据分析的高校中文分词系统,其特征在于:包括:数据采集模块:通过网络爬虫技术采集各网络平台的网页数据信息;数据预处理模块:通过网页解析技术对爬取的网页进行预处理,去除与高校主题无关的信息,提取出与高校主题相关的文本正文,删除与高校主题不相关的其他信息;热词识别模块:通过对提取的文本正文进行热词特征提取与识别建立热词词典集合,并对热词进行标记;中文分词模块:通过中文分词模型结合热词词典对文本进行分词处理;情感分析模块:通过贝叶斯分类模型对分词后的特征词进行情感分类;所述贝叶斯分类模型计算公式为:P(d|C
i
)=P(t1,t2,
…
t
n
|C
i
);检验模块:通过准确率检验模型对情感分类的结果进行检验,并通过修正公式对模型进行修正;所述准确率检验模型计算公式为:其中,其中,所述修正公式为:统计与预警模块:通过对情感分类的结果进行统计,并根据统计后的结果进行预警。2.根据权利要求1所述的一种基于多元数据分析的高校中文分词系统,其特征在于:所述热词词典集合的建立包括以下步骤:步骤S01:对提取的文本进行数据预处理:使用正则表达式将文本中的所有英文字母和数据替换为符号,并剔除文本中除中文字符和标点符号外的所有字符,利用文本去重和机械压缩去词方法对文本进行预处理;步骤S02:提取候选字串:将预处理过后的文本输入Topwords算法进行无监督分词,将分词后的文本中的所有的热词字串放入候选字串集合H,并对集合中各字串的频数与字符个数进行统计;步骤S03:计算逆文档频率与标准化多字点互信息:通过逆文档计算公式计算候选字串集合H的逆文档频率值,并通过内在凝聚度计算公式对候选字串的标准化多字点互信息B进行计算;步骤S04:计算加权邻接熵:将候选字串集合中候选字串h的所有左右邻接字符分别存入集合J1与J2中,构造包含符号的中英文标点符号集合F,通过邻接熵计算公式计算左邻接熵L与右邻接熵R;步骤S05:对候选字串进行筛选,并依据逆文档频率值进行排序,得到最终热词词典集合。3.根据权利要求2所述的一种基于多元数据分析的高校中文分词系统,其特征在于:所述逆文档计算公式为:其中,df为所有文本中包含候选字串的文档个数,|T|是所有文本的数量。
4.根据权利要求2所述的一种基于多元数据分析的高校中文分词系统,其特征在于:所述内在凝聚度计算公式为:其中,其中,n
i
为候选字串集合H的字符数,(a1……
a
j
)为字串集合H任意二切分的前部,(a
j
……
a
ni
)为字串集合H任意二切分的后部;p(x)为x出现的概率。5.根据权利要求2所述的一种基于多元数据分析的高校中文分词系统,其特征在于:所述邻接熵计算公式为:其中,N(h)为候选字串h在文本中出现的频数。6.根据权利要求1所述的一种基于多元数据分析的高校中文分词系统,其特征在于:所述中文分词模型对文本进行分词处理包括以下步骤:步骤S11:建立分词层:建立首阶层、卷积神经网络层、连接层以及分词层;步骤S12:首阶层运行:将文本中的词x
i
转换成向量I
i...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。