【技术实现步骤摘要】
一种基于TF
‑
IDF和LDA主题模型的语料集分类方法
[0001]本专利技术涉及语料集的分类,特别是涉及一种基于TF
‑
IDF和LDA主题模型的语料集分类方法。
技术介绍
[0002]在当今全球化、信息化的背景下,工程科技的发展水平体现着一国的核心竞争力。在国外相关研究中,支持个性化学习的技术主要有数据挖掘技术、协同过滤技术、遗传算法及聚类算法。基于层次分析法(AHP)定量计算支撑课程与毕业要求的目标权重值,最终确定达成度评价的综合得分,研究期望为毕业要求达成度评价提供新的定量评价机制,然而其缺少与学生的互动交流,忽视了学生的主观能动性和专业应用领域的创新能力。
[0003]这种情况下就需要社会各方面提供相应的意见或建议,但是大量的语料数据获取后,很难有效地实现关键信息的提取和分类,来获取相应的关键信息。
技术实现思路
[0004]本专利技术的目的在于克服现有技术的不足,提供一种基于TF
‑
IDF和LDA主题模型的语料集分类方法,基于TF
‑
IDF算法和LDA主题模型对于语料信息进行主题分类,配合用户词典、停用词文档和近义词表等使用jieba库进行文本分词,具有良好的主题分类能力,为关键信息的获取提供了有效条件。
[0005]本专利技术的目的是通过以下技术方案来实现的:一种基于TF
‑
IDF和LDA主题模型的语料集分类方法,包括以下步骤:
[0006]S1.建立用于保存待分类语料信息的语 ...
【技术保护点】
【技术特征摘要】
1.一种基于TF
‑
IDF和LDA主题模型的语料集分类方法,其特征在于:包括以下步骤:S1.建立用于保存待分类语料信息的语料库,并构建用户词典、停用词文档和近义词表;S2.构建分词模型,将语料库中的每一条语料信息进行分词处理;S3.基于分词处理结果,使用TF
‑
IDF算法提取关键信息;S4.通过LDA主题模型进行主题分类。2.根据权利要求1所述的一种基于TF
‑
IDF和LDA主题模型的语料集分类方法,其特征在于:所述步骤S1包括:通过线上表单、线下问卷或爬虫的方式得到待分类的语料信息,并将得到的信息保存到语料库,完成语料库的构建;所述语料信息包括对学校教学和个性化培养的建议;通过收集专业性名词建立用户词典,用于存储学校中不同学科的专业性名词,用户词典中以各个学科为类别,对各个学科的专业性名词分别进行保存;构建停用词文档,用于保存停用词,所述停用词是指在信息检索中,为节省存储空间和提高搜索效率,在处理文本之前或之后会自动过滤掉某些字或词;构建近义词表,用于保存近义词。3.根据权利要求1所述的一种基于TF
‑
IDF和LDA主题模型的语料集分类方法,其特征在于:所述步骤S2包括:S201.基于所获得的语料库,通过加载jieba库对每一条语料信息进行中文分词,得到分词结果;S202.调用用户词典、停用词文档和近义词表对jieba库分词得到的每一条语料信息的分词结果进行完善:调取用户词典,将分词结果中的专有名词分词固定;同时,调取近义词表将语料库中的近义词,以近义词表最先出现的词为标准归一化,提高分词精确度;将现有的分词结果与停用词文档相匹配,加载停用词文档中的停用词并去掉分词结果中的停用词,最终呈现语料库中每一条语料信息的重点词。4.根据权利要求1所述的一种基于TF
‑
IDF和LDA主题模型的语料集分类方法,其特征在于:所述步骤S3中,需要计算每一条语料信息重点词的TF
‑
IDF权值,具体计算步骤如下:S301.对于任一条语料信息d
j
,设步骤S2对其进行分词共得到K个重点词,则计算词频:其中,n
i,j
表示第i个重点词t
i
...
【专利技术属性】
技术研发人员:贺航飞,李军,兰晓青,兰晓倩,张代科,黄云,卫泽东,杨倩,
申请(专利权)人:四川农业大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。