一种基于TF-IDF和LDA主题模型的语料集分类方法技术

技术编号:38514876 阅读:14 留言:0更新日期:2023-08-19 16:57
本发明专利技术公开了一种基于TF

【技术实现步骤摘要】
一种基于TF

IDF和LDA主题模型的语料集分类方法


[0001]本专利技术涉及语料集的分类,特别是涉及一种基于TF

IDF和LDA主题模型的语料集分类方法。

技术介绍

[0002]在当今全球化、信息化的背景下,工程科技的发展水平体现着一国的核心竞争力。在国外相关研究中,支持个性化学习的技术主要有数据挖掘技术、协同过滤技术、遗传算法及聚类算法。基于层次分析法(AHP)定量计算支撑课程与毕业要求的目标权重值,最终确定达成度评价的综合得分,研究期望为毕业要求达成度评价提供新的定量评价机制,然而其缺少与学生的互动交流,忽视了学生的主观能动性和专业应用领域的创新能力。
[0003]这种情况下就需要社会各方面提供相应的意见或建议,但是大量的语料数据获取后,很难有效地实现关键信息的提取和分类,来获取相应的关键信息。

技术实现思路

[0004]本专利技术的目的在于克服现有技术的不足,提供一种基于TF

IDF和LDA主题模型的语料集分类方法,基于TF

IDF算法和LDA主题模型对于语料信息进行主题分类,配合用户词典、停用词文档和近义词表等使用jieba库进行文本分词,具有良好的主题分类能力,为关键信息的获取提供了有效条件。
[0005]本专利技术的目的是通过以下技术方案来实现的:一种基于TF

IDF和LDA主题模型的语料集分类方法,包括以下步骤:
[0006]S1.建立用于保存待分类语料信息的语料库,并构建用户词典、停用词文档和近义词表;
[0007]S2.构建分词模型,将语料库中的每一条语料信息进行分词处理;
[0008]S3.基于分词处理结果,使用TF

IDF算法提取关键信息;
[0009]S4.通过LDA主题模型进行主题分类。
[0010]本专利技术的有益效果是:本专利技术基于TF

IDF算法和LDA主题模型对于语料信息进行主题分类,配合用户词典、停用词文档和近义词表等使用jieba库进行文本分词,具有良好的主题分类能力,为关键信息的获取提供了有效条件。
附图说明
[0011]图1为本专利技术的方法流程图;
[0012]图2为实施例中的分词模型图。
具体实施方式
[0013]下面结合附图进一步详细描述本专利技术的技术方案,但本专利技术的保护范围不局限于以下所述。
[0014]如图1所示,一种基于TF

IDF和LDA主题模型的语料集分类方法,包括以下步骤:
[0015]S1.建立用于保存待分类语料信息的语料库,并构建用户词典、停用词文档和近义词表;
[0016]前期通过线上表单、线下问卷以及爬虫等方式得到大量的语料信息并将其补充入语料库,以学生为参照主体,语料库中主要存放学生个体反馈的个性化需求和建议。其次,通过收集专业性名词建立用户词典,其能够使计算机把学科的专有名词分到一起,以数据结构这门课程为例,例如:红黑树、二叉树等。之后,从官方网站下载停用词文档,停用词文档主要是指在信息检索中,为节省存储空间和提高搜索效率,在处理文本之前或之后会自动过滤掉某些字或词,比如:人称代词、语气助词、标点符号等,可自行调整。最后,收集所需的近义词建立近义词表,比如:老师和教师、建议和意见等。
[0017]S2.构建分词模型,将语料库中的每一条语料信息进行分词处理;
[0018]S201.基于所获得的语料库,通过加载jieba库对每一条语料信息进行中文分词,得到分词结果;
[0019]S202.调用用户词典、停用词文档和近义词表对jieba库分词得到的每一条语料信息的分词结果进行完善:
[0020]调取用户词典,将分词结果中的专有名词分词固定;
[0021]同时,调取近义词表将语料库中的近义词,以近义词表最先出现的词为标准归一化,提高分词精确度;
[0022]将现有的分词结果与停用词文档相匹配,加载停用词文档中的停用词并去掉分词结果中的停用词,最终呈现语料库中每一条语料信息的重点词。
[0023]S3.基于分词处理结果,使用TF

IDF算法提取关键信息;
[0024]S301.对于任一条语料信息d
j
,设步骤S2对其进行分词共得到K个重点词,则计算词频:
[0025][0026]其中,n
i,j
表示第i个重点词t
i
在语料信息d
j
出现的次数,n
kj
表示第i个重点词t
i
在语料信息d
j
出现的次数,TF
i,j
表示第i个重点词t
i
在语料信息d
j
中出现的频率;
[0027]在i=1,2,

,K时,分别计算出对应的TF
ij
,即得到了第j条语料信息中每一个重点词的词频;
[0028]S302.计算词语t
i
逆文本频率:
[0029][0030]其中,|D|表示所有语料信息的数量,|j:t
i
∈d
j
|表示包含词语t
i
的语料信息数量,加1主要是防止包含词语t
i
的数量为0从而导致运算出错的现象发生;
[0031]在i=1,2,

,K时,分别计算出对应的IDF
i
,即得到了第j条语料信息中每一个重点词的逆文本频率;
[0032]S303.计算词语t
i
的在语料信息中的d
j
权重TF

IDF
i

[0033]TF

IDF
ij
=TF
ij
·
IDF
i
[0034]在i=1,2,

,K时,分别计算出第j条语料信息中每一个重点词对应的权重TF

IDF
ij
,按照降序排列,并选择前M个重点词,作为第j条语料信息的关键词;
[0035]S304.在j=1,2,

,|D|时,重复步骤S301~S303,得到每一条语料信息中的关键词。
[0036]S4.通过LDA主题模型进行主题分类。
[0037]所述步骤S4中利用LDA主题模型进行分类时,需要首先为LDA主题模型定义多种主题,然后将所有语料信息的关键词输出LDA主题模型中,由LDA主题模型将各个关键词划分到不同的主题下。
[0038]LDA主题模型是一种成熟的语料分类模型,进行主题分类时,每一条语料信息中的每一个词,其内容以一定概率选择了x个主题,并从某个主题中以一定概率选择了某个词语,将所有语料的关键词作为LDA主题模型的数据集,进行文本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于TF

IDF和LDA主题模型的语料集分类方法,其特征在于:包括以下步骤:S1.建立用于保存待分类语料信息的语料库,并构建用户词典、停用词文档和近义词表;S2.构建分词模型,将语料库中的每一条语料信息进行分词处理;S3.基于分词处理结果,使用TF

IDF算法提取关键信息;S4.通过LDA主题模型进行主题分类。2.根据权利要求1所述的一种基于TF

IDF和LDA主题模型的语料集分类方法,其特征在于:所述步骤S1包括:通过线上表单、线下问卷或爬虫的方式得到待分类的语料信息,并将得到的信息保存到语料库,完成语料库的构建;所述语料信息包括对学校教学和个性化培养的建议;通过收集专业性名词建立用户词典,用于存储学校中不同学科的专业性名词,用户词典中以各个学科为类别,对各个学科的专业性名词分别进行保存;构建停用词文档,用于保存停用词,所述停用词是指在信息检索中,为节省存储空间和提高搜索效率,在处理文本之前或之后会自动过滤掉某些字或词;构建近义词表,用于保存近义词。3.根据权利要求1所述的一种基于TF

IDF和LDA主题模型的语料集分类方法,其特征在于:所述步骤S2包括:S201.基于所获得的语料库,通过加载jieba库对每一条语料信息进行中文分词,得到分词结果;S202.调用用户词典、停用词文档和近义词表对jieba库分词得到的每一条语料信息的分词结果进行完善:调取用户词典,将分词结果中的专有名词分词固定;同时,调取近义词表将语料库中的近义词,以近义词表最先出现的词为标准归一化,提高分词精确度;将现有的分词结果与停用词文档相匹配,加载停用词文档中的停用词并去掉分词结果中的停用词,最终呈现语料库中每一条语料信息的重点词。4.根据权利要求1所述的一种基于TF

IDF和LDA主题模型的语料集分类方法,其特征在于:所述步骤S3中,需要计算每一条语料信息重点词的TF

IDF权值,具体计算步骤如下:S301.对于任一条语料信息d
j
,设步骤S2对其进行分词共得到K个重点词,则计算词频:其中,n
i,j
表示第i个重点词t
i
...

【专利技术属性】
技术研发人员:贺航飞李军兰晓青兰晓倩张代科黄云卫泽东杨倩
申请(专利权)人:四川农业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1