System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及自然语言处理,特别涉及一种中文网络课程评论情感分类方法、装置、设备和介质。
技术介绍
1、随着互联网技术的普及和发展,网络课程因其具有的时间灵活、地域自由、资源丰富等优势而备受青睐。越来越多的学习者通过网络课程获取知识和技能。然而网络课程与传统课堂相比缺乏同伴竞争和集体学习氛围,容易导致学生的学习积极性下降。学生的评论和评价是获取网络课程质量信息的重要来源。网络课程评论作为学生对课程体验的主观表达,蕴含着丰富的情感信息。及时准确挖掘网络课程评论的情感倾向,对精准评估、改进课程质量,优化学生学习过程,提高学生的学习动力和参与度,从而提高学习效果至关重要。同时基于情感分析的数据可以为教育管理者和决策者制定更加科学和贴近需求的教学策略,优化资源分配和教学管理提供决策支持。
2、网络课程评论情感分析的研究大致经历基于规则的方法、基于传统机器学习、基于深度神经网络三个阶段。基于规则的方法通过人工定义的词汇、短语、句子或语篇规则来识别网络课程评论中的情感。文献key factors in mooc pedagogy based on nlpsentiment analysis of learner reviews:what makes a hit应用基于词典的情感分析工具vader计算网络课程文本中蕴含的情感得分。此类方法不需要大量标注数据和复杂的模型训练,实现起来比较简单高效,具有较好的可解释性。然而此类方法的准确率和泛化能力普遍较低,为此研究者们提出了支持向量机(supportvectormachine,svm
3、但是,机器学习方法和深度神经网络均需要大量标注的网络课程评论训练数据,目前尚未发现被研究者广泛使用和认可的公开中文网络课程评论数据集,中文网络课程评论数据的获取和标注较为耗时和繁琐,因此中文网络课程评论数据的标注规模和质量成为限制模型性能的主要因素之一。
技术实现思路
1、本专利技术提供一种中文网络课程评论情感分类方法、装置、设备和介质,可以解决现有技术中由于中文网络课程评论数据的标注质量低导致情感分类模型性能低的技术问题。
2、本专利技术提供一种中文网络课程评论情感分类方法,包括:
3、构建包括网络问答提示层、大规模语言模型学习层、对比学习层和情感极性分类层的课程评论情感分类模型,采集中文网络课程评论数据对课程评论情感分类模型进行训练,训练步骤为:
4、问答提示层基于中文网络课程评论文本生成提问序列和回答序列;大规模语言模型学习层通过学习提问序列和回答序列的语义信息,输出上下文隐藏向量;对比学习层将上下文隐藏向量输入多层感知机中,多层感知机通过自监督方式的方式获得语义相似评论文本被拉近、语义不相似评论文本被推远的特征空间;情感极性分类层基于特征空间输出中文网络课程评论文本的情感分类;
5、使用训练完的课程评论情感分类模型进行中文网络课程评论情感分类。
6、进一步的,其特征在于,所述问答提示层生成提问序列和回答序列的步骤包括:
7、使用提问提示函数生成一条提问提示文本p(q):
8、p(q)=f(q)(s)
9、其中,f(q)(.)是提问提示函数,s是中文网络课程评论文本;
10、使用回答提示函数生成一条回答提示文本p(a):
11、p(a)=f(a)(s)
12、其中,f(a)(.)是回答提示函数;
13、在中文网络课程评论文本s的句首和句尾分别添加情感分类令牌cls和句子拼接令牌sep;
14、通过句子拼接令牌sep分别将提问提示文本p(q)和回答提示文本p(a)拼接在中文网络课程评论文本s之后,形成带提问提示的中文网络课程评论文本sq和带回答提示的中文网络课程评论文本sa;
15、通过情感分类令牌cls在带提问提示的中文网络课程评论文本sq和带回答提示的中文网络课程评论文本sa中填充积极、中性、消极情感,获得提问序列和回答序列。
16、进一步的,所述大规模语言模型学习层输出上下文隐藏向量的步骤包括:
17、构建包括生成器和鉴别器的electra模型架构;
18、对electra模型进行训练;
19、使用训练完的鉴别器将中文网络课程评论文本序列和编码为一组上下文隐藏向量和
20、进一步的,所述对electra模型进行训练的步骤包括:
21、获得预训练语料χ;
22、将预训练语料χ输入到生成器中,生成器通过从相同上下文中抽样将预训练语料χ中的单词替换标记,通过生成器损失lmlm(·)计算替换标记与原始单词的相似度;
23、将生成器的输出输入到鉴别器中,判别器判别该输入是真实数据样本还是生成器生成的数据样本,通过判别器损失ldisc(·)计算真实数据与生成数据样本的相似度;
24、基于生成器损失lmlm(·)和判别器损失ldisc(·)确定联合损失损失函数,通过最小化联合损失函数对electra模型进行训练:
25、
26、其中,x为预训练语料χ中的数据样本,lmlm(·)为生成器损失,ldisc(·)为判别器损失,λ为权重系数,θg、θd分别是生成器、判别器中的参数。
27、进一步的,所述对比学习层获得特征空间的步骤包括:
28、将大规模语言模型学习层输出的上下文隐藏向量和分别输入多层感知机mlp中生成投影头:
29、gq=mlp(hq)
30、ga=mlp(ha)
31、mlp(·)为映射隐藏向量到对比损失空间中的单层mlp。
32、进一步的,所述对比学习层训练本文档来自技高网...
【技术保护点】
1.一种中文网络课程评论情感分类方法,其特征在于,包括:
2.根据权利要求1所述的中文网络课程评论情感分类方法,其特征在于,所述问答提示层生成提问序列和回答序列的步骤包括:
3.根据权利要求2所述的中文网络课程评论情感分类方法,其特征在于,所述大规模语言模型学习层输出上下文隐藏向量的步骤包括:
4.根据权利要求3所述的中文网络课程评论情感分类方法,其特征在于,所述对ELECTRA模型进行训练的步骤包括:
5.根据权利要求3所述的中文网络课程评论情感分类方法,其特征在于,所述对比学习层获得特征空间的步骤包括:
6.根据权利要求5所述的中文网络课程评论情感分类方法,其特征在于,所述对比学习层训练时采用NT-Xent损失函数:
7.根据权利要求3所述的中文网络课程评论情感分类方法,其特征在于,所述情感极性分类层通过稀疏Softmax函数输出情感分类p:
8.一种中文网络课程评论情感分类装置,其特征在于,包括:
9.一种计算机可读存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程
10.一种计算机设备,其特征在于,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述权利要求1~7任一所述的方法。
...【技术特征摘要】
1.一种中文网络课程评论情感分类方法,其特征在于,包括:
2.根据权利要求1所述的中文网络课程评论情感分类方法,其特征在于,所述问答提示层生成提问序列和回答序列的步骤包括:
3.根据权利要求2所述的中文网络课程评论情感分类方法,其特征在于,所述大规模语言模型学习层输出上下文隐藏向量的步骤包括:
4.根据权利要求3所述的中文网络课程评论情感分类方法,其特征在于,所述对electra模型进行训练的步骤包括:
5.根据权利要求3所述的中文网络课程评论情感分类方法,其特征在于,所述对比学习层获得特征空间的步骤包括:
6.根据权利要求5所述的中文网络课程评论...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。