基于潜在语义索引的作文跑题检测评分系统及方法技术方案

技术编号：38763029 阅读：10 留言：0更新日期：2023-09-10 10:36

本发明专利技术涉及自然语言处理技术领域，具体为基于潜在语义索引的作文跑题检测评分系统及方法，数据收集和预处理模块用于收集作文和其对应的题目，并对采集的文章进行预处理；术语矩阵模块用于建立术语

全部详细技术资料下载

【技术实现步骤摘要】
基于潜在语义索引的作文跑题检测评分系统及方法

[0001]本专利技术涉及自然语言处理
，具体为基于潜在语义索引的作文跑题检测评分系统及方法。

技术介绍

[0002]作文是教学中重要的内容之一，也是考核学生语言表达能力和思维水平的有效方式。然而，作文评阅是一项耗时费力的工作，需要教师对每篇作文进行细致的阅读、评分和批改。此外，由于教师的主观性、经验性和个体差异，作文评分往往存在一定的不公正性和不一致性。因此，如何利用计算机技术实现作文的自动评阅，提高评阅效率和质量，是当前教育领域面临的一个重要问题。
[0003]目前，已有一些基于自然语言处理技术的作文自动评阅系统被提出和应用。这些系统通常采用监督学习的方法，利用少量人工评分的样本学习一个预测模型，根据不同的特征来描述和评价作文的质量。例如，传统的方法利用自然语言处理浅层分析的结果构建特征，如文章的长度、段落数、词汇丰富性等。近年来，基于深度学习的端到端学习方法也被应用于作文评分，作文被抽象地表示为分布式向量。
[0004]然而，这些方法存在一些不足之处。首先，它们往往忽略了作文与给定题目之间的关系，无法有效地检测作文是否跑题或偏题。其次，它们往往缺乏对作文内容和结构的深入理解，无法准确地评价作文在主题、论点、论据、篇章结构等方面的优劣。第三，它们往往缺乏可解释性，无法给出具体的评分依据和改进建议。

技术实现思路

[0005]本专利技术的目的在于提供基于潜在语义索引的作文跑题检测评分系统及方法，以解决上述
技术介绍
中提出的问题。/>[0006]为了解决上述技术问题，本专利技术提供如下技术方案：基于潜在语义索引的作文跑题检测评分系统，所述系统包括数据收集和预处理模块、术语矩阵模块、潜在语义索引模块、跑题检测模块、评分模块和输出模块，
[0007]所述数据收集和预处理模块用于收集作文和其对应的题目，并对采集的文章进行预处理；
[0008]所述术语矩阵模块用于建立术语
‑
文档矩阵，对结果进行归一化；
[0009]所述潜在语义索引模块用于根据潜在语义索引来对矩阵进行奇异值分解，并计算文章与范文之间的相似度；
[0010]所述跑题检测模块用于使用TF
‑
IDF*算法和潜在语义索引模块的相似度结果，综合对文章是否跑题进行检测；
[0011]所述评分模块用于根据检测结果和预设的评分标准进行对比，给出作文的分数；
[0012]所述输出模块用于向用户输出文章跑题检测结果和文章的评分结果。
[0013]本专利技术使用潜在语义索引来降低术语
‑
文档矩阵的维数，提高了文本处理的效率
和效果，可识别出传统向量空间模型中不明显的术语和文档之间的关系，提高了识别度，通过识别和利用文档集合中的底层结构来提高检索的准确性，可以处理同义词和多义词，使用TF
‑
IDF*算法提高文章跑题检测的准确性，可以更好的判断文章是否跑题，优化了关键词的提取。
[0014]进一步的，所述数据收集和预处理模块包括数据采集单元和预处理单元，所述数据采集单元由数据抓取单元和数据存储单元组成，所述数据抓取单元用于对作文和作文的题目进行抓取收集，所述数据存储单元用于将数据抓取单元获取的数据进行存储，所述预处理单元由数据清洗单元和英文转换单元组成，所述数据清洗单元用于将文章的停用词和标点符号进行删除，所述英文转换单元用于将文章中的所有英文单词转换为小写英文。
[0015]本专利技术通过对文章和其对应的题目进行收集，可以更好的匹配文章和题目的关联性，将数据存储于数据存储单元，可以让预处理更加的便捷，通过对文章进行预处理，可以减少冗余信息，提高文本的处理效率，删除标点符号可以使文本更加的规范化，易于处理，提高结果的准确性，将英文转化为小写，消除了大小写的干扰，提高数据的一致性，使文本格式更加统一规整，使数据处理更加的高效方便。
[0016]进一步的，所述术语矩阵模块包括矩阵创立单元和归一化单元，所述矩阵创立单元用于创立术语
‑
文档矩阵，所述归一化单元用于将矩阵的表示方法进行归一化处理，以便于进行相似度计算。
[0017]本专利技术通过创立术语
‑
文档矩阵，将矩阵进行归一化处理，方便相似度计算，将文档表示为向量，提高计算效率。
[0018]进一步的，所述潜在语义索引模块包括奇异值分解单元和相似度检测单元，所述奇异值分解单元用于对矩阵进行奇异值分解，降低数据的维度，所述相似度检测单元用于使用余弦相似度来计算文章和范文之间的相似度。
[0019]本专利技术对术语
‑
文档矩阵进行奇异值分解，降低了数据维度，提高文本处理的效率和效果，通过识别和利用集合中的底层结构来提高检索准确性，使用余弦相似度来计算文章和题目的贴合度，不需要大量矩阵计算，提高了计算速度，具有更高的精确度，并且适用于高维度向量。
[0020]进一步的，所述跑题检测模块包括TF
‑
IDF*算法单元和检测单元，所述TF
‑
IDF*算法单元用于对文章是否跑题进行计算，所述检测单元用于综合考虑TF
‑
IDF*算法和潜在语义索引的相似度计算结果，对文章是否跑题进行检测。
[0021]本专利技术使用了TF
‑
IDF*算法，通过对原始TF
‑
IDF算法进行改进，综合考虑TF
‑
IDF*算法和潜在语义索引的相似度结果，对文章是否跑题进行检测，提高了文本相似性计算的准确性，优化了关键词的抽取，可以得到更加准确的检测结果。
[0022]进一步的，所述评分模块包括相似度对比单元和评分单元，所述相似度对比单元用于将文章相似度和系统标准进行比较，划分出不同的等级，所述评分单元用于根据相似度对比单元的等级结果和评分标准进行评分。
[0023]本专利技术通过将文章相似度和系统标准进行比较，划分出不同等级，并将等级与评分标准进行对比，得出文章的评分，不需要复杂的计算，评分方法更加简单明了，可以快速得到评估结果。
[0024]进一步的，所述输出模块包括可视化单元和报告生成器，所述可视化单元用于将
文章的相似度和评分结果转化为图表形式，所述报告生成器用于将文章相似度和评分结果生成报告。
[0025]本专利技术通过可视化将文章的相似度和评分结果转化为图表形式，更加的直观清楚，将文章相似度和评分结果生成报告，提高了数据可视化效果，便于监测结果，可以方便老师更好的为学生提供建议。
[0026]基于潜在语义索引的作文跑题检测方法，所述方法包括以下步骤：
[0027]步骤S100：数据采集单元对文章和文章对应的题目进行收集；
[0028]步骤S200：对文章进行预处理，删除停用词和标点符号，并将英文转换为小写；
[0029]步骤S300：创立术语
‑
文档矩阵，每一行对应术语，每一列对应文档；
[0030本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.基于潜在语义索引的作文跑题检测评分系统，其特征在于，所述系统包括数据收集和预处理模块、术语矩阵模块、潜在语义索引模块、跑题检测模块、评分模块和输出模块，所述数据收集和预处理模块用于收集作文和其对应的题目，并对采集的文章进行预处理；所述术语矩阵模块用于建立术语
‑
文档矩阵，对结果进行归一化；所述潜在语义索引模块用于根据潜在语义索引来对矩阵进行奇异值分解，并计算文章与范文之间的相似度；所述跑题检测模块用于使用TF
‑
IDF*算法和潜在语义索引模块的相似度结果，综合对文章是否跑题进行检测；所述评分模块用于根据检测结果和预设的评分标准进行对比，给出作文的分数；所述输出模块用于向用户输出文章跑题检测结果和文章的评分结果。2.根据权利要求1所述的基于潜在语义索引的作文跑题检测评分系统，其特征在于：所述数据收集和预处理模块包括数据采集单元和预处理单元，所述数据采集单元由数据抓取单元和数据存储单元组成，所述数据抓取单元用于对作文和作文的题目进行抓取收集，所述数据存储单元用于将数据抓取单元获取的数据进行存储，所述预处理单元由数据清洗单元和英文转换单元组成，所述数据清洗单元用于将文章的停用词和标点符号进行删除，所述英文转换单元用于将文章中的所有英文单词转换为小写英文。3.根据权利要求1所述的基于潜在语义索引的作文跑题检测评分系统，其特征在于：所述术语矩阵模块包括矩阵创立单元和归一化单元，所述矩阵创立单元用于创立术语
‑
文档矩阵，所述归一化单元用于将矩阵的表示方法进行归一化处理，以便于进行相似度计算。4.根据权利要求1所述的基于潜在语义索引的作文跑题检测评分系统，其特征在于：所述潜在语义索引模块包括奇异值分解单元和相似度检测单元，所述奇异值分解单元用于对矩阵进行奇异值分解，降低数据的维度，所述相似度检测单元用于使用余弦相似度来计算文章和范文之间的相似度。5.根据权利要求1所述的基于潜在语义索引的作文跑题检测评分系统，其特征在于：所述跑题检测模块包括TF
‑
IDF*算法单元和检测单元，所述TF
‑
IDF*算法单元用于对文章是否跑题进行计算，所述检测单元用于综合考虑TF
‑
IDF*算法和潜在语义索引的相似度计算结果，对文章是否跑题进行检测。6.根...

【专利技术属性】
技术研发人员：何经武，曾凡，
申请(专利权)人：江苏优利信科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人