时评分级阅读语料库构建方法及系统技术方案

技术编号：38319501 阅读：15 留言：0更新日期：2023-07-29 09:01

本发明专利技术提供一种时评分级阅读语料库构建方法及系统，涉及文本处理技术领域。本发明专利技术包括获取时评语料库和基于学期分级的新词语表；基于时评语料库和新词语表，构建基于学生阅读水平的时评分级阅读语料库；利用LDA算法对时评分级阅读语料库中的时评按照主题词进行聚类，构建基于学生阅读兴趣的时评分级阅读语料库。本发明专利技术为学生提供了按主题、按难度分类的时评，有助于学生寻找到符合自身兴趣和自身阅读水平的时评。读水平的时评。读水平的时评。

全部详细技术资料下载

【技术实现步骤摘要】
时评分级阅读语料库构建方法及系统

[0001]本专利技术涉及文本处理
，具体涉及一种时评分级阅读语料库构建方法及系统。

技术介绍

[0002]新闻时评，是近年来最热的一种新闻文体，时评能发现新颖而有价值的东西，引领大众视听。阅读时评能增强学生的阅读、理解和思维能力，同时能帮助学生树立良好的道德观和正确的价值观等。
[0003]目前的时评分级阅读语料库一般是基于主题兴趣构建的。这类时评分级阅读语料库无法兼顾学生的阅读水平(尤其是小学生)，导致学生无法理解所读时评。
[0004]通过上述描述可知，目前没有针对学生的时评分级阅读语料库，导致学生难以找到适合自身的时评阅读材料。

技术实现思路

[0005](一)解决的技术问题
[0006]针对现有技术的不足，本专利技术提供了一种时评分级阅读语料库构建方法及系统，解决了目前没有针对学生的时评分级阅读语料库，导致学生难以找到适合自身的时评阅读材料的技术问题。
[0007](二)技术方案
[0008]为实现以上目的，本专利技术通过以下技术方案予以实现：
[0009]第一方面，本专利技术提供一种时评分级阅读语料库构建方法，所述方法包括：
[0010]S1、获取时评语料库和基于学期分级的新词语表；
[0011]S2、基于时评语料库和新词语表，构建基于学生阅读水平的时评分级阅读语料库；
[0012]S3、利用LDA算法对时评分级阅读语料库中的时评按照主题词进行聚类，构建基于学生阅读兴趣的时评分级...

【技术保护点】

【技术特征摘要】
1.一种时评分级阅读语料库构建方法，其特征在于，所述方法包括：S1、获取时评语料库和基于学期分级的新词语表；S2、基于时评语料库和新词语表，构建基于学生阅读水平的时评分级阅读语料库；S3、利用LDA算法对时评分级阅读语料库中的时评按照主题词进行聚类，构建基于学生阅读兴趣的时评分级阅读语料库。2.如权利要求1所述的时评分级阅读语料库构建方法，其特征在于，所述S1中，获取时评语料库包括：S101a、确定爬取据的来源、字段、发布时间，利用爬虫技术获得网络新闻语料并进行清洗和预处理，得到网络新闻语料库；S101b、对网络新闻语料库进行特征提取，获取网络新闻语料库；S101c、通过预先构建的文本分类器对所述网络新闻语料库进行分类和筛选，获取时评语料库。3.如权利要求2所述的时评分级阅读语料库构建方法，其特征在于，所述预先构建的文本分类器基于Logistic Regression模型训练得到。4.如权利要求1所述的时评分级阅读语料库构建方法，其特征在于，所述S1中，获取基于学期分级的新词语表包括：提取每册小学教材中的新增词语；将新增词语按册列入excel中，构建基于学期分级的新词语表。5.如权利要求1所述的时评分级阅读语料库构建方法，其特征在于，所述S2具体包括：S201、对时评语料库中的每篇时评清洗脏数据后做分词处理，并计算每篇时评的长度l；S202、取第i层级的词语表的词语W
i
进行计算，W
i
＝[w1，w2，
…
w
n
]，n代表当前层级的新词语有n个，判断这n个词语与之前层级的所有词语在该篇时评中出现的次数与时评长度l的比值是否大于阅读达标标准，若未达到，则跳转步骤S203；若比值大于阅读达标标准，则将时评层级定位在难度层级i；S203、将词汇总量加入下一级的词语再次进行判断，最终确...

【专利技术属性】
技术研发人员：赵小兵，刘晓彤，
申请(专利权)人：中央民族大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人