时评分级阅读语料库构建方法及系统技术方案

技术编号:38319501 阅读:15 留言:0更新日期:2023-07-29 09:01
本发明专利技术提供一种时评分级阅读语料库构建方法及系统,涉及文本处理技术领域。本发明专利技术包括获取时评语料库和基于学期分级的新词语表;基于时评语料库和新词语表,构建基于学生阅读水平的时评分级阅读语料库;利用LDA算法对时评分级阅读语料库中的时评按照主题词进行聚类,构建基于学生阅读兴趣的时评分级阅读语料库。本发明专利技术为学生提供了按主题、按难度分类的时评,有助于学生寻找到符合自身兴趣和自身阅读水平的时评。读水平的时评。读水平的时评。

【技术实现步骤摘要】
时评分级阅读语料库构建方法及系统


[0001]本专利技术涉及文本处理
,具体涉及一种时评分级阅读语料库构建方法及系统。

技术介绍

[0002]新闻时评,是近年来最热的一种新闻文体,时评能发现新颖而有价值的东西,引领大众视听。阅读时评能增强学生的阅读、理解和思维能力,同时能帮助学生树立良好的道德观和正确的价值观等。
[0003]目前的时评分级阅读语料库一般是基于主题兴趣构建的。这类时评分级阅读语料库无法兼顾学生的阅读水平(尤其是小学生),导致学生无法理解所读时评。
[0004]通过上述描述可知,目前没有针对学生的时评分级阅读语料库,导致学生难以找到适合自身的时评阅读材料。

技术实现思路

[0005](一)解决的技术问题
[0006]针对现有技术的不足,本专利技术提供了一种时评分级阅读语料库构建方法及系统,解决了目前没有针对学生的时评分级阅读语料库,导致学生难以找到适合自身的时评阅读材料的技术问题。
[0007](二)技术方案
[0008]为实现以上目的,本专利技术通过以下技术方案予以实现:
[0009]第一方面,本专利技术提供一种时评分级阅读语料库构建方法,所述方法包括:
[0010]S1、获取时评语料库和基于学期分级的新词语表;
[0011]S2、基于时评语料库和新词语表,构建基于学生阅读水平的时评分级阅读语料库;
[0012]S3、利用LDA算法对时评分级阅读语料库中的时评按照主题词进行聚类,构建基于学生阅读兴趣的时评分级阅读语料库。
[0013]优选的,所述S1中,获取时评语料库包括:
[0014]S101a、确定爬取据的来源、字段、发布时间,利用爬虫技术获得网络新闻语料并进行清洗和预处理,得到网络新闻语料库;
[0015]S101b、对网络新闻语料库进行特征提取,获取网络新闻语料库;
[0016]S101c、通过预先构建的文本分类器对所述网络新闻语料库进行分类和筛选,获取时评语料库。
[0017]优选的,所述预先构建的文本分类器基于Logistic Regression模型训练得到。
[0018]优选的,所述S1中,获取基于学期分级的新词语表包括:
[0019]提取每册小学教材中的新增词语;
[0020]将新增词语按册列入excel中,构建基于学期分级的新词语表。
[0021]优选的,所述S2具体包括:
[0022]S201、对时评语料库中的每篇时评清洗脏数据后做分词处理,并计算每篇时评的长度l;
[0023]S202、取第i层级的词语表的词语W
i
进行计算,W
i
=w1,w2,

w
n
],n代表当前层级的新词语有n个,判断这n个词语与之前层级的所有词语在该篇时评中出现的次数与时评长度l的比值是否大于阅读达标标准,若未达到,则跳转步骤S203;若比值大于阅读达标标准,则将时评层级定位在难度层级i;
[0024]S203、将词汇总量加入下一级的词语再次进行判断,最终确定所有时评的难度层级,构建基于学生阅读水平的时评分级阅读语料库。
[0025]优选的,所述S3具体包括:
[0026]S301、采用Single

Pass判定时评主题发现的数目K值;
[0027]S302、根据K值确定LDA主题模型的聚类主题数目,进行主题聚类;
[0028]S303、根据主题聚类,构建基于学生阅读兴趣的时评分级阅读语料库。
[0029]优选的,所述S301具体包括:
[0030]a、以第一篇时评为种子,建立一个主题;
[0031]b、将时评x向量化;
[0032]c、将时评x与已有的话题中各时评进行相似度计算,并取相似度最大者作为与该话题的相似度;
[0033]d、若相似度值大于阈值θ,则把时评x加入到有最大相似度的主题中,跳转至步骤f;
[0034]e、若相似度值小于阈值θ,则时评x不属于任一已有主题,需创建新的主题类别,同时将当前时评归属到新创建的主题类别中;
[0035]f、聚类结束,等待下一篇时评进入。
[0036]第二方面,本专利技术提供一种时评分级阅读语料库构建系统,所述系统包括:
[0037]数据获取模块,用于获取时评语料库和基于学期分级的新词语表;
[0038]第一构建模块,用于基于时评语料库和新词语表,构建基于学生阅读水平的时评分级阅读语料库;
[0039]第二构建模块,用于利用LDA算法对时评分级阅读语料库中的时评按照主题词进行聚类,构建基于学生阅读兴趣的时评分级阅读语料库。
[0040]第三方面,本专利技术提供一种计算机可读存储介质,其存储用于时评分级阅读语料库构建的计算机程序,其中,所述计算机程序使得计算机执行如上述所述的时评分级阅读语料库构建方法。
[0041]第四方面,本专利技术提供一种电子设备,包括:
[0042]一个或多个处理器,存储器,以及一个或多个程序,其中所述一个或多个程序被存储在所述存储器中,并且被配置成由所述一个或多个处理器执行,所述程序包括用于执行如上述所述的时评分级阅读语料库构建方法。
[0043](三)有益效果
[0044]本专利技术提供了一种时评分级阅读语料库构建方法及系统。与现有技术相比,具备以下有益效果:
[0045]本专利技术包括获取时评语料库和基于学期分级的新词语表;基于时评语料库和新词
语表,构建基于学生阅读水平的时评分级阅读语料库;利用LDA算法对时评分级阅读语料库中的时评按照主题词进行聚类,构建基于学生阅读兴趣的时评分级阅读语料库。本专利技术为学生提供了按主题、按难度分类的时评,有助于学生寻找到符合自身兴趣和自身阅读水平的时评。
附图说明
[0046]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0047]图1为本专利技术实施例中一种时评分级阅读语料库构建方法的流程图;
[0048]图2为本专利技术实施例中一种时评分级阅读语料库构建方法的逻辑框图;
[0049]图3为本专利技术实施例中时评的难度层级的评定的算法流程图。
具体实施方式
[0050]为使本专利技术实施例的目的、技术方案和优点更加清楚,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0051]本申请实施例通过提供一种时评分级阅读语料库构建方法及系统,解决了目前没有针对学生的时评分级阅读语料库,导本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种时评分级阅读语料库构建方法,其特征在于,所述方法包括:S1、获取时评语料库和基于学期分级的新词语表;S2、基于时评语料库和新词语表,构建基于学生阅读水平的时评分级阅读语料库;S3、利用LDA算法对时评分级阅读语料库中的时评按照主题词进行聚类,构建基于学生阅读兴趣的时评分级阅读语料库。2.如权利要求1所述的时评分级阅读语料库构建方法,其特征在于,所述S1中,获取时评语料库包括:S101a、确定爬取据的来源、字段、发布时间,利用爬虫技术获得网络新闻语料并进行清洗和预处理,得到网络新闻语料库;S101b、对网络新闻语料库进行特征提取,获取网络新闻语料库;S101c、通过预先构建的文本分类器对所述网络新闻语料库进行分类和筛选,获取时评语料库。3.如权利要求2所述的时评分级阅读语料库构建方法,其特征在于,所述预先构建的文本分类器基于Logistic Regression模型训练得到。4.如权利要求1所述的时评分级阅读语料库构建方法,其特征在于,所述S1中,获取基于学期分级的新词语表包括:提取每册小学教材中的新增词语;将新增词语按册列入excel中,构建基于学期分级的新词语表。5.如权利要求1所述的时评分级阅读语料库构建方法,其特征在于,所述S2具体包括:S201、对时评语料库中的每篇时评清洗脏数据后做分词处理,并计算每篇时评的长度l;S202、取第i层级的词语表的词语W
i
进行计算,W
i
=[w1,w2,

w
n
],n代表当前层级的新词语有n个,判断这n个词语与之前层级的所有词语在该篇时评中出现的次数与时评长度l的比值是否大于阅读达标标准,若未达到,则跳转步骤S203;若比值大于阅读达标标准,则将时评层级定位在难度层级i;S203、将词汇总量加入下一级的词语再次进行判断,最终确...

【专利技术属性】
技术研发人员:赵小兵刘晓彤
申请(专利权)人:中央民族大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1