简体汉语文本可读性的分级评估建模方法技术

技术编号:21453985 阅读:21 留言:0更新日期:2019-06-26 04:47
本发明专利技术属于汉语语言数据处理领域,具体涉及简体汉语文本可读性的分级评估建模方法。本发明专利技术的简体汉语文本可读性的分级评估建模方法包括以下步骤:创建标准语料库;提取文本特征;构建可读性公式并对公式效果进行评估。本发明专利技术在现有的汉语可读性公式基础上,选取汉字、词汇和句子三个层面的文本特征,构建一项适合小学阶段简体汉语母语的、有年级等级划分的汉语文本可读性公式。

【技术实现步骤摘要】
简体汉语文本可读性的分级评估建模方法
本专利技术属于汉语语言数据处理领域,具体涉及简体汉语文本可读性的分级评估建模方法。
技术介绍
在现代信息社会中,儿童读物呈指数式增长,如何在浩如烟海的书籍中挑选出合适孩子的好书成为困扰老师和家长的难题。根据最近发展区理论,儿童阅读材料的难度应该稍高于儿童目前的发展水平,但又不能过高,才能达到训练并提高儿童阅读能力的目的。若所选的阅读材料过难,会损害儿童阅读的效能感,使其逃避阅读;而太简单的材料则会让儿童感到无趣,丧失阅读兴趣,达不到培养阅读习惯和提高阅读能力的目的。目前已有的图书分级体系大多由出版商主导,既没有坚实的理论研究作为基础,也缺少实证研究验证其有效性,科学性不足、公信力不高、影响力不大,对青少年阅读的指导意义有限。为了实现儿童阅读能力与书籍难度的匹配,在准确评估儿童阅读能力的同时,研发客观、高效的汉语文本可读性公式,对文本难度进行准确评估,是目前分级阅读研究的难点和热点问题之一。可读性公式指的是采用数学表达的方法,提取某些可量化的、影响阅读难度的文本特征,并确定这些特征和文本难度之间的函数关系。目前,英语体系中已有十几个可读性公式,例如美国的蓝思可读性公式、A-Z分级法、英国的牛津阅读树系列等。这些公式的准确度高,应用范围广,以此为基础建立了庞大的分级阅读体系,在促进英语儿童阅读能力培养和习惯养成等方面发挥了巨大的作用。由于汉语与英语存在着巨大差异,英语世界中的可读性公式并不能直接应用于汉语文本,而目前可查到数学公式的汉语可读性公式仅有7项,主要针对的是繁体字学习者或对外汉语教学,并且大部分公式并未给出明确的等级划分标准,对大陆地区小学生的读物选择指导意义有限。因此,创建一项针对小学简体汉语母语的文本可读性公式,仍是一项具有挑战性的前沿工作。
技术实现思路
本专利技术的目的在于提供一种简体汉语文本可读性的分级评估建模方法。根据本专利技术具体实施方式的简体汉语文本可读性的分级评估建模方法,其包括以下步骤:选择适合的文本建立标准语料库,将文本进行等级标注;提取文本特征,定义字、词、句层面的文本难度特征,分别对标准语料库中的文本进行切词和字词句标注处理等,计算每篇文本的难度特征值,然后选择文本难度特征的最优特征集;构建文本可读性分级评估公式,将标准语料库中的文本分为训练文本集和测试文本集,以训练文本集被标注的等级为因变量Y,以最优特征集为自变量(X1,X2,X3),采用线性回归模型,得到可读性分级评估公式为:Yi=β0+β1X1i+β2X2i+β3X3i+μi,其中,Yi表示文本的可读性等级(1-12),X1i,X2i和X3i分别表示这篇文本的三项最优特征集的数值,β0为常数,代表截距,β1,β2和β3是偏回归系数,代表在其他变量保持不变的情况下,变量X1,X2或X3变化一个单位后的Y值变化量;以测试文本集为参照,对所述可读性公式进行评估。根据本专利技术具体实施方式的简体汉语文本可读性的分级评估建模方法,在提取文本特征步骤中,采用NLPIR汉语分词系统对文本进行切词和词性标注处理。根据本专利技术具体实施方式的简体汉语文本可读性的分级评估建模方法,通过以下步骤选择最优特征集:分别计算所有文本难度特征与文本难度等级的相关,根据相关系数的绝对值从大到小将文本难度特征排序;按照排序,顺次选择文本难度特征值进入备选特征集,建立回归方程;通过共线性判断选择留在备选特征集中的文本难度特征,得到最优特征集。根据本专利技术具体实施方式的简体汉语文本可读性的分级评估建模方法,通过共线性判断选择留在备选特征集中的文本难度特征的方法为:如果对于备选特征集中的文本难度特征X1、X2、……Xk,存在不全为0的数λ1、λ2……λk,使得λ1X1+λ2X2+……λkXk+μi=0,则备选特征集中存在共线性问题,此时需要找出存在共线性问题的两个文本难度特征,在保持其他特征不变的情况下,比较两个文本难度特征加入后的△R2,在备选特征集中保留△R2较大的特征;若备选特征集中不存在共线性问题,则计算特征加入后的△R2,若△R2>2%,则在备选特征集中保留所述特征,否则删去所述特征;循环上述步骤,直至遍历备选特征集中的所有文本难度特征。根据本专利技术具体实施方式的简体汉语文本可读性的分级评估建模方法,简体汉语文本可读性分级评估公式的构建方法如下:以训练文本集被标注的等级为因变量Y,以最优特征集为自变量(X1,X2,X3),设Y随着X1,X2,X3的变化而变化,并存在线性关系:Yi=β0+β1X1i+β2X2i+β3X3i+μi(i=1,2,3,…,n),假设分别是参数β0,β1,β2,β3的最小二乘估计,则Y的回归值可表示为:观测值Yi与回归值的残差ei为根据最小二乘法,应使得全部观测值Yk与回归值的偏差平方和达到最小,即使得Q取得最小值,根据多元函数的极值原理,Q分别对求一阶偏导,并令其等于零,即其矩阵形式为因为设为估计值向量,样本回归模型两边同乘样本观测矩阵X的转置矩阵X’,则有得方程组由于不存在多重共线性,X’X为4阶方阵,所以X’X满秩,X’X的逆矩阵(X’X)-1存在,因而即为β的OLS估计量,求得根据本专利技术具体实施方式的简体汉语文本可读性的分级评估建模方法,以测试文本集为参照,通过以下步骤评估简体汉语文本可读性分级评估公式:计算根据可读性公式算出的观测值Y观测和测试文本集的实际值Y实际之间的相关r;计算可读性公式对测试文本集数据的变异解释量R2,R2=r2;计算临近准确率,临近准确率=|Y观测-Y实际|,若临近准确率不大于1,则视为评估正确;计算评估正确的文本总数占测试文本集总数的比例,即为临近准确率;计算均方根误差:当0<r<1,r接近1,且0<R2<1,R2接近1,且临近准确率<=1,临近准确率越接近1,且均方根误差越小,则判断可读性分级评估公式越准确。本专利技术的有益效果:本专利技术基于汉语特点,提供了一种可对汉语文本进行汉字、词汇和句法三个层面的难度特征分析及自动化的分级评估建模方法,保证了文本难度评定的客观性;本专利技术基于统计学原理,在全面分析44个文本特征的基础上,进行了特征优化,简化了模型,避免了多重共线性问题,在保证预测准确性的同时,提升了模型的可理解性;本专利技术建构了汉语可读性公式及文本分级体系,可与汉语阅读能力测评相结合,最终建立具有汉语特色的阶梯阅读体系并进行推广,实现学生阅读能力和书本难度的有效匹配,科学推动全体青少年儿童阅读能力的发展。附图说明图1显示本专利技术的分级评估方法流程图;图2显示最优特征集选择流程图。具体实施方式实施例1如图1所示,本专利技术的简体汉语文本可读性的分级评估建模方法包括以下步骤:1.建立黄金标准语料库,即定义因变量1.1选择合适文本标准语料库的选择需要贴合可读性公式的使用目的,本专利技术主要针对大陆地区小学儿童的阅读材料,故选择的文本来自于大陆地区、被广泛使用的四个版本的小学语文教材,主要包括人民教育出版社、北京师范大学出版社、江苏教育出版社和西南师范大学出版社,每一个出版社各一套(12册),共计48册,每一册均有明确的等级信息(册数),可作为文本的等级。1.2筛选文本由于古汉语和现代汉语在句法、字词含义上均有较大差异,现代诗没有标点符号,难以本文档来自技高网
...

【技术保护点】
1.简体汉语文本可读性的分级评估建模方法,其特征在于,所述分级评估建模方法包括以下步骤:选择适合的文本建立标准语料库,将文本进行等级标注;提取文本特征;定义字、词、句层面的文本难度特征,分别对标准语料库中的文本进行切词和字词句标注处理,计算每篇文本的难度特征值,然后选择文本难度特征的最优特征集;构建文本可读性分级评估公式,将标准语料库中的文本分为训练文本集和测试文本集,以训练文本集被标注的等级为因变量Y,以最优特征集为自变量(X1,X2,X3),采用线性回归模型,得到可读性分级评估公式为:Yi=β0+β1X1i+β2X2i+β3X3i+μi,其中,β0为常数,代表截距,β1,β2和β3是偏回归系数,代表在其他变量保持不变的情况下,变量X1,X2或X3变化一个单位后的Y值变化量,以测试文本集为参照,对所述可读性分级评估公式进行评估。

【技术特征摘要】
1.简体汉语文本可读性的分级评估建模方法,其特征在于,所述分级评估建模方法包括以下步骤:选择适合的文本建立标准语料库,将文本进行等级标注;提取文本特征;定义字、词、句层面的文本难度特征,分别对标准语料库中的文本进行切词和字词句标注处理,计算每篇文本的难度特征值,然后选择文本难度特征的最优特征集;构建文本可读性分级评估公式,将标准语料库中的文本分为训练文本集和测试文本集,以训练文本集被标注的等级为因变量Y,以最优特征集为自变量(X1,X2,X3),采用线性回归模型,得到可读性分级评估公式为:Yi=β0+β1X1i+β2X2i+β3X3i+μi,其中,β0为常数,代表截距,β1,β2和β3是偏回归系数,代表在其他变量保持不变的情况下,变量X1,X2或X3变化一个单位后的Y值变化量,以测试文本集为参照,对所述可读性分级评估公式进行评估。2.根据权利要求1所述的简体汉语文本可读性的分级评估建模方法,其特征在于,在提取文本特征步骤中,采用NLPIR汉语分词系统对文本进行切词和词性标注处理。3.根据权利要求1所述的简体汉语文本可读性的分级评估建模方法,其特征在于,通过以下步骤选择最优特征集:分别计算所述文本难度特征与文本难度等级的相关系数,根据相关系数绝对值将文本难度特征排序;按照排序,顺次选择难度特征进入备选特征集,建立回归方程;通过共线性判断选择留在备选特征集中的文本难度特征,得到最优特征集。4.根据权利要求1所述的简体汉语文本可读性的分级评估建模方法,其特征在于,通过共线性判断选择留在备选特征集中的文本难度特征的方法为:如备选特征集中的文本难度特征X1、X2、……Xk,存在不全为0的数λ1、λ2……λk,使得λ1X1+λ2X2+……λkXk+μi=0,则备选特征集中存在共线性问题,此时需要找出存在共线性问题的两个文本难度特征,保持其他特征不变的情况下,比较两个文本难度特征分别加入后的△R2,在备选特征...

【专利技术属性】
技术研发人员:李虹李苗苗李燕
申请(专利权)人:北京师范大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1