当前位置: 首页 > 专利查询>广西大学专利>正文

一种基于文本语言变量的汉语阅读能力的分级方法技术

技术编号:15822622 阅读:49 留言:0更新日期:2017-07-15 04:51
本发明专利技术公开了一种基于文本语言变量的汉语阅读能力的分级方法,包括以下步骤:1)在文本中找到阅读理解问题的答案所涉及的文本片段,确定源文本;2)计算步骤1)源文本的语言变量,作为自变量;3)将被试的阅读理解得分视作阅读理解能力和文本难度的指代,作为因变量;4)计算步骤2)自变量和步骤3)因变量之间的皮尔逊积差相关系数;5)对步骤4)的相关系数由高到低进行排序,筛选出排序前5的自变量,采用最小二乘法确定预测因变量的最佳自变量,导出最佳匹配函数。本发明专利技术方法区分了阅读理解测试和非阅读理解测试中的阅读的认知特点,拟合优度高,符合汉语的语言特点;计算简单快速,具有扩展性,准确度高。

【技术实现步骤摘要】
一种基于文本语言变量的汉语阅读能力的分级方法
本专利技术属于阅读能力的分级方法
,特别是一种基于文本语言变量的汉语阅读能力的分级方法。
技术介绍
阅读理解能力是一种内隐的能力,判断阅读理解能力水平需要找到物理性质的可观察的指代,这种指代就是文本的语言变量。在英语国家,文本分级常用的方法是:将学生的阅读理解得分作为阅读文本的难度得分,采用最小二乘法计算和筛选预测文本难度得分的最佳语言变量。该方法存在的问题是:学生的阅读理解得分受到阅读理解问题的影响,即相同的文本,不同的阅读理解问题,学生的得分可能完全不同,但是英语国家的研究者并没有计算阅读理解问题是如何影响阅读理解得分的,这种忽略很可能使得阅读理解得分难以真实的反映阅读文本的难度。在汉语的阅读分级研究中,繁体和简体中文的文本分级方法多借鉴英语国家研究者的方法,具有一定的合理性。但是英语为拼音文字,重形合,汉语为表意文字,重意合,英语文本难度的最佳预测变量对汉语不一定有适合性。在具体的方法上,汉语研究者计算文本全文中所含的音节数量、笔画数量、词长、词频、句长等变量,将这些变量作为自变量,将学生所在的年级或者阅读理解得分作为因变量,采用回归分析,找到最佳匹配的函数公式。这些研究忽略了阅读理解测试时的阅读方法和非测试时的阅读方法之间的差异。例如,如果阅读理解问题涉及到某个难词,学生对该难词的处理水平就极大的影响了他的阅读理解得分(即作为因变量的文本难度得分),而在非测试的阅读时,学生则可以跳过该词。换言之,学生在这两种情况下对同一语言变量的处理不同,学生对难度的感知不同,但是现有研究并没有进行区分。专利技术内容本专利技术所要解决的技术问题是提供一种基于文本语言变量的汉语阅读能力的分级方法,通过计算目标文本的难度级别获取阅读能力的级别,拟合优度高,符合汉语的语言特点,计算简单快速,具有扩展性,准确度高。为实现上述目的,本专利技术采用如下的方法一种基于文本语言变量的汉语阅读能力的分级方法,包括以下步骤:1)确定阅读理解测试的被试、文本和阅读理解问题,在所述文本中找到对应于每道所述阅读理解问题的答案所涉及的文本片段,作为源文本;2)分别计算步骤1)每道所述阅读理解问题对应的源文本的语言变量,作为自变量;3)用步骤1)的文本和所述阅读理解问题测试被试,将被试的阅读理解得分指代阅读理解能力,作为因变量;4)计算步骤2)自变量和步骤3)因变量之间的皮尔逊积差相关系数;5)对步骤4)所得的相关系数由高到低进行排序,筛选出排序在前5位的自变量,采用最小二乘法确定预测因变量的最佳语言变量,导出最佳匹配函数。所述步骤1)中阅读理解问题的类型为反映被试阅读理解心理的全部过程,包括感觉、知觉、记忆、思维和想象。所述步骤2)中的自变量有6类,该6类自变量分别为字、词、句、段落、篇章和词语联结;所述自变量的计算方法为:采用汉语词频工具计算词的重复次数,采用ChineseTextAnalyzer软件和《现代汉语语料库词频表》计算熟词,采用文本可读性指标自动化分析系统分别计算词语联结和笔画数。所述步骤3)的因变量采用T分数,所述T分数的计算步骤和定义为:首先批阅被试的试卷,获得每道阅读理解问题所有被试的原始平均分;接着将上述每个原始平均分转化为百分数,公式是:百分数=原始平均分/满分值×100%;所述满分值为对应该原始平均分的阅读理解问题的满分值;以篇为单位对百分数进行Z分数处理,公式是:z分数=(x-μ)/σ,其中:σ为标准差;x为该篇文本的单道阅读理解问题的百分数;μ为该篇文本的所有阅读理解问题的的百分数的均值;n为该篇文本的阅读理解问题数量;再将所得Z分数转化为T分数,公式是:T分数=500+10×Z分数。所述步骤4)皮尔逊积差相关系数的计算公式是:式中:p=皮尔逊积差相关系数m:阅读理解问题的数量Yi:第i个阅读理解问题的T分数;m个阅读理解问题的T分数的均值;Xi:第i个阅读理解问题所对应的自变量;m个自变量的均值。所述步骤5)导出最佳匹配函数的具体方法是:将步骤4)所得的皮尔逊积差相关系数由高到低进行排序,筛选出排序在前5位的自变量,将筛选出的自变量和步骤3)所述因变量输入StatisticalProductandServiceSolutions软件中进行最小二乘法多元线性回归分析,根据输出的多重判定系数R2检验拟合优度,输出最佳匹配函数是:Yk=β0+β1χ1+β2χ2+β3χ3+ε上式中,Yk:所述预测因变量;X1,X2,X3:为预测阅读理解能力和文本难度的最佳自变量。β1,β2,β3:为偏回归系数ε:随机误差上述最佳匹配函数就是分级公式。本专利技术的优点在于:本专利技术方法从信息加工心理学理论的视角,区分了在阅读理解测试中的阅读和非阅读理解测试中的阅读的认知特点,采用对阅读理解问题的答案源文本中语言变量进行分析的方法,拟合优度高,达到复合相关系数0.97,拟合优度94%,符合汉语的语言特点;计算简单快速,具有扩展性,准确度高。附图说明图1是本专利技术一种基于文本语言变量的汉语阅读能力的分级方法的流程框图。具体实施方式如图1所示,本专利技术一种基于文本语言变量的汉语阅读能力的分级方法的步骤为:1)确定被试:确定被试为初二年级的学生。根据《教育部义务教育语文课程标准》,该年级段的学生要求累计认识常用汉字3500个,累计覆盖《现代常用字表》的99.48%,具备了较好的测试基础;2)对被试的语文课本题材进行整理:鉴于学生的阅读题材是影响阅读理解能力的因素,例如应用类题材普遍比文学类题材难度更大,根据语文课本中的题材分布挑选阅读理解测试的文本有利于反映学生阅读理解的真实水平,所以分析了人教版八年级和九年级语文课本中的题材;3)根据整理的题材选取阅读测试材料:鉴于我国尚没有针对母语的、标准化的、大型的汉语阅读理解能力测试试卷,采用了我国台湾和香港地区中小学生使用的标准化阅读测试文本和阅读理解问题,题材分布上与我国大陆地区初中语文教材的分布相符。4)结合读者阅读认知心理过程确定阅读问题:阅读是对文本信息进行心理加工和处理的过程,先确定了信息加工心理学的视角,根据学生从低到高的思维过程(感觉、知觉、记忆、思维和想象)确定了三类阅读理解问题,即进入与提取、综合与阐释、反思与评价,全面考查被试的阅读理解能力,实现对阅读理解能力的分级。5)对被试进行阅读理解能力的测试:对被试进行标准化测试后,统一批阅试卷,保证评分者的信度和效度。将被试的阅读理解得分指代阅读理解能力,作为因变量。6)对试卷进行信度、效度检验:试卷的整体信度0.9,结构效度超过0.8,符合要求,且达到较高的水准。7)基于阅读理解问题,整理文本自变量:面对阅读理解测试中的阅读和非阅读理解测试中的阅读时,被试对难词和难句以及它们所构成的段落与篇章的阅读方式和处理方式不同,这使得被试对它们的难度感受不同。在阅读理解测试中,对被试构成难度的语言变量是那些影响他们解答阅读理解问题的部分。将文本中针对每道阅读理解问题之答案的文本片段进行确定,它们是分析文本语言自变量的源文本。具体的语言变量如下:篇章:源文本篇章中的段落数量;总字数和总词数;不重复的字数和不重复的词数。段落:源文本段落中的段落数量,段落中的句子数量、重复和不重复词与字的数量。句子:源本文档来自技高网...
一种基于文本语言变量的汉语阅读能力的分级方法

【技术保护点】
一种基于文本语言变量的汉语阅读能力的分级方法,其特征在于:包括以下步骤:1)确定阅读理解测试的被试、文本和阅读理解问题,在所述文本中找到对应于每道所述阅读理解问题的答案所涉及的文本片段,作为源文本;2)分别计算步骤1)每道所述阅读理解问题对应的源文本的语言变量,作为自变量;3)用步骤1)的文本和所述阅读理解问题测试被试,将被试的阅读理解得分指代阅读理解能力,作为因变量;4)计算步骤2)自变量和步骤3)因变量之间的皮尔逊积差相关系数;5)对步骤4)所得的相关系数由高到低进行排序,筛选出排序在前5位的自变量,采用最小二乘法确定预测因变量的最佳语言变量,导出最佳匹配函数。

【技术特征摘要】
1.一种基于文本语言变量的汉语阅读能力的分级方法,其特征在于:包括以下步骤:1)确定阅读理解测试的被试、文本和阅读理解问题,在所述文本中找到对应于每道所述阅读理解问题的答案所涉及的文本片段,作为源文本;2)分别计算步骤1)每道所述阅读理解问题对应的源文本的语言变量,作为自变量;3)用步骤1)的文本和所述阅读理解问题测试被试,将被试的阅读理解得分指代阅读理解能力,作为因变量;4)计算步骤2)自变量和步骤3)因变量之间的皮尔逊积差相关系数;5)对步骤4)所得的相关系数由高到低进行排序,筛选出排序在前5位的自变量,采用最小二乘法确定预测因变量的最佳语言变量,导出最佳匹配函数。2.如权利要求1所述的一种基于文本语言变量的汉语阅读能力的分级方法,其特征在于:所述步骤1)中阅读理解问题的类型为反映被试阅读理解心理的全部过程,包括感觉、知觉、记忆、思维和想象。3.如权利要求1所述的一种基于文本语言变量的汉语阅读能力的分级方法,其特征在于:所述步骤2)中的自变量有6类,该6类自变量分别为字、词、句、段落、篇章和词语联结;所述自变量的计算方法为:采用汉语词频工具计算词的重复次数,采用ChineseTextAnalyzer软件和《现代汉语语料库词频表》计算熟词,采用文本可读性指标自动化分析系统分别计算词语联结和笔画数。4.如权利要求1所述的一种基于文本语言变量的汉语阅读能力的分级方法,其特征在于:所述步骤3)的因变量采用T分数,所述T分数的计算步骤和定义为:首先批阅被试的试卷,获得每道阅读理解问题所有被试的原始平均分;接着将上述每个原始平均分转化为百分数,公式是:百分数=原始平均分/满分值×100%;所述满分值为对应该原始平均...

【专利技术属性】
技术研发人员:罗德红龚婧李奕霏王梦欣
申请(专利权)人:广西大学
类型:发明
国别省市:广西,45

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1