融合文本分布律特征的中文文本可读性评价方法及系统技术方案

技术编号:31922381 阅读:21 留言:0更新日期:2022-01-15 13:06
本发明专利技术公开了一种融合文本分布律特征的中文文本可读性评价方法及系统,所述方法包括:确定文本特征候选集,所述文本特征候选集包括:字、词、句、篇、分布律、可读性公式六类特征;计算用于拟合可读性公式参数和用于训练机器学习模型的训练篇章文本的上述六类特征的特征值;基于所述文本特征候选集中的特征及计算的特征值,进行可读性公式设计或者机器学习模型训练;利用设计的可读性公式或者训练的机器学习模型对任意篇章文本进行可读性预测。本发明专利技术将文本分布律特征与字、词、句、篇、可读性公式特征相结合,经过特征选择后,进行可读性公式设计和机器学习模型训练,篇章文本可读性预测准确率有明显提升。预测准确率有明显提升。预测准确率有明显提升。

【技术实现步骤摘要】
融合文本分布律特征的中文文本可读性评价方法及系统


[0001]本专利技术涉及中文信息处理
,特别涉及一种融合文本分布律特征的中文文本可读性评价方法及系统。

技术介绍

[0002]阅读是获取信息的重要途经,培养阅读能力是语言学习的重要方面。对于语言学习者,应进行分级阅读,即:阅读与学习者理解能力相匹配的、难度适宜的文本材料。这有利于保持阅读兴趣,在培养阅读习惯的同时,发展阅读能力。
[0003]文本可读性是一种定量评价文本材料阅读难度的方法,李绍山(易读性研究综述[J].解放军外国语学院学报,2000)认为可读性,又称易读性或易懂性,是指文本易于阅读和理解的程度或性质,是文本的重要属性。研究文本可读性评价方法,对分级阅读、教材编写等应用具有重要意义。
[0004]中文文本可读性的预测方法有基于可读性公式的预测方法、基于语言模型的预测方法、基于传统机器学习模型的预测方法和基于深度神经网络的预测方法等。其中,可读性公式方法和传统机器学习模型都需要依赖文本特征。
[0005]文本可读性公式被认为是预测文本可读性等级的一种方式,可以客观评价文本的可读性。王蕾(初中级日韩留学生文本可读性公式初探[D].北京语言大学硕士研究生学位论文,2005)认为可读性公式是将所有影响阅读难度的、可以量化的因素(特别是文本因素)综合起来,制定的一个评价文本难易程度的公式。Hiebert等(Standards,assessments,and text difficulty in A.E. Farstrup&S.J.Samules(Eds.).What research has to say about reading instruction[J]. Newark,DE:International Reading Association,2002)表示20世纪70年代起,美国教育体系中就开始使用可读性公式对教材进行评估、定级,至今所有领域的教材,都要求与一定的可读性公式的语义和句法参数相匹配。
[0006]在形式上,可读性公式预测方法可表示为G=F(X),其中G为可读性等级,X为文本特征向量,F为公式内容,一般为线性函数,研究者在确定特征向量后,由训练文本拟合得到线性函数的各常数项,进而生成可读性公式。表1列举了部分中文可读性公式。
[0007]表1中文可读性公式总结
[0008][0009]表1中,GL是可读性分数,wd是词数,sent是句子数,ease指熟悉词数(一般根据分级词表计算难度较低的词的数量),stroke指字均笔画数,hard指难词比例(一般根据分级词表计算难度较高的词的占比),syll/sent指句均字数, wd/sent指句子平均词数,syll/wd指每个词的平均字数,x_2指字形复杂度,x_3 指词形复杂度,func指虚词数,splitsent指分句数,ease/wd指熟悉词数占比(一般根据分级词表计算难度较低的词的数量的比例),length指语料库中最大wd 减去最小wd。
[0010]基于传统机器学习的预测方法,在特征选择后,将文本特征值输入机器学习模型,运用已有机器学习模型进行学习,从而对可读性等级进行预测。
[0011]吴思远等(汉语文本可读性特征体系构建和效度验证[J].世界汉语教学第 34期2020年第1期,2020)对小学到高中12个年级语文教材进行句子级五分类预测,支持向量机模型准确率最高,达到0.638。Jiang等(GRAW+:Atwo
‑ꢀ
view graph propagation method with word coupling for readabilityassessment."Journal of the Association for Information Science and Technology 70.5 (2019):433

447)利用GRAW+模型进行中文小学语文教材句子级六分类预测,准确率为0.54。程勇等(基于多元特征的文本阅读难度自
动分级研究[J].数据分析与知识发现.2019年07期)运用多元特征融合的方法,对初、高中语文教材进行篇章级二分类预测,逻辑回归模型准确率最高,达到0.88。孙刚(基于线性回归的中文文本可读性预测方法研究[D].南京大学研究生毕业论文,2015) 利用对数线性回归模型进行小学语文教材篇章级六分类,准确率为0.46。在使用小学语文教材数据集进行可读性预测的研究中,句子级文本可读性预测的准确率高于篇章级文本,篇章级六分类可读性预测的研究中,现有最好结果是孙刚的研究,准确率为0.46。
[0012]现有基于文本特征进行中文文本可读性评价预测的可读性公式方法和传统机器学习方法,主要存在以下问题:
[0013](1)在文本特征方面,特征数量虽然多,但用于中文文本可读性评价的文本特征均为文本字、词、句、篇类别的特征。通过对王蕾(初中级日韩留学生文本可读性公式初探[D].北京语言大学硕士研究生学位论文,2005)、郭望皓(对外汉语文本易读性公式研究[D].上海交通大学硕士学位论文,2009)、杨金余(高级汉语精读教材语言难度测定研究[D].北京大学硕士研究生学位论文,2008)、陈阿林(神经网络汉语阅读难度量化计算模型及结果比较[J].重庆师范学院学报 (自然科学版),2000)、荆溪昱(中文国文教材的适读性研究:适读年级值的推估[J].教育研究资讯,1995,3(3):113

127)、孙汉银(中文易懂性公式[D].北京师范大学硕士论文,1992)、邹红建(面向对外汉语报刊教学的文本难易度分类[A].第三届学生计算语言学研讨会,2006)、Yang(Areadability formula forChinese language[D].The University of Wisconsin,1970)、吴思远(汉语文本可读性特征体系构建和效度验证[J].世界汉语教学第34期2020年第1期,2020)等工作的总结,得到表2中所列的已有中文文本可读性评价技术中使用的文本特征。
[0014]表2用于文本可读性评价的特征
[0015][0016]这里认为,除以上字、词、句、篇类别的文本特征外,还可以挖掘更多类别的特征。特别是在篇章可读性评价方面,篇章的主题、结构、远距离上下文相关性都会影响文本可读性,而计量这些方面的特征可以借鉴计量语言学研究领域。本专利技术的技术关键点之一就是将基于文本的字、词相关的分布函数进行进一步计算得到的文本分布律特征用于文本篇章可读性评价。
[0017](2)在中文文本可读性评价的应用领域方面,针对母语学习者的细粒度篇章可读性评价方法工作匮乏。
[0018]可读性公式相关研究中(见表1),郭望皓、王蕾、邹红建公式的提出都是基于对外汉语教材或阅读材料。荆溪昱公式针对中国台湾地区1

12年级的中文课本,是针对繁体字的可读性公式。只有孙汉银公式是针对母语学习者本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种融合文本分布律特征的中文文本可读性评价方法,其特征在于,包括以下步骤:S1、确定文本特征候选集,所述文本特征候选集包括:字、词、句、篇、分布律、可读性公式六类特征;S2、计算用于拟合可读性公式参数和用于训练机器学习模型的训练篇章文本的上述六类特征的特征值;S3、基于所述文本特征候选集中的特征及计算的特征值,进行可读性公式设计或者机器学习模型训练;S4、利用设计的可读性公式或者训练的机器学习模型对任意篇章文本进行可读性预测。2.根据权利要求1所述的中文文本可读性评价方法,其特征在于,步骤S2所述训练篇章文本是有多个可读性分类等级标注的文本,步骤S4所述任意篇章文本是指待依据步骤S2所述训练篇章文本可读性分类等级进行分类预测的任意篇章文本。3.根据权利要求1所述的中文文本可读性评价方法,其特征在于,所述可读性公式设计具体包括以下步骤:对所述文本特征候选集中的第一预设组的特征进行皮尔逊相关性分析,筛选出相互之间皮尔逊相关系数在预定数值α以下的特征,作为建立多元线性回归模型的特征;通过对筛选出的特征进行回归分析,得到与可读性等级拟合优度最高的回归模型。4.根据权利要求3所述的中文文本可读性评价方法,其特征在于,当α=0.7且步骤S2所述训练篇章文本是包括多个版本的小学1

6年级语文教材的六个可读性分类等级标注的篇章文本时,拟合得到的可读性公式表示为:Y=15.739+0.025*avesen_char+0.04*difficult_char+51.588*difficult_word+6.380*Gini+0.253*strokefre+1.437*lgcharfre

1.914*charwordpro

1.013*TC+6.121*subs tanpro

2.914*adjpro+4.38*funcpro+2.5*unlistwordpro+4.236*wordlenfre+0.688*La mbda+0.644*avelgwordfre;其中,avesen_char是平均句长,difficult_char是汉字难度,difficult_word是词汇难度,Gini是基尼系数,strokefre是频率加权的笔画数,lgcharfre是平均对数字频,charwordpro是字词比,TC是主题集中度,substanpro是实词比例,adjpro是形容词比例,funcpro是虚词比例,unlistwordpro是未登录词比例,wordlenfre是频率加权的词长,Lambda是Lambda值,avelgwordfre是平均对数词频。5.根据权利要求1所述的中文文本可读性评价方法,其特征在于,所述机器学习模型训练具体包括以下步骤:对所述文本特征候选集中的第二预设组的特征进行皮尔逊相关性分析,筛选出与分类等级关联较大,并且相互之间关联性较小的特征;将筛选出的特征作为输入特征进行机器学习模型的训练,选出最优的机器学习模型。6.一种融合文本...

【专利技术属性】
技术研发人员:赵慧周郭雯钰
申请(专利权)人:北京语言大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1