一种新闻阅读文本可读性评价方法及系统技术方案

技术编号:26792097 阅读:21 留言:0更新日期:2020-12-22 17:07
本发明专利技术公开了一种新闻阅读文本可读性评价方法及系统,该方法包括:对待评价的新闻阅读文本进行分句处理,形成分句列表;对分句列表中的句子进行句法分析,获取每一句子的句法结构信息;基于各句子的句法结构信息计算出每一句子的句子配数;基于各句子的句子配数,计算出待评价的新闻阅读文本的句子配数分形维数,并计算该句子配数分形维数与上述分句列表的长度的比值,得到修正句子配数分形维数;基于修正句子配数分形维数,采用融合法对待评价的新闻阅读文本的可读性进行评价。本发明专利技术利用修正句子配数分形维数和现有的可读性公式进行融合,提升了原有可读性公式的分类准确率和F1值。

【技术实现步骤摘要】
一种新闻阅读文本可读性评价方法及系统
本专利技术涉及新闻阅读文本的可读性评价
,特别涉及一种新闻阅读文本可读性评价方法及系统。
技术介绍
新闻报刊阅读教学在国际中文教学中属于中、高级的教学内容,教学内容大部分来自于一些报刊原文或加以改编,张宁志(2000)指出中、高级教材语料因为原文所占比例较大会导致对教材难度的控制比较弱,而想要提高教材编写的科学性,就需要能够对教材的难度进行定量研究。对于教材难度的研究,可以看作是“易读性”研究的一种,关于影响教材难度的因素,前人也多有论述。张宁志(2000)对多种影响教材难度的因素进行了分析,认为主要包括:生词量、高频词语的比例、语法项目的数量、句式的复杂程度、句子的长度、功能项目的数量及编排顺序以及与学生实际交际的相关度、语域风格(即语言的正规度)、百科及文化背景知识的数量等。之后,张宁志(2000)再次强调对汉语教材难度进行定量分析的重要性,并且利用“平均句长”对初、中、高级教材语料难度进行了区分,加入对于“每百字非常用词”的统计,对中、高级教材进行了区分。对于教材难度的影响因素,卢伟(2005)提出汉字、词汇、语法结构、语篇等几个语言变量是影响国际中文教材语料(包括课文、语言项目释例、练习等)难易程度的主要因素。当然除了这些语料的文本特征之外,像学习者的知识背景、文化背景,语料中的专用词组等等都会产生影响,不过仅考虑文本的基本构成层面来说,这些影响因素大致可分为字、词、句、篇几大类。目前研究较为充分的是词领域,相应的等级词表为从词层面进行分级确定提供了便利,李娟(2013)对中级汉语精读教材的分析中,词层面选取4个特征,而在句层面仅有2个,篇章层面1个(篇长)。对于句层面,选择了平均句长和每百字语法项目,这也是目前对于句法难度的衡量办法,不过这并不是唯一的办法。关于国际中文教育文本可读性公式研究,张宁志(2000)首次对29部教材进行研究并提出一些可用来量化教材难易度的评价指标,但直到王蕾(2005)才算是第一个关于国际中文教学文本的可读性公式,接着杨金宇(2008)、郭望皓(2009),左虹、朱勇(2014)都提出了针对于国际中文教学文本的可读性公式,不过不同的公式使用的范围、面向的学习群体有所不同。这些不同的可读性公式所选取的影响因素各不相同,但大都是浅层的语言因素,即字、词、句,而篇章级别的因素考虑的很少,只有王蕾考虑了篇章中的标志词(关联词)数。综上,目前的可读性评价方法中,在篇章层面上的影响因素不多,现在的篇章级影响因素也较为简单,只是单纯地计算篇章长度和一些关联词的情况。绝大多数的影响因素是词汇层面,而文本的可读性评价应该是基于篇章进行的,篇章级别的影响因素是十分重要的;因此,现有评价方法的评价结果不够准确。
技术实现思路
本专利技术提供了一种新闻阅读文本可读性评价方法及系统,以解决现有的可读性评价方法中,在篇章层面上的影响因素不多,绝大多数的影响因素是词汇层面,从而造成现有的可读性评价方法的评价结果不够准确的技术问题。为解决上述技术问题,本专利技术提供了如下技术方案:一方面,本专利技术提供一种新闻阅读文本可读性评价方法,该方法包括:对待评价的新闻阅读文本进行分句处理,形成分句列表;对所述分句列表中的句子进行句法分析,获取每一句子的句法结构信息;基于所述句法结构信息计算出每一句子的句子配数;其中,所述句子配数为一个0到1之间的数,是每一个句子的句法结构的数字化表示;基于所述句子配数,计算出所述待评价的新闻阅读文本的句子配数分形维数,并计算所述句子配数分形维数与所述分句列表的长度的比值,得到所述待评价的新闻阅读文本的修正句子配数分形维数;其中,所述句子配数分形维数为所述待评价的新闻阅读文本中所包含的句子配数序列的分形维数;基于所述修正句子配数分形维数,采用融合法对所述待评价的新闻阅读文本的可读性进行评价,得到所述待评价的新闻阅读文本的可读性评价结果。其中,对待评价的新闻阅读文本进行分句处理时,使用问号、感叹号和句号作为分隔符。其中,基于所述句法结构信息计算出每一句子的句子配数,包括:根据句子中的最后一个词的id值id_max形成一个双重列表ll,其中列表长度等于id_max;id是句子中每一个词的自然序列值;提取出当前句子中的每一个词的id和head形成列表[id,head],根据列表[id,head]填充列表ll,其中id对应ll中内层列表索引,id_max与当前id的差值为ll[id-1]的长度,其中ll[id-1]中除ll[id-1][head-id-1]=1以外,其余各项均为0;其中,head是每一个词的支配词的id值;倒序遍历列表ll的内容形成二进制数strt,将strt的每一项变为1得到strt_max,进而得到strt和strt_max的十进制表达bc和bc_max,最后求出句子配数bc_rel=bc/bc_max。其中,所述句子配数分形维数的计算使用盒子法:首先定义(0,1)之间的盒子范围收缩函数;然后利用不断收缩的盒子进行预设次数的迭代计算;在迭代计算终止后选取最后一个不为0的结果作为当前句子对应的句子配数分形维数。其中,所述融合法的公式如下:Z(x)=α*gF(x)±β*gB(x)其中,x为待评价的新闻阅读文本,Z(x)为x的可读性分数,F(x)为待融合模型的可读性分数,Ad(x)为所述修正句子配数分形维数,L(x)为所述分句列表的长度,g为归一化的标志,level(x)为映射函数,用于将可读性分数映射为0或1两个整数,为向下取整的符号;α、β和λ均为调整参数。其中,α和β的取值均为(-10,10),λ的取值范围为(0,1)。其中,所述融合法的公式中的“±”取决于gF(x)和gB(x)对待评价的新闻阅读文本的可读性评价结果的影响,如果两者的影响是同向的,则使用“+”号,否则使用“-”号。另一方面,本专利技术还提供一种新闻阅读文本可读性评价系统,该系统包括:分句模块,用于对待评价的新闻阅读文本进行分句处理,形成分句列表;句法结构信息提取模块,用于对所述分句模块得到的分句列表中的句子进行句法分析,获取每一句子的句法结构信息;句子配数计算模块,用于基于所述句法结构信息提取模块所提取的句法结构信息计算出每一句子的句子配数;其中,所述句子配数为一个0到1之间的数,是每一个句子的句法结构的数字化表示;修正句子配数分形维数计算模块,用于基于所述句子配数计算模块所计算出的句子配数,计算出所述待评价的新闻阅读文本的句子配数分形维数,并计算所述句子配数分形维数与所述分句列表的长度的比值,得到所述待评价的新闻阅读文本的修正句子配数分形维数;其中,所述句子配数分形维数为所述待评价的新闻阅读文本中所包含的句子配数序列的分形维数;可读性评价模块,用于基于所述修正句子配数分形维数计算模块所计算出的修正句子配数分形维数,采用融合法对所述待评价的新闻阅读文本的可读性进行评价,得到所述本文档来自技高网
...

【技术保护点】
1.一种新闻阅读文本可读性评价方法,其特征在于,所述方法包括:/n对待评价的新闻阅读文本进行分句处理,形成分句列表;/n对所述分句列表中的句子进行句法分析,获取每一句子的句法结构信息;/n基于所述句法结构信息计算出每一句子的句子配数;其中,所述句子配数为一个0到1之间的数,是每一个句子的句法结构的数字化表示;/n基于所述句子配数,计算出所述待评价的新闻阅读文本的句子配数分形维数,并计算所述句子配数分形维数与所述分句列表的长度的比值,得到所述待评价的新闻阅读文本的修正句子配数分形维数;其中,所述句子配数分形维数为所述待评价的新闻阅读文本中所包含的句子配数序列的分形维数;/n基于所述修正句子配数分形维数,采用融合法对所述待评价的新闻阅读文本的可读性进行评价,得到所述待评价的新闻阅读文本的可读性评价结果。/n

【技术特征摘要】
1.一种新闻阅读文本可读性评价方法,其特征在于,所述方法包括:
对待评价的新闻阅读文本进行分句处理,形成分句列表;
对所述分句列表中的句子进行句法分析,获取每一句子的句法结构信息;
基于所述句法结构信息计算出每一句子的句子配数;其中,所述句子配数为一个0到1之间的数,是每一个句子的句法结构的数字化表示;
基于所述句子配数,计算出所述待评价的新闻阅读文本的句子配数分形维数,并计算所述句子配数分形维数与所述分句列表的长度的比值,得到所述待评价的新闻阅读文本的修正句子配数分形维数;其中,所述句子配数分形维数为所述待评价的新闻阅读文本中所包含的句子配数序列的分形维数;
基于所述修正句子配数分形维数,采用融合法对所述待评价的新闻阅读文本的可读性进行评价,得到所述待评价的新闻阅读文本的可读性评价结果。


2.如权利要求1所述的新闻阅读文本可读性评价方法,其特征在于,对待评价的新闻阅读文本进行分句处理时,使用问号、感叹号和句号作为分隔符。


3.如权利要求1所述的新闻阅读文本可读性评价方法,其特征在于,基于所述句法结构信息计算出每一句子的句子配数,包括:
根据句子中的最后一个词的id值id_max形成一个双重列表ll,其中列表长度等于id_max;id是句子中每一个词的自然序列值;
提取出当前句子中的每一个词的id和head形成列表[id,head],根据列表[id,head]填充列表ll,其中id对应ll中内层列表索引,id_max与当前id的差值为ll[id-1]的长度,其中ll[id-1]中除ll[id-1][head-id-1]=1以外,其余各项均为0;其中,head是每一个词的支配词的id值;
倒序遍历列表ll的内容形成二进制数strt,将strt的每一项变为1得到strt_max,进而得到strt和strt_max的十进制表达bc和bc_max,最后求出句子配数bc_rel=bc/bc_max。


4.如权利要求1所述的新闻阅读文本可读性评价方法,其特征在于,所述句子配数分形维数的计算使用盒子法:首先定义(0,1)之间的盒子范围收缩函数;然后利用不断收缩的盒子进行预设次数的迭代计...

【专利技术属性】
技术研发人员:赵文杰赵慧周
申请(专利权)人:北京语言大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1