一种用于简体中文可读性测度的线性模型方法技术

技术编号:17837678 阅读:175 留言:0更新日期:2018-05-03 19:20
本发明专利技术公开了一种用于简体中文可读性测度的线性模型方法,步骤包括:构建简体中文文本及其可读性级别语料库;对文本进行预处理,包括分词、分句、词性标注、命名实体识别、成分句法分析、依存句法分析、子句标注、笔画统计;提取并计算文本语言特征;依据语言特征和回归算法构建最佳特征组合;构建可读性测度的线性回归模型。该模型所采用的文本语言特征涵盖浅层特征、词性标注特征(亦称为语义或词法特征)、语法特征、和篇章特征等四个方面,可以自动预测简体汉语文本对于汉语母语学习者的可读性等级,填补了基于简体汉语文本的可读性预测模型的空白。该模型拟合度高,可解释性强,并且对于评测应用文本的可读性具有可扩展性和重要参考价值。

A linear model method for readability measurement of simplified Chinese characters

The present invention discloses a linear model method for the measure of simplified Chinese readability. The steps include: constructing simplified Chinese text and its readable level corpus, and preprocessing the text, including participle, clause, part of speech tagging, named entity recognition, syntactic parsing, dependency syntactic analysis, clause annotation, Stroke statistics; extract and calculate text language features; construct the best combination of features based on linguistic features and regression algorithms; and construct a linear regression model of readability measure. The text language features of the model cover four aspects, such as shallow features, word tagging features (also called semantic or lexical features), grammatical features, and text features, and can automatically predict the readability level of the simplified Chinese text for Chinese native language learners, and fill the readability prediction model based on the simplified Chinese text. The type of blank. The model is highly fitting and interpretable, and it is extensible and valuable for evaluating the readability of applied texts.

【技术实现步骤摘要】
一种用于简体中文可读性测度的线性模型方法
本专利技术涉及可读性测度
,具体涉及一种用于简体中文的可读性测度的线性模型方法。
技术介绍
语言复杂性(linguisticcomplexity)是多维度跨学科的学术概念,可以从自然语言处理、二语习得、心理语言学、认知学、和对比语言学等角度研究。语言复杂性的界定可以从两个方面展开:严格意义的语言复杂性,即语言结构复杂性研究,多用于跨语言比较研究和作文自动评分;相对意义的语言复杂性研究,例如可读性、语言难度、认知成本等,多用于服务于语言学习和文本理解的应用研究。本项目研究相对意义的语言复杂性,即文本的可读性或易读性(readability)。可读性指标的研究多集中于英语(Gunning1969;Fengetal.2010)、法语(Todirascuetal.2016)、瑞典语(Pilanetal.2016)、日语(Sato2008)等语种的研究。可读性评价方法旨在发现影响文本阅读难度的语言特征,或者基于有效特征构建数学公式或者模型来表示文本的语言难度或者理解难度。与其他语种相比,对于汉语文本的可读性研究相对较少,并且以繁体汉字和文本为研究数据。汉字是汉语的书写符号系统,是一种表意文字,与拼音文字差别巨大。Yang(1970)是少数较早研究汉语可读性指标并较多被其他学者应用于特定领域的研究成果。Yang定义了7因素和3因素两种可读性指标,包含的汉语特征包括:完整句比例、基础词汇比例、平均笔画数等。Su和Samuels(2010)从汉字构成的角度(如偏旁部首、字词结构等)研究不同汉字特征对于不同阶段汉语学习者的学习效果的影响。Sungetal.(2015)构建了一个符合CEFR(欧洲共同语言教学与评价参考框架)标准的中文可读性评价系统,用于自动判断汉语教学文本的语言难度等级。值得注意的是以上研究所采用的实验数据或研究对象均为繁体字或繁体汉语文本。少数国内学者针对汉语二语学习文本的可读性测定研究,从语言特征分析、变量计算、和公式草创等方面做出了有意义和有成效的探索(王蕾2005;杨金余2008;郭望皓2009;左虹&朱勇2014)。但仍然存在许多不足,例如研究数据的规模非常小(比如二三十篇文章或者几十个句子),针对性过强(比如面向个别语种的留学生),变量选择主观性较强(比如省略自动化学习的变量),实证检验不充分(比如缺乏拟合优度检验),各种测度公式之间在变量类别的具体设计方面也差异较大。与其他语种可读性研究的丰富性和系统性相比,基于较大规模简体字文本和计算语言学技术的中文可读性指标实证研究尚未全面系统地展开。
技术实现思路
本专利技术的目的是为了解决现有技术中的上述缺陷,提供一种用于简体中文可读性测度的线性模型方法。本专利技术的目的可以通过采取如下技术方案达到:一种用于简体中文可读性测度的线性模型方法,所述的方法包括下列步骤:S1、构建简体中文文本及其可读性级别语料库;S2、对语料库文本进行预处理,包括分词、分句、词性标注、命名实体识别、成分句法分析、依存句法分析、子句标注、和/或笔画统计;S3、提取并计算文本语言特征;S4、依据语言特征和回归算法构建最佳特征组合;S5、构建可读性测度的线性回归模型。进一步地,所述的文本语言特征的特征类别包括:浅层特征、词性标注特征、语法特征和/或篇章特征,其中,所述的浅层特征包括字的复杂度特征、词的复杂度特征、句子复杂度特征和/或文本长度特征,所述的字的复杂度特征包括:特征1.文档最常用字的占比、特征2.文档次常用字的占比、特征3.文档总常用字的占比、特征4.低笔画占比、特征5.中笔画占比、特征6.高笔画占比和/或特征7.平均笔画数;所述的词的复杂度特征包括:特征8.不去重时文档的词汇平均字数、特征9.去重时文档的词汇平均字数、特征10.文档的两字词语的个数、特征11.文档的两字词语在总词数的占比、特征12.文档的三字词语的个数、特征13.文档的三字词语在总词数的占比、特征14.文档的四字词语的个数、特征15.文档的四字词语在总词数的占比、特征16.文档的四字以上词语的个数和/或特征17.文档的四字以上词语在总词数的占比;所述的句子复杂度特征包括特征18.单句的平均多字词语的个数、特征19.单句的平均词数、特征20.仅针对汉字的单句的平均字数和/或特征21.针对所有字符的句子的平均字数;所述的文本长度特征包括特征包括:22.文档的汉字总字数和/或特征23.针对所有字符的文档的总字符数;其中,所述的词性标注特征包括形容词特征、功能词特征、动词特征、名词特征、实词特征、习语/成语特征和/或副词特征,所述的形容词特征包括特征24.文档的形容词在总词数的占比、特征25.文档的唯一的形容词在去重后总词数的占比、特征26.文档的唯一形容词个数、特征27.单句平均形容词个数和/或特征28.单句平均唯一形容词个数;所述的功能词特征包括特征29.文档的功能词在总词数的占比、特征30.文档的唯一的功能词在去重后总词数的占比、特征31.文档的唯一功能词个数、特征32.文档的单句平均功能词个数和/或特征33、单句平均唯一功能词个数;所述的动词特征包括特征34.文档的动词在总词数的占比、特征35.文档的唯一动词个数、特征36.文档的唯一动词在去重后总词数的占比、特征37.单句平均动词个数和/或特征38.单句平均唯一动词个数;所述的名词特征包括特征39.文档的普通名词占比、特征40.文档的唯一普通名词个数、特征41.文档的唯一普通名词在去重后总词数的占比、特征42.单句平均普通名词个数、特征43.单句平均唯一普通名词个数、特征44.文档的所有名词在总词数的占比、特征45.文档的唯一所有名词个数、特征46.文档的唯一所有名词在去重后总词数的占比、特征47.单句平均所有名词个数和/或特征48.单句平均唯一所有名词个数;所述的实词特征包括特征49.文档的实词在总词数的占比、特征50.文档的唯一实词个数、特征51.文档的唯一实词在去重后总词数的占比、特征52.单句平均实词个数和/或特征53.单句平均唯一实词个数;所述的习语/成语特征包括特征54.文档的习语在总词数的占比、特征55.文档的唯一习语个数、特征56.文档的唯一习语在去重后总词数的占比、特征57.单句平均习语个数和/或特征58.单句平均唯一习语个数;所述的副词特征包括特征59.文档的副词在总词数的占比、特征60.文档的唯一副词个数、特征61.文档的唯一副词在去重后总词数的占比、特征62.单句平均副词个数和/或特征63.单句平均唯一副词个数;所述的语法特征包括词组特征、子句特征和/或完整句特征,其中,所述的词组特征包括特征64.单句平均名词短语个数、特征65.单句平均动词短语个数、特征66.文档的名词短语总数、特征67.文档的动词短语总数、特征68.文档的介词短语总数、特征69.文档的名词短语的平均长度、特征70.文档的动词短语的平均长度和/或特征71.文档的介词短语的平均长度;所述的子句特征包括特征72.文档的含有子句的句子的个数、特征73.文档的不含有子句的句子占句子总数的占比和/或特征74.文档的句子的平均子句个数;所述的完整句特征包括特征75.文档完整句句子数和/或特征76.文档完整句平均句本文档来自技高网
...
一种用于简体中文可读性测度的线性模型方法

【技术保护点】
一种用于简体中文可读性测度的线性模型方法,其特征在于,所述的方法包括下列步骤:S1、构建简体中文文本及其可读性级别语料库;S2、对语料库文本进行预处理,包括分词、分句、词性标注、命名实体识别、成分句法分析、依存句法分析、子句标注、和/或笔画统计;S3、提取并计算文本语言特征;S4、依据语言特征和回归算法构建最佳特征组合;S5、构建可读性测度的线性回归模型。

【技术特征摘要】
1.一种用于简体中文可读性测度的线性模型方法,其特征在于,所述的方法包括下列步骤:S1、构建简体中文文本及其可读性级别语料库;S2、对语料库文本进行预处理,包括分词、分句、词性标注、命名实体识别、成分句法分析、依存句法分析、子句标注、和/或笔画统计;S3、提取并计算文本语言特征;S4、依据语言特征和回归算法构建最佳特征组合;S5、构建可读性测度的线性回归模型。2.根据权利要求1所述的一种用于简体中文可读性测度的线性模型方法,其特征在于,所述的文本语言特征的特征类别包括:浅层特征、词性标注特征、语法特征和/或篇章特征,其中,所述的浅层特征包括字的复杂度特征、词的复杂度特征、句子复杂度特征和/或文本长度特征,所述的字的复杂度特征包括:特征1.文档最常用字的占比、特征2.文档次常用字的占比、特征3.文档总常用字的占比、特征4.低笔画占比、特征5.中笔画占比、特征6.高笔画占比和/或特征7.平均笔画数;所述的词的复杂度特征包括:特征8.不去重时文档的词汇平均字数、特征9.去重时文档的词汇平均字数、特征10.文档的两字词语的个数、特征11.文档的两字词语在总词数的占比、特征12.文档的三字词语的个数、特征13.文档的三字词语在总词数的占比、特征14.文档的四字词语的个数、特征15.文档的四字词语在总词数的占比、特征16.文档的四字以上词语的个数和/或特征17.文档的四字以上词语在总词数的占比;所述的句子复杂度特征包括特征18.单句的平均多字词语的个数、特征19.单句的平均词数、特征20.仅针对汉字的单句的平均字数和/或特征21.针对所有字符的句子的平均字数;所述的文本长度特征包括特征包括:22.文档的汉字总字数和/或特征23.针对所有字符的文档的总字符数;其中,所述的词性标注特征包括形容词特征、功能词特征、动词特征、名词特征、实词特征、习语/成语特征和/或副词特征,所述的形容词特征包括特征24.文档的形容词在总词数的占比、特征25.文档的唯一的形容词在去重后总词数的占比、特征26.文档的唯一形容词个数、特征27.单句平均形容词个数和/或特征28.单句平均唯一形容词个数;所述的功能词特征包括特征29.文档的功能词在总词数的占比、特征30.文档的唯一的功能词在去重后总词数的占比、特征31.文档的唯一功能词个数、特征32.文档的单句平均功能词个数和/或特征33、单句平均唯一功能词个数;所述的动词特征包括特征34.文档的动词在总词数的占比、特征35.文档的唯一动词个数、特征36.文档的唯一动词在去重后总词数的占比、特征37.单句平均动词个数和/或特征38.单句平均唯一动词个数;所述的名词特征包括特征39.文档的普通名词占比、特征40.文档的唯一普通名词个数、特征41.文档的唯一普通名词在去重后总词数的占比、特征42.单句平均普通名词个数、特征43.单句平均唯一普通名词个数、特征44.文档的所有名词在总词数的占比、特征45.文档的唯一所有名词个数、特征46.文档的唯一所有名词在去重后总词数的占比、特征47.单句平均所有名词个数和/或特征48.单句平均唯一所有名词个数;所述的实词特征包括特征49.文档的实词在总词数的占比、特征50.文档的唯一实词个数、特征51.文档的唯一实词在去重后总词数的占比、特征52.单句平均实词个数和/或特征53.单句平均唯一实词个数;所述的习语/成语特征包括特征54.文档的习语在总词数的占比、特征55.文档的唯一习语个数、特征56.文档的唯一习语在去重后总词数的占比、特征57.单句平均习语个数和/或特征58.单句平均唯一习语个数;所述的副词特征包括特征59.文档的副词在总词数的占比、特征60.文档的唯一副词个数、特征61.文档的唯一副词在去重后总词数的占比、特征62.单句平均副词个数和/或特征63.单句平均唯一副词个数;所述的语法特征包括词组特征、子句特征和/或完整句特征,其中,所述的词组特征包括特征64.单句平均名词短语个数、特征65.单句平均动词短语个数、特征66.文档的名词短语总数、特征67.文档的动词短语总数、特征68.文档的介词短语总数、特征69.文档的名词短语的平均长度、特征70.文档的动词短语的平均长度和/或特征71.文档的介词短语的平均长度;所述的子句特征包括特征72.文档的含有子句的句子的个数、特征73.文档的不含有子句的句子占句子总数的占比和/或特征74.文档的句子的平均子句个数;所述的完整句特征包括特征75.文档完整句句子数和/或特征76.文档完整句平均句法树高度;所述的篇章特征包括实体密度特征和/或篇章连贯性特征,其中,所述的实体密度特征包括特征77.文档的实体词总数、特征78.文档的唯一实体词总数、特征79.文档的实体词在文档总词数的占比、特征80.文档的唯一实体词在文档总单词数量的占比、特征81.文档的单句平均实体词数量、特征82.文档的单句平均唯一实体词数量、特征83.文档的命名实体词在文档总词数的占比、特征84.文档的单句平均命名实体词数量、特征85.文档的命名实体词在文档总实体词的占比、特征86.文档的普通名词在总词数的占比、特征87.文档的非命名实体名词在总词数的占比、特征88.文档的单句平均普通名词数量、特征89.文档的单句非命名实体词的数量和/或特征90.文档的单句平均非实体词数量;其中,所述的篇章连贯性特征包括特征91...

【专利技术属性】
技术研发人员:丘心颖邓可斌
申请(专利权)人:广东外语外贸大学
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1