当前位置: 首页 > 专利查询>宋继华专利>正文

一种面向国际汉语教学的句子难度等级评定方法及系统技术方案

技术编号:25224713 阅读:23 留言:0更新日期:2020-08-11 23:13
本发明专利技术提供一种面向国际汉语教学的句子难度等级评定方法及系统,包括:获取需要进行句子难度等级评定的句子;对句子进行信息标注;构建国际汉语分级词汇知识库;确定句子的词汇难度等级;构建国际汉语分级语法知识库;确定句子的语法难度等级;评定句子难度等级。具有以下优点:本发明专利技术提供的面向国际汉语教学的句子难度等级评定方法及系统,依据国际汉语教学词汇大纲构建国际汉语分级词汇知识库,依据国际汉语教学语法大纲构建国际汉语分级语法知识库,结合语料库以及分析工具分析句子,根据构建的知识库获取句子的词汇难度等级和句子的语法难度等级并分析获得句子难度等级,对国际汉语教学领域有着重要意义。

【技术实现步骤摘要】
一种面向国际汉语教学的句子难度等级评定方法及系统
本专利技术属于汉语句子难度评定
,具体涉及一种面向国际汉语教学的句子难度等级评定方法及系统。
技术介绍
句子是篇章的基本组成单位,句子的难易是影响文本的可读性的主要因素之一。然而,目前大多数研究主要集中于文本的难度测量,缺少专门对句子难度等级评定的研究。句子的难度主要受其构成因素——词语和语法的影响。在国际汉语教学领域中,国际汉语教学词汇大纲和语法大纲分别列出学习者在各个等级应该掌握的基础词语和语法,然而仅依靠国际汉语教学词汇大纲和语法大纲的规模,难以合理地判断句子难度等级。因此,如何有效解决句子难度等级评定问题,对国际汉语教学领域有着重要意义。
技术实现思路
针对现有技术存在的缺陷,本专利技术提供一种面向国际汉语教学的句子难度等级评定方法及系统,可有效解决上述问题。本专利技术采用的技术方案如下:本专利技术提供一种面向国际汉语教学的句子难度等级评定方法,包括以下步骤:S1,获取需要进行句子难度等级评定的句子;S2,根据语法难度等级评定的精度需求,对S1获取的句子进行信息标注;其中,所述信息标注包括词法信息标注或句法信息标注;所述词法信息标注是指:对句子进行中文分词和词类标注,得到词语、词类的序列信息;所述句法信息标注是指:对句子进行句法信息标注,得到词语、词类编码、义项编码和句法结构的XML信息;S3,根据国际汉语教学词汇大纲构建国际汉语分级词汇知识库;S301,获取带词类和释义信息的现代汉语基础词库,所述带词类和释义信息的现代汉语基础词库包括不成词的语素;在所述带词类和释义信息的现代汉语基础词库的基础上,增补信息处理用词汇,得到国际汉语教学综合词库;对所述国际汉语教学综合词库中的词条的词类和义项进行编码;S302,获取国际汉语教学语料库,采用S2所述方法对所述国际汉语教学语料库进行信息标注,对S301得到的所述国际汉语教学综合词库中的词语统计其在国际汉语教学语料库中的频次;S303,对S301中的国际汉语教学综合词库中的词语进行构词分析,标注词素及其词类、义项,以及词语的结构方式、词义合成类型,得到词汇构词模式知识库;S304,根据S303所得词汇构词模式知识库,为S3所述国际汉语教学词汇大纲中的词条补充词类编码、义项编码、词语的结构方式、词义合成类型以及词语的频次信息,得到新的国际汉语教学词汇大纲;S305,对S304所述新的国际汉语教学词汇大纲进行词汇类推扩展,得到国际汉语分级词汇知识库;S4,根据S3所述现代汉语分级词汇知识库,获取S2中所得词语的等级信息,并确定句子的词汇难度等级;S5,根据国际汉语教学语法大纲构建国际汉语分级语法知识库;S6,根据S5所述国际汉语分级语法知识库,获取S2中句子的语法点,并确定句子的语法难度等级;S7,根据S4所述词汇难度等级和S6所述语法难度等级,评定句子难度等级。优选的,S302中,对S301得到的所述国际汉语教学综合词库中的词语统计其在国际汉语教学语料库中的频次,具体包括以下步骤:基于S2中的词法信息标注方法,按照“词语+词类编码”统计S301得到的所述国际汉语教学综合词库中的词语出现在S302所述国际汉语教学语料库中的频次;基于S2中的句法信息标注方法,按照“词语+义项编码”统计S301得到的所述国际汉语教学综合词库中的词语出现在S302所述国际汉语教学语料库中的频次。优选的,S303中,词素及其词类、义项,以及词语的结构方式、词义合成类型的含义如下:词素是词语的构成要素;词素的词类是指:根据词素在构词中的词法功能而确定的类别,采用与词类相同的一套标记集,包括:名词n、时间词t、方位词f、数词m、量词q、代词r、动词v、形容词a、副词d、介词p、连词c、助词u、叹词e、拟声词o;其中,所述词素的词类兼指词素的类;词素的义项是指:根据词素义的不同而分出来的条目;词语的结构方式是构词分析结果,结构模式指出词语的词类、词素之间的结构关系,结构模式为:“n:n2↗n”,第一个“n”表明词语的词类是名词,“n2↗n”表示由一个双音节的名词和一个单音节的名词组成的定中结构;其中,结构关系及标记符号共八种,包括:并列…、定中↗、状中→、述补←、动宾|、主谓‖、重叠·和其它-;词义合成类型共七种,分别为:惯指、失指、泛指、特指、喻指、代指和模糊;其中,惯指是指词语语义没有转义,词语的义项是根据词素结构关系生成,是词素意义的直接组合。优选的,S305包括如下步骤:S30501,基于S304所述新的国际汉语教学词汇大纲,采用“减字默认词”扩展学习示例,总结词汇减字扩展类推方法,进行系统性的减字等级类推,得到减字扩展词表;S30502,基于S304所述新的国际汉语教学词汇大纲和S30501所得的减字扩展词表,根据“重组默认词”扩展学习示例,总结词汇组合扩展类推方法,进行系统性的组合等级类推,得到组合扩展词表;S30503,根据S304所述新的国际汉语教学词汇大纲、S30501所得的减字扩展词表、S30502所得的组合扩展词表以及现代汉语分类词典进行同类等级类推,得到同类扩展词表;S30504,根据S304所述新的国际汉语教学词汇大纲、S30501所得的减字扩展词表、S30502所得的组合扩展词表、S30503所得的同类扩展词表,得到国际汉语分级词汇知识库。优选的,S30501中的减字等级类推,以及S30502中的组合等级类推的方法如下:根据S304所述新的国际汉语教学词汇大纲中的词语的结构方式和词义合成类型,选取每一词义合成类型为“惯指”的词条;基于S2中的词法信息标注方法,根据S3所述的国际汉语分级词汇知识库,按照“词素+词类编码”进行减字等级类推和组合等级类推;基于S2中的句法信息标注方法,根据S3所述的国际汉语分级词汇知识库,按照“词素+义项编码”进行减字等级类推和组合等级类推。优选的,S30503包括如下步骤:S30503a,获取S302中所述国际汉语教学语料库中的所有词语,并删除单音节词语、S30501所述减字扩展词表和S30502所述组合扩展词表中的词语,获得待类推词语集;S30503b,根据S30503所述现代汉语分类词典,针对S30503a所述待类推词语集进行分类,获取同类词集;S30503c,针对S30503b所述同类词集的每一类别的词语,获取每一类别中出现在S304所述新的国际汉语教学词汇大纲中的词语及其等级,得到词语等级集合;S30503d,根据S30503c所述词语等级集合,选取每一类别中等级最高的词语的等级,作为该类别出现在S30503a所述待类推词语集,但未出现在S304所述新的国际汉语教学词汇大纲中词语的等级,得到同类扩展词表。优选的,S4中,根据S3所述现代汉语分级词汇知识库,获取S2中所得词语的等级信息,具体包括以下步骤:本文档来自技高网...

【技术保护点】
1.一种面向国际汉语教学的句子难度等级评定方法,其特征在于,包括以下步骤:/nS1,获取需要进行句子难度等级评定的句子;/nS2,根据语法难度等级评定的精度需求,对S1获取的句子进行信息标注;其中,所述信息标注包括词法信息标注或句法信息标注;所述词法信息标注是指:对句子进行中文分词和词类标注,得到词语、词类的序列信息;所述句法信息标注是指:对句子进行句法信息标注,得到词语、词类编码、义项编码和句法结构的XML信息;/nS3,根据国际汉语教学词汇大纲构建国际汉语分级词汇知识库;/nS301,获取带词类和释义信息的现代汉语基础词库,所述带词类和释义信息的现代汉语基础词库包括不成词的语素;在所述带词类和释义信息的现代汉语基础词库的基础上,增补信息处理用词汇,得到国际汉语教学综合词库;对所述国际汉语教学综合词库中的词条的词类和义项进行编码;/nS302,获取国际汉语教学语料库,采用S2所述方法对所述国际汉语教学语料库进行信息标注,对S301得到的所述国际汉语教学综合词库中的词语统计其在国际汉语教学语料库中的频次;/nS303,对S301中的国际汉语教学综合词库中的词语进行构词分析,标注词素及其词类、义项,以及词语的结构方式、词义合成类型,得到词汇构词模式知识库;/nS304,根据S303所得词汇构词模式知识库,为S3所述国际汉语教学词汇大纲中的词条补充词类编码、义项编码、词语的结构方式、词义合成类型以及词语的频次信息,得到新的国际汉语教学词汇大纲;/nS305,对S304所述新的国际汉语教学词汇大纲进行词汇类推扩展,得到国际汉语分级词汇知识库;/nS4,根据S3所述现代汉语分级词汇知识库,获取S2中所得词语的等级信息,并确定句子的词汇难度等级;/nS5,根据国际汉语教学语法大纲构建国际汉语分级语法知识库;/nS6,根据S5所述国际汉语分级语法知识库,获取S2中句子的语法点,并确定句子的语法难度等级;/nS7,根据S4所述词汇难度等级和S6所述语法难度等级,评定句子难度等级。/n...

【技术特征摘要】
20190912 CN 20191086580171.一种面向国际汉语教学的句子难度等级评定方法,其特征在于,包括以下步骤:
S1,获取需要进行句子难度等级评定的句子;
S2,根据语法难度等级评定的精度需求,对S1获取的句子进行信息标注;其中,所述信息标注包括词法信息标注或句法信息标注;所述词法信息标注是指:对句子进行中文分词和词类标注,得到词语、词类的序列信息;所述句法信息标注是指:对句子进行句法信息标注,得到词语、词类编码、义项编码和句法结构的XML信息;
S3,根据国际汉语教学词汇大纲构建国际汉语分级词汇知识库;
S301,获取带词类和释义信息的现代汉语基础词库,所述带词类和释义信息的现代汉语基础词库包括不成词的语素;在所述带词类和释义信息的现代汉语基础词库的基础上,增补信息处理用词汇,得到国际汉语教学综合词库;对所述国际汉语教学综合词库中的词条的词类和义项进行编码;
S302,获取国际汉语教学语料库,采用S2所述方法对所述国际汉语教学语料库进行信息标注,对S301得到的所述国际汉语教学综合词库中的词语统计其在国际汉语教学语料库中的频次;
S303,对S301中的国际汉语教学综合词库中的词语进行构词分析,标注词素及其词类、义项,以及词语的结构方式、词义合成类型,得到词汇构词模式知识库;
S304,根据S303所得词汇构词模式知识库,为S3所述国际汉语教学词汇大纲中的词条补充词类编码、义项编码、词语的结构方式、词义合成类型以及词语的频次信息,得到新的国际汉语教学词汇大纲;
S305,对S304所述新的国际汉语教学词汇大纲进行词汇类推扩展,得到国际汉语分级词汇知识库;
S4,根据S3所述现代汉语分级词汇知识库,获取S2中所得词语的等级信息,并确定句子的词汇难度等级;
S5,根据国际汉语教学语法大纲构建国际汉语分级语法知识库;
S6,根据S5所述国际汉语分级语法知识库,获取S2中句子的语法点,并确定句子的语法难度等级;
S7,根据S4所述词汇难度等级和S6所述语法难度等级,评定句子难度等级。


2.根据权利要求1所述的一种面向国际汉语教学的句子难度等级评定方法,其特征在于,S302中,对S301得到的所述国际汉语教学综合词库中的词语统计其在国际汉语教学语料库中的频次,具体包括以下步骤:
基于S2中的词法信息标注方法,按照“词语+词类编码”统计S301得到的所述国际汉语教学综合词库中的词语出现在S302所述国际汉语教学语料库中的频次;
基于S2中的句法信息标注方法,按照“词语+义项编码”统计S301得到的所述国际汉语教学综合词库中的词语出现在S302所述国际汉语教学语料库中的频次。


3.根据权利要求1所述的一种面向国际汉语教学的句子难度等级评定方法,其特征在于,S303中,词素及其词类、义项,以及词语的结构方式、词义合成类型的含义如下:
词素是词语的构成要素;词素的词类是指:根据词素在构词中的词法功能而确定的类别,采用与词类相同的一套标记集,包括:名词n、时间词t、方位词f、数词m、量词q、代词r、动词v、形容词a、副词d、介词p、连词c、助词u、叹词e、拟声词o;其中,所述词素的词类兼指词素的类;
词素的义项是指:根据词素义的不同而分出来的条目;
词语的结构方式是构词分析结果,结构模式指出词语的词类、词素之间的结构关系,结构模式为:“n:n2↗n”,第一个“n”表明词语的词类是名词,“n2↗n”表示由一个双音节的名词和一个单音节的名词组成的定中结构;其中,结构关系及标记符号共八种,包括:并列…、定中↗、状中→、述补←、动宾|、主谓‖、重叠·和其它-;
词义合成类型共七种,分别为:惯指、失指、泛指、特指、喻指、代指和模糊;其中,惯指是指词语语义没有转义,词语的义项是根据词素结构关系生成,是词素意义的直接组合。


4.根据权利要求1所述的一种面向国际汉语教学的句子难度等级评定方法,其特征在于,S305包括如下步骤:
S30501,基于S304所述新的国际汉语教学词汇大纲,采用“减字默认词”扩展学习示例,总结词汇减字扩展类推方法,进行系统性的减字等级类推,得到减字扩展词表;
S30502,基于S304所述新的国际汉语教学词汇大纲和S30501所得的减字扩展词表,根据“重组默认词”扩展学习示例,总结词汇组合扩展类推方法,进行系统性的组合等级类推,得到组合扩展词表;
S30503,根据S304所述新的国际汉语教学词汇大纲、S30501所得的减字扩展词表、S30502所得的组合扩展词表以及现代汉语分类词典进行同类等级类推,得到同类扩展词表;
S30504,根据S304所述新的国际汉语教学词汇大纲、S30501所得的减字扩展词表、S30502所得的组合扩展词表、S30503所得的同类扩展词表,得到国际汉语分级词汇知识库。


5.根据权利要求4所述的...

【专利技术属性】
技术研发人员:宋继华朱淑琴张引兵孙京博陈晨彭炜明郭冬冬宋天宝
申请(专利权)人:宋继华彭炜明宋天宝
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1