【技术实现步骤摘要】
面向汉语词汇学习的分级词表动态生成方法和系统
本专利技术属于语料库语言学和自然语言处理
,具体涉及一种面向汉语词汇学习的分级词表动态生成方法和系统。
技术介绍
欧洲语言测试者协会发布了欧洲语言共同参考框架,用于评估学习者对所学语言的掌握程度。欧洲语言共同参考框架将语言能力分为六级,并对各级别所要求达到的语言能力进行了详细描述,为词表的分级提供了理论支撑。我国从上世纪60年代开始研制用于对外汉语教学的词表,词表的研制基本依靠人工筛选,由于没有统一的标准,各种词表层出不穷。随着时代发展和语言使用习惯的变更,年代久远的词表暴露出越来越多的问题,传统的依靠人力的词表研制方式在规范化、规模化、信息化、自动化、重复性、时效性以及可解释性等方面均无法满足当前国际汉语教学领域的需求。
技术实现思路
针对现有技术存在的缺陷,本专利技术提供一种面向汉语词汇学习的分级词表动态生成方法和系统,可有效解决上述问题。本专利技术采用的技术方案如下:本专利技术提供一种面向汉语词汇学习的分级词表动态生成方法,
【技术保护点】
1.一种面向汉语词汇学习的分级词表动态生成方法,其特征在于,包括以下步骤:/nS1,根据语言学和计量词汇学,确定合适的可量化的词汇属性,构建词表价值评价体系;/nS2,结合S1中确定的词汇属性,对汉语分级语料进行标注分析,获取需要用到的有用的词汇属性信息;/nS3,结合S1构建的词表价值评价体系和S2确定的词汇属性信息,通过分级词表动态生成算法,自动生成分级词表。/n
【技术特征摘要】
1.一种面向汉语词汇学习的分级词表动态生成方法,其特征在于,包括以下步骤:
S1,根据语言学和计量词汇学,确定合适的可量化的词汇属性,构建词表价值评价体系;
S2,结合S1中确定的词汇属性,对汉语分级语料进行标注分析,获取需要用到的有用的词汇属性信息;
S3,结合S1构建的词表价值评价体系和S2确定的词汇属性信息,通过分级词表动态生成算法,自动生成分级词表。
2.根据权利要求1所述的面向汉语词汇学习的分级词表动态生成方法,其特征在于,S1中,所述合适的可量化的词汇属性包括两种:不依赖于上下文的词汇内部属性和依赖于上下文的词汇外部属性;其中,词汇内部属性包括词汇本身词性、词汇本身释义和词汇的构词能力;其中,词汇的构词能力包括构词方式和构词类型;词汇外部属性包括词汇在特定语境中的词性、词汇在特定语境中的释义和词汇的频率特征;其中,词汇的频率特征包括词频、文档频率和等级频率。
3.根据权利要求1所述的面向汉语词汇学习的分级词表动态生成方法,其特征在于,S1具体包括如下步骤:
S101,基于“词汇类推”的研究成果,结合中文词汇的特点,将词汇的构词能力具体化;S101具体包括如下步骤:
S1011,将词表中的每个词语进行减字类推,得到减字扩充词表;
S1012,基于减字扩充词表,进行组合类推,得到最终的扩充词表;
S102,基于词汇的构词能力对S1012得到的最终的扩充词表进行价值评价计算,构建得到词表价值评价体系,S102具体包括如下步骤:
S1021,计算每个词汇的词频TF值;
S1022,计算每个词汇的文档频率DF值;
S1023,计算每个词汇的等级频率GF值;
S1024,计算每个词汇对不同等级词表的影响程度;
S1025,综合考虑每个词汇的词频TF值、文档频率DF值、等级频率GF值和影响程度,计算每个词汇的价值;
S1026,将词表的每个词汇的价值求和,得到词表的总价值,由此得到词表价值评价结果。
4.根据权利要求1所述的面向汉语词汇学习的分级词表动态生成方法,其特征在于,S1021具体为:
采用以下公式计算每个词汇的词频TF值:
其中,为:词语w在第i级教材中的词频TF值;
S1022具体为:
采用以下公式计算每个词汇的文档频率DF值:
其中,为:词语w在第i级教材的文章中的文档频率DF值;
S1023具体为:
采用以下公式计算每个词汇的等级频率GF值:
其中,GFw为:词语w的等级频率GF值;
S1024具体为:
(1)采用以下公式计算出现在第i级教材中的任一词语wj对第i级教材的覆盖度:
其中:
表示:出现在第i级教材中的任一词语wj对第k级教材的覆盖度;
表示:词语wj在第k级教材的文章中的文档频率DF值;<...
【专利技术属性】
技术研发人员:彭炜明,张曌,张引兵,宋继华,宋天宝,
申请(专利权)人:彭炜明,宋继华,宋天宝,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。