【技术实现步骤摘要】
本专利技术涉及自然语言处理,具体地说是一种对中文文本的多维可读性分析与基于多层级语言特征融合的中文文本可读性分级方法。
技术介绍
0、技术背景
1、当前国际中文教育迅速发展,越来越多的学习者跨足中文学习的领域。多元的中文学习者群体涵盖了不同国家、文化和语境,其中文水平、学科背景以及学习目各异,这使得对中文文本可读性分级越来越重要。在国际中文教育的背景下,学习者的需求和背景千差万别。有的学习者可能是初学者,希望能够通过简单易懂的中文文本入门,从而保障阅读过程的顺利进行;有的学习者可能已经具备一定中文水平,追求更高层次的语言挑战,可以选择既具有挑战性又不至于过于艰深的阅读材料。通过科学合理地划分中文文本的难度等级,学习者可以更有针对性地选择适合自己水平的材料,实现渐进、高效的中文学习过程。这对于提高国际学习者的中文阅读水平、促进跨文化交流具有重要作用。同时,中文文本可读性分级不仅能够服务于个体学习者,也为国际中文教师和在线教育平台提供了更科学、更个性化的教学资源管理手段通过分级的中文文本,教师和平台可以更好地组织和优化教学内容,
...【技术保护点】
1.一种基于多层级语言特征融合的中文文本可读性分级方法,其特征在于,采用语言等级特征抽取模块和多层级特征融合模块构建基于多层级语言特征融合的中文文本可读性分级模型,利用训练好的中文文本可读性分级模型,实现对输入文本的难度等级预测,所述中文文本可读性分级模型包括模型训练和模型预测;所述模型训练使用中文文本可读性分级数据,实现对模型参数的训练,其训练流程具体包括:数据集划分、语言等级特征抽取、使用BERT模型分词、加载BERT预训练参数、嵌入层融入语言等级特征、自注意力层融入语言等级特征、构造损失函数和训练设置;所述模型预测使用训练好的中文文本可读性分级模型,实现对输入文
...【技术特征摘要】
1.一种基于多层级语言特征融合的中文文本可读性分级方法,其特征在于,采用语言等级特征抽取模块和多层级特征融合模块构建基于多层级语言特征融合的中文文本可读性分级模型,利用训练好的中文文本可读性分级模型,实现对输入文本的难度等级预测,所述中文文本可读性分级模型包括模型训练和模型预测;所述模型训练使用中文文本可读性分级数据,实现对模型参数的训练,其训练流程具体包括:数据集划分、语言等级特征抽取、使用bert模型分词、加载bert预训练参数、嵌入层融入语言等级特征、自注意力层融入语言等级特征、构造损失函数和训练设置;所述模型预测使用训练好的中文文本可读性分级模型,实现对输入文本的难度等级预测,其预测流程具体包括:模型准备、语言等级特征抽取、使用bert模型分词、获取输出层结果和获取预测难度等级。
2.根据权利要求1所述的基于多层级语言特征融合的中文文本可读性分级方法,其特征在于,所述语言等级特征抽取模块借助汉字、词...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。