【技术实现步骤摘要】
基于语言特征解释器和对比学习的自动可读性评估方法
[0001]本专利技术属于人工智能
,具体涉及基于语言特征解释器和对比学习的自动可读性评估方法
。
技术介绍
[0002]文本可读性
(Text Readability)
指文本对于阅读者而言易于理解的程度和性质,若阅读文本的可读性相对于读者水平不相匹配,例如太困难或不易理解,对读者的阅读效率和文本理解效果会产生负面影响,因此对于文本可读性的评估对向读者进行阅读材料的选择
、
推荐等方面具有重要意义
。
[0003]早期的可读性评估研究主要涉及语言学家定义各种语言特征,并通过教育和心理方法创建可读性公式,包括
Flesch
易读度公式
、Dale
‑
Chal
可读性指标计算公式和
SMOG
可读性公式
。
尽管这些公式具有简单性和易于解释的优点,但它们在表示文本的结构复杂性和语义复杂性等某些复杂特征方面存在不足
。
这种局限性限制了这些可读性公式的性能
。
[0004]随着深度学习的发展,深度学习方法在可读性评估任务中表现出卓越的性能,这得益于深度神经网络强大的近似能力
。
尽管在文本可读性评估方面取得了令人钦佩的性能,但深度学习模型通常忽视了语言特征的作用,或没有充分探索其潜力
。
一些现有技术构建了一个特征之间的相关性图,将语言特征表示为节点,将它们的关系表示 ...
【技术保护点】
【技术特征摘要】
1.
基于语言特征解释器和对比学习的自动可读性评估方法,包括下列步骤:步骤一
、
建立自动可读性评估模型;步骤二
、
训练自动可读性评估模型;步骤三
、
进行可读性评估时,将相应的文本输入上述自动可读性评估模型处理后自动生成可读性级别;其特征在于:所述自动可读性评估模型为
InterpretARA
模型,所述
InterpretARA
模型包括语言特征模块
、
深度特征模块
、
连接层
、
线性层和
softmax
层;所述语言特征模块中从文本信息中获取语言特征并对语言特征进行处理从而生成增强语言特征表示;所述深度特征模块一方面对整个文本进行处理生成文本级别表示,另一方面先将文本分割为多个段落,再对这些段落进行处理生成段落级别表示;所述步骤二中,将作为样本的文本输入所述
InterpretARA
模型,从同一文本中提取了文本级别表示
、
段落级别表示和增强语言特征表示,再进一步采用正交投影滤波方案将增强语言特征表示和段落级别表示分别融合到文本级别表示,从而产生对应的第一正交投影向量和第二正交投影向量,将文本级别表示
、
第一正交投影向量和第二正交投影向量连接起来,再通过一个线性层和
softmax
运算进行处理,生成最终的文本可读性评估结果;训练过程中通过最小化所述
InterpretARA
模型的总训练损失优化模型,完成对
InterpretARA
模型的训练
。2.
根据权利要求1所述的基于语言特征解释器和对比学习的自动可读性评估方法,其特征在于:所述
InterpretARA
模型的总训练损失包含所述
InterpretARA
模型的交叉熵损失和对比损失;对比损失被用来表示文本间相关性,对比损失最小化即同时最大化相同难度级别的文档级表示之间的相似性以及最小化不同难度级别的文档级表示之间的相似性
。3.
根据权利要求1或2所述的基于语言特征解释器和对比学习的自动可读性评估方法,其特征在于:在所述语言特征模块中,通过语言特征解释器产生与语言特征对应的自然语言形式的解释,所述解释经过预训练的
BERT
模型一处理得到对应的处理结果,最后各个解释对应的处理结果通过语言特征模块中的混合池化层和线性层混合生成增强语言特征表示,所述语言特征模块中的
BERT
模型一均共享相同的参数
。4.
根据权利要求3所述的基于语言特征解释器和对比学习的自动可读性评估方法,其特征在于:语言特征解释器产生所述解释的具体方法如下:每个语言特征有相应的特征名和对应的数值,语言特征解释器中设置有与特征名一一对应的模板,所述模板根据特征名对数值的含义进行自然语言描述,将原本的特征值变为包含自然语言描述和数值的解释
。5.
根据权利要求1或2所述的基于语言特征解释器和对比学习的自动可读性评估方法,其特征在于:在深度特征模块中,一方面将整个文本直接输入预训练的
BERT
模型二生成文本级别表示;另一方面先对文本进行分割得到多个具有相同句子数量的段落,再将这些段落分别输入到预训练的
BERT
模型二处理得到相应的处理结果,各个段落对应的处理结果通过深度特征模块中的混合池化层和线性层混合生成段落级别表示,所述深度特征模块中的
BERT
模型二均共享相同的参数
。6.
【专利技术属性】
技术研发人员:童贤超,曾锦山,余相龙,肖文艳,
申请(专利权)人:江西师范大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。