一种基于transformer的长文本质量分析方法技术

技术编号:22330184 阅读:60 留言:0更新日期:2019-10-19 12:17
本发明专利技术公开了一种基于transformer的长文本质量分析方法,其主要特点是设计了一个具有长文本分析能力的方法,克服了目前文本序列训练慢的缺点,适应数据特征的端到端的模型分析方法,其具体步骤包括:数据采集,从知网下载毕业论文;数据识别,提取PDF文本内容;数据表示,对文本进行处理,映射成计算机可分析的数据形式;数据标签,获取质量等级标签;数据表征,通过设计复杂度相当的模型,进行数据表征;数据分类,根据数据特点,加权数据表征的不同特征,进行数据分类。

【技术实现步骤摘要】
一种基于transformer的长文本质量分析方法
本专利技术涉及计算机
,特别涉及一种基于transformer的长文本质量分析方法。
技术介绍
信息社会的发展,维基百科的条目权威性遭到怀疑,网络上海量的XML文本,以及国内大量的毕业论文都存在一定的语句不通、用词不够标准、重复语句过多等质量问题,如果再使用人工编辑这将是一个很大的工作量。国外维基百科2017年已经在对这一领域提出的一个基于双向LSTM的端到端的神经网络的方法,但文本这种非结构化数据比较难以用计算机表征,过长的文本会导致现有的模型具有梯度消失或者梯度爆炸从而失去提取文本的特征的功能,他们在维基百科收集的条目数据集下,选择最长截取长度为2000,目前acc值在0.68。而对于现有的本科、硕士毕业论文,文本比维基百科的条目更长,目前现有的设计的模型都是针对300词左右的短文本的,而对于像毕业论文这种几万的长文本,更具有分析难度。本人在长文本质量分析这一块做了一些工作,CNN模型即可取的中文文本0.92的F1值,但缺点是将长文本分割成短文本进行分析,没有很好的表征长文本整体特征。在2018年前CNN和LSTM是自然语言处理的文本特征的主要提取器,经过技术的不断发展tranformer已经是目前最优的特征提取器,它具有快速计算、可以并行的特点。通过上面分析,目前主要问题如下:现有的自然语言处理模型大多是针对短文本进行分析,缺乏具有长文本分析能力,会出现梯度爆炸的问题,影响最终模型的泛化能力;在的短文本分析中,RNN结构具有训练慢,而应用到长文本这个问题会更加放大。
技术实现思路
为了解决上述至少一个技术问题,本专利技术主要提供一种基于transformer的长文本质量分析方法,解决长文本质量难以评估的问题。一种基于transformer的长文本质量分析方法,包括:数据采集,从知网下载毕业论文;数据识别,提取PDF文本内容;数据表示,对文本进行处理,映射成计算机可分析的数据形式;数据标签,获取质量等级标签;数据表征,通过设计复杂度相当的模型,进行数据表征;数据分类,根据数据特点,加权数据表征的不同特征,进行数据分类。进一步的,在所述数据识别过程中,利用OCR技术提取PDF中文本部分的内容。进一步的,在所述数据表示过程中,将文本进行分句、分词。统计token词汇表,将文本映射到词汇表的索引,并在句子前后分别添加BOS和EOS特殊索引。进一步的,在所述数据标签过程中,利用论文上传时间,可以提取出论文质量等级:优、良、差。进一步的,在所述数据表征过程中,所述的合适模型分别是:长文本模型,用于对论文中正文部分内容质量进行特征提取;短文本模型,用于对硕士期间研究成果等中、英文论文进行特征提取。进一步的,在所述长文本模型,其具体由transformer特征提取模块和记忆模块组成。transformer模块提取句子特征、记忆模块进行句子特征遗忘和选择。进一步的,在所述transformer特征提取模块,其主要由前馈网络和self-attention组成:前馈网络提取词向量特征,self-attention提取词与词之间的特征。进一步的,其特征在于,在所述记忆模块,利用记忆单元特性,对当前分析句子进行特征加权。进一步的,所述记忆单元主要实现将之前句子分析句子特征进行特征遗忘和选取。进一步的,所述对当前分析句子进行特征加权,主要基于attention机制,将当前句子特征作为查询向量和值向量,将当前句子之前的句子向量作为键向量,获取通过记忆特征提取的句子向量。进一步的,所述数据分类,将长文本模型和短文本模型输出特征进行加权,作为全链接层的输入,进行文本质量表示分类。本专利技术的优点在于:(1)设计了一个具有长文本分析能力的方法(2)并且其计算速度克服了RNN训练慢的特点,可以并行计算(3)本方法采用端到端的神经网络的方法,有利于节省大量人工(4)本方法具有比CNN或RNN更好的提取特征能力,所以模型具有较好的泛化能力。附图说明图1本专利技术的长文本质量分析方法的工作流程图图2长文本模型和短文本模型训练过程图图3长文本模型结构图图4长文本模型中记忆单元结构图具体实施方式下面将参照附图更详细地描述本公开的示例性实施方式。虽然附图中显示了本公开的示例性实施方式,然而应当理解,可以以各种形式实现本公开而不被这里阐述的实施方式所限制。相反,提供这些实施方式是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。如图1所示,为本专利技术的一种基于transformer的长文本质量分析方法的工作流程图。其中基于transformer的长文本质量分析方法包括:数据采集,从知网下载毕业论文;数据识别,提取PDF文本内容;数据表示,对文本进行处理,映射成计算机可分析的数据形式;数据标签,获取质量等级标签;数据表征,通过设计复杂度相当的模型,进行数据表征;数据分类,根据数据特点,加权数据表征的不同特征,进行数据分类。具体步骤S12数据识别中,利用OCR技术,完成文字特征提取、文字定位等工作,并基于卷积神经网络(CNN)建立了字符识别模型,最后结合统计语言模型来提升效果。这比调用传统的PDF解释器进行PDF转换效果要好。具体步骤S13数据表示和S14数据标签中,主要是预处理数据变成模型输入数据,其主要过程是,将整个提取的文本分为正文部分文本、硕士期间研究成果文本。将正文部分文本对文本进行分词,制作成词汇表,进行词汇表索引映射,再进行分句,在句前和句末添加特殊标记,即形成长文本序列。将硕士期间研究成果文本,进行分词、制作词汇表,将文本进行词汇表索引映射,即形成短文本序列。另外利用论文上传时间,推理出质量等级优、良、差,对应制作词汇表,将三个等级进行映射,即形成标签。将上述的长文本序列、短文本序列、标签制作成标准样本数据结构,在此基础上,进行数据更上一层封装,封装成数据迭代器,方便下面模型使用。具体的步骤S15数据表征中,数据表征部分分长文本模型和短文本模型。所述的长文本模型具体如图3包括如下:嵌入层、上文记忆单元、transformer提取层。嵌入层,将长文本序列词索引转换成词向量,词向量附加位置编码特征,上文记忆单元存有上文抽象特征,利用attention机制作用于当前句子的词向量,然后利用transformer进行当前句子特征的提取。此处记忆单元具体应用到当前句子向量,如下公式表示:如图3句子向量可表示为上面公式中,Ti-1是前一个句子的特征表示,Si是当前句子特征表示,具体在图3中Ti-1为Q查询向量,键向量K和值向量均为Si向量。具体短文本模型,具体是使用BiLSTM对上述短文本进行时序分析,获取特征。具体的步骤S16数据分类中,将上述两个模型提取的特征进行加权,然后进行全连接分类。如图2训练阶段,将输出和真实标签比对,计算损失,更新两个模型的参数,进行模型更新提升。预测阶段直接输出分类结果,即完成了整个长文本质量的分类。本文档来自技高网...

【技术保护点】
1.一种基于transformer的长文本质量分析方法,其特征在于:数据采集,从知网下载毕业论文;数据识别,提取PDF文本内容;数据表示,对文本进行处理,映射成计算机可分析的数据形式;数据标签,获取质量等级标签;数据表征,通过设计复杂度相当的模型,进行数据表征;数据分类,根据数据特点,加权数据表征的不同特征,进行数据分类。

【技术特征摘要】
1.一种基于transformer的长文本质量分析方法,其特征在于:数据采集,从知网下载毕业论文;数据识别,提取PDF文本内容;数据表示,对文本进行处理,映射成计算机可分析的数据形式;数据标签,获取质量等级标签;数据表征,通过设计复杂度相当的模型,进行数据表征;数据分类,根据数据特点,加权数据表征的不同特征,进行数据分类。2.根据权利要求1所述的长文本质量分析方法,其特征在于,在所述数据识别过程中,利用OCR技术提取PDF中文本部分的内容。3.根据权利要求1所述的长文本质量分析方法,其特征在于,在所述数据表示过程中,将文本进行分句、分词,统计token词汇表,将文本映射到词汇表的索引,并在句子前后分别添加BOS和EOS特殊索引。4.在所述数据标签过程中,利用论文上传时间,可以提取出论文质量等级:优、良、差。5.根据权利要求1所述的长文本质量分析方法,其特征在于,在所述数据表征过程中,所述的合适模型分别是:长文本模型,用于对论文中正文部分内容质量进行特征提取;短文本模型,用于对硕士期间研究成果等中、英文论文进行特...

【专利技术属性】
技术研发人员:田文洪莫中勤曾柯铭张朝阳舒展
申请(专利权)人:电子科技大学
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1