一种基于transformer的长文本质量分析方法技术

技术编号：22330184 阅读：60 留言：0更新日期：2019-10-19 12:17

本发明专利技术公开了一种基于transformer的长文本质量分析方法，其主要特点是设计了一个具有长文本分析能力的方法，克服了目前文本序列训练慢的缺点，适应数据特征的端到端的模型分析方法，其具体步骤包括：数据采集，从知网下载毕业论文；数据识别，提取PDF文本内容；数据表示，对文本进行处理，映射成计算机可分析的数据形式；数据标签，获取质量等级标签；数据表征，通过设计复杂度相当的模型，进行数据表征；数据分类，根据数据特点，加权数据表征的不同特征，进行数据分类。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于transformer的长文本质量分析方法
本专利技术涉及计算机
，特别涉及一种基于transformer的长文本质量分析方法。
技术介绍
信息社会的发展，维基百科的条目权威性遭到怀疑，网络上海量的XML文本，以及国内大量的毕业论文都存在一定的语句不通、用词不够标准、重复语句过多等质量问题，如果再使用人工编辑这将是一个很大的工作量。国外维基百科2017年已经在对这一领域提出的一个基于双向LSTM的端到端的神经网络的方法，但文本这种非结构化数据比较难以用计算机表征，过长的文本会导致现有的模型具有梯度消失或者梯度爆炸从而失去提取文本的特征的功能，他们在维基百科收集的条目数据集下，选择最长截取长度为2000，目前acc值在0.68。而对于现有的本科、硕士毕业论文，文本比维基百科的条目更长，目前现有的设计的模型都是针对300词左右的短文本的，而对于像毕业论文这种几万的长文本，更具有分析难度。本人在长文本质量分析这一块做了一些工作，CNN模型即可取的中文文本0.92的F1值，但缺点是将长文本分割成短文本进行分析，没有很好的表征长文本整体特征。在2018年前CNN和LSTM是自然语言处理的文本特征的主要提取器，经过技术的不断发展tranformer已经是目前最优的特征提取器，它具有快速计算、可以并行的特点。通过上面分析，目前主要问题如下：现有的自然语言处理模型大多是针对短文本进行分析，缺乏具有长文本分析能力，会出现梯度爆炸的问题，影响最终模型的泛化能力；在的短文本分析中，RNN结构具有训练慢，而应用到长文本这个问题会更加放大。
技术实现思路
为了解决上述至少...

【技术保护点】
1.一种基于transformer的长文本质量分析方法，其特征在于：数据采集，从知网下载毕业论文；数据识别，提取PDF文本内容；数据表示，对文本进行处理，映射成计算机可分析的数据形式；数据标签，获取质量等级标签；数据表征，通过设计复杂度相当的模型，进行数据表征；数据分类，根据数据特点，加权数据表征的不同特征，进行数据分类。

【技术特征摘要】
1.一种基于transformer的长文本质量分析方法，其特征在于：数据采集，从知网下载毕业论文；数据识别，提取PDF文本内容；数据表示，对文本进行处理，映射成计算机可分析的数据形式；数据标签，获取质量等级标签；数据表征，通过设计复杂度相当的模型，进行数据表征；数据分类，根据数据特点，加权数据表征的不同特征，进行数据分类。2.根据权利要求1所述的长文本质量分析方法，其特征在于，在所述数据识别过程中，利用OCR技术提取PDF中文本部分的内容。3.根据权利要求1所述的长文本质量分析方法，其特征在于，在所述数据表示过程中，将文本进行分句、分词，统计token词汇表，将文本映射到词汇表的索引，并在句子前后分别添加BOS和EOS特殊索引。4.在所述数据标签过程中，利用论文上传时间，可以提取出论文质量等级：优、良、差。5.根据权利要求1所述的长文本质量分析方法，其特征在于，在所述数据表征过程中，所述的合适模型分别是：长文本模型，用于对论文中正文部分内容质量进行特征提取；短文本模型，用于对硕士期间研究成果等中、英文论文进行特...

【专利技术属性】
技术研发人员：田文洪，莫中勤，曾柯铭，张朝阳，舒展，
申请(专利权)人：电子科技大学，
类型：发明
国别省市：四川,51

全部详细技术资料下载我是这个专利的主人