一种预训练语料清洗方法、系统及存储介质技术方案

技术编号:37212629 阅读:12 留言:0更新日期:2023-04-20 23:02
本发明专利技术涉及自然语言处理技术领域,特别涉及一种预训练语料清洗方法、系统及存储介质,包括以下步骤:获取预设语料库,预设语料库中包括多条语料,基于预设方法对多条语料进行切分,得到多条切分后的语料,将多条切分后的语料进行清洗,得到多条清洗后的切分后的语料,判断每条切分后的清洗后的语料是否满足预设条件;若是,将满足预设条件的切分后的清洗后的语料保留,若否,则将不满足预设条件的切分后的清洗后的语料舍弃,将每条语料内需要保留的切分后的清洗后的语料进行拼接得到清洗好的预训练语料。过滤掉低质量垃圾文本,减少训练语料时的噪音和预训练模型训练语料的总量,提升模型训练的效率,解决训练时数据噪音多,训练效率较低的问题。训练效率较低的问题。训练效率较低的问题。

【技术实现步骤摘要】
一种预训练语料清洗方法、系统及存储介质


[0001]本专利技术涉及自然语言处理
,特别涉及一种预训练语料清洗方法、系统及存储介质。

技术介绍

[0002]随着自然语言处理技术的预训练模型技术在现实生活中得到越来越广泛的应用,如对话系统、问答系统、营销文案生成、小说续写、文案生成、翻译系统等,我们需要使用更多更高质量的语料以供模型进行预训练。语料预处理作为预训练技术的第一步,是后续模型进行预训练的基础,这一步至关重要。如果语料处理不当,包含大量噪音,例如有大量语法错误、不通顺的文本、广告、网页代码等,会严重影响模型的预训练的质量和效率。
[0003]如今是信息时代,网络和社交媒体上有着丰富的语料资源。为了更好地利用这些语料数据进行后续自然语言的相关研究,如文本分类、问答、对话、阅读理解以及实体抽取等,我们需要对不同来源、不同形式的文本数据进行预处理,得到干净的高质量语料。现有技术中,一般采用基于正则等的规则匹配的方式对语料进行清洗,但这个方法的缺陷在于人力成本高,需要人工编写大量的规则和模板;适应性和灵活性较差,由于清洗时完全依赖已编写的规则及阈值,在处理语料的时候未考虑语义信息而是直接一刀切,泛化性差,仍会遗留大量无效及有害信息未被清洗,存在大规模预训练预料中数据噪音过多,从而影响预训练效率和质量的问题。

技术实现思路

[0004]为解决现有存在数据噪音较多,训练时效率较低的问题,本专利技术提供了一种预训练语料清洗方法、系统及存储介质。
[0005]本专利技术解决技术问题的方案是提供一种预训练语料清洗方法,包括以下步骤:获取预设语料库,所述预设语料库中包括多条语料,基于预设方法对多条语料进行切分,得到多条切分后的语料,其中每条语料可切分得到一条或多条切分后的语料;将多条切分后的语料进行清洗,得到多条清洗后的切分后的语料,并判断每条切分后的清洗后的语料是否满足预设条件;若是,将满足预设条件的切分后的清洗后的语料保留,若否,则将不满足预设条件的切分后的清洗后的语料舍弃;将每条语料内需要保留的切分后的清洗后的语料进行拼接得到清洗好的预训练语料。
[0006]优选地,获取预设语料库,所述预设语料库中包括多条语料,基于预设方法对多条语料进行切分,得到多条切分后的语料具体包括以下步骤:获取预设语料库,所述预设语料库中包括多条语料;对预设语料库中的每条语料进行遍历并取预设语料库中的任意一条语料作为当前语料,并判断当前语料的长度是否小于或等于预设长度;
若是,则将当前语料作为切分后的语料;若否,则将当前语料以句号为分隔进行切分,得到当前语料的多个单句,并将当前语料的多个单句按照顺次进行拼接,得到多个拼接后的文本,其中拼接后的文本的长度小于或等于预设长度,并将多个拼接后的文本记为多条切分后的语料。
[0007]优选地,所述预设长度的范围为64字符—512字符。
[0008]优选地,所述语料通过词性标注特征模块和文本表征模块进行清洗。
[0009]优选地,将多条切分后的语料进行清洗,得到多条清洗后的切分后的语料,并判断多条切分后的清洗后的语料是否满足预设条件具体包括以下步骤:将多条切分后的语料分别输入词性标注特征模块和文本表征模块,分别得到M维的词性特征向量和N维的文本表征向量;将切分后的每条语料的M维的词性特征向量和N维的文本表征向量以预设拼接方式进行拼接,得到切分后每条语料的M+N维向量表示;将切分后每条语料的M+N维向量表示输入树模型分类器,树模型分类器输出得分判断该语料是否满足预设条件,输出为1则满足预设条件,输出为0则不满足预设条件。
[0010]优选地,所述树模型分类器为训练后的LightGBM模型。
[0011]优选地,所述预设拼接方式为Concatenate拼接方式。
[0012]优选地,对树模型分类器进行训练的损失函数为:其中,N是样本数量,yi是第i个样本的实际标签,pi是第i个样本预测为1的预测概率。
[0013]本专利技术为解决上述技术问题还提供一种预训练语料清洗系统,包括以下模块:获取模块:用于预设语料库,所述预设语料库中包括多条语料,基于预设方法对多条语料进行切分,得到多条切分后的语料;清洗模块:用于将多条切分后的语料进行清洗,并判断每条切分后的清洗后的语料是否满足预设条件;处理模块:用于将满足预设条件的切分后的清洗后的语料作为当前语料,若否,则将不满足预设条件的切分后的清洗后的语料舍弃;拼接模块:用于将每条语料内需要保留的切分后的清洗后的语料进行拼接得到清洗好的预训练语料。
[0014]本专利技术为解决上述技术问题还提供一种存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任意一项所述的一种预训练语料清洗方法。
[0015]与现有技术相比,本专利技术的一种预训练语料清洗方法、系统及存储介质具有以下优点:1、本专利技术的预训练语料清洗方法的步骤中,先是获取预设语料库中的多条语料,并基于预设方法对多条语料进行切分,得到多条切分后的语料,其中每条语料可切分得到一条或多条切分后的语料,并将切分后的语料进行清洗,得到多条清洗后的切分后的语料,判断每条切分后的清洗后的语料是否满足预设条件,若是,将满足预设条件的切分后的清洗后的语料保留,若否,则舍弃,将每条语料内需要保留的切分后的清洗后的语料进行拼接得到清洗好的预训练语料,本专利技术的步骤中先取多条语料,并基于预设长度对多条语料同
时进行切分,得到所需要长度的语料,并将符合长度需求的语料进行清洗,可以过滤掉低质量无效和有害文本内容,从而减少训练语料时的噪音,能够有助于后续预训练模型的预训练,提升后续预训练模型的质量,与此同时,通过对语料清洗可以减少后续进行模型训练时语料的总量,从而可以大大提升模型训练时的效率,从而解决现有训练时数据噪音较多,训练效率较低的问题。
[0016]2、本专利技术的预训练语料清洗方法的步骤中对预设语料库中的每条语料进行遍历,并取预设语料库中的任意一条语料作为当前语料,对当前语料的长度进行判断,判断当前语料的长度是否小于或等于预设长度,若是,则无需对语料进行切分,小于或等于预设长度的当前语料可直接作为切分后的语料;若否,则将当前语料以句号为分隔进行切分,得到当前语料的多个单句,并将多个单句按照顺次进行拼接,得到多个拼接后的文本,其中拼接后的文本需要满足小于或等于预设长度的条件,多余的部分拼接得到另一个拼接后的文本,保证拼接后的文本小于或等于预设长度即可,这样得到的切分后的语料的长度小于或者是等于预设长度的上限,其中,以句号为界限对语料拆分成多个单句,可以保证语义的完整性,并且拼接后的文本的长度小于或等于预设长度,为后续输入对语料进行清洗做准备,提升训练模型的效率。
[0017]3、本专利技术的语料通过词性标注特征模块和文本表征模块进行清洗,在进行标注时,切分后的语料同时输入词性标注特征模块和文本表征模块,词性标注特征模块是对切分后的语料进行词性标注操作,统计切分后的语料中的各项词性标注特征,文本表征模块是基于Mengzi

BERT<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种预训练语料清洗方法,其特征在于:包括以下步骤:获取预设语料库,所述预设语料库中包括多条语料,基于预设方法对多条语料进行切分,得到多条切分后的语料,其中每条语料可切分得到一条或多条切分后的语料;将多条切分后的语料进行清洗,得到多条清洗后的切分后的语料,并判断每条切分后的清洗后的语料是否满足预设条件;若是,将满足预设条件的切分后的清洗后的语料保留,若否,则将不满足预设条件的切分后的清洗后的语料舍弃;将每条语料内需要保留的切分后的清洗后的语料进行拼接得到清洗好的预训练语料。2.如权利要求1所述的预训练语料清洗方法,其特征在于:获取预设语料库,所述预设语料库中包括多条语料,基于预设方法对多条语料进行切分,得到多条切分后的语料具体包括以下步骤:获取预设语料库,所述预设语料库中包括多条语料;对预设语料库中的每条语料进行遍历并取预设语料库中的任意一条语料作为当前语料,并判断当前语料的长度是否小于或等于预设长度;若是,则将当前语料作为切分后的语料;若否,则将当前语料以句号为分隔进行切分,得到当前语料的多个单句,并将当前语料的多个单句按照顺次进行拼接,得到多个拼接后的文本,其中拼接后的文本的长度小于或等于预设长度,并将多个拼接后的文本记为多条切分后的语料。3.如权利要求2所述的预训练语料清洗方法,其特征在于:所述预设长度的范围为64字符—512字符。4.如权利要求1所述的预训练语料清洗方法:其特征在于:所述语料通过词性标注特征模块和文本表征模块进行清洗。5.如权利要求4所述的预训练语料清洗方法,其特征在于:将多条切分后的语料进行清洗,得到多条清洗后的切分后的语料,并判断多条切分后的清洗后的语料是否满足预设条件具...

【专利技术属性】
技术研发人员:华菁云周同王宇龙周明
申请(专利权)人:北京澜舟科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1