文本处理方法、计算机可读存储介质及计算机设备技术

技术编号:33063915 阅读:56 留言:0更新日期:2022-04-15 09:53
本发明专利技术公开了一种文本处理方法、计算机可读存储介质及计算机设备。其中,该方法包括:获取多组样本数据,其中,多组样本数据包括样本文本;对样本文本中的第一目标词添加掩码,得到目标文本;从样本文本中查找到第二目标词;对样本文本所包括的分词标注识别权重,其中,第二目标词的识别权重小于除第二目标词之外的其他分词的识别权重;采用目标文本以及样本文本所包括的分词的识别权重进行机器训练,得到目标转换器模型。本发明专利技术解决了相关技术中预训练语言模型在文本中知识学习能力差的技术问题。问题。问题。

【技术实现步骤摘要】
文本处理方法、计算机可读存储介质及计算机设备


[0001]本专利技术涉及文本处理
,具体而言,涉及一种文本处理方法、计算机可读存储介质及计算机设备。

技术介绍

[0002]预训练语言模型(Pre

trained language models, PLM)用于从文本中获取通用知识。
[0003]相关技术中,用于对文本进行处理的预训练语言模型有多种,包括:预训练的语言表征模型(Bidirectional Encoder Representation from Transformers,BERT)、RoBERTa和生成式预训练模型(Generate Pre

Training Model,GPT),等等。这些预训练语言模型虽然能够大幅度提高许多自然语言处理任务的性能,但存在预训练语言模型在文本中知识学习能力差的问题。
[0004]针对上述的问题,目前尚未提出有效的解决方案。

技术实现思路

[0005]本专利技术实施例提供了一种文本处理方法、计算机可读存储介质及计算机设备,以至少解决相关技术中预训练语言模型在文本中知识学习能力差的技术问题。
[0006]根据本专利技术实施例的一个方面,提供了一种文本处理方法,包括:获取多组样本数据,其中,所述多组样本数据包括样本文本;对所述样本文本中的第一目标词添加掩码,得到目标文本;从所述样本文本中查找到第二目标词;对所述样本文本所包括的分词标注识别权重,其中,所述第二目标词的识别权重小于除所述第二目标词之外的其它分词的识别权重;采用所述目标文本以及所述样本文本所包括的分词的识别权重进行机器训练,得到目标转换器模型。
[0007]可选地,在从所述样本文本中查找到第二目标词之前,还包括:获取多组验证数据,其中,所述多组验证数据包括验证文本;基于所述多组验证数据包括的验证文本,确定所述第二目标词。
[0008]可选地,所述基于所述多组验证数据包括的验证文本,确定所述第二目标词包括:对所述多组验证数据所包括的验证文本分别进行分词处理,得到多个分词;分别统计所述多个分词的出现次数;基于所述多个分词的出现次数,确定候选目标词;基于所述候选目标词,确定所述第二目标词。
[0009]可选地,所述基于所述候选目标词,确定所述第二目标词包括:在所述多组验证数据包括的所述验证文本中对所述候选目标词进行掩码操作,得到验证目标文本;采用预定转换器模型对所述验证目标文本进行预测,得到第一预测结果,并基于所述多组验证数据对应的第一预测结果,统计所述多组验证数据的第一准确率;采用所述预定转换器模型对所述验证文本进行预测,得到第二预测结果,并基于所述多组验证数据对应的第二预测结果,统计所述多组验证数据的第二准确率;基于所述第一准确率和所述第二准确率,确定所
述第二目标词。
[0010]可选地,所述基于所述第一准确率和所述第二准确率,确定所述第二目标词,包括:比较所述第一准确率和所述第二准确率,并在所述第一准确率高于所述第二准确率的情况下,确定所述候选目标词为所述第二目标词。
[0011]可选地,所述对所述样本文本所包括的分词标注识别权重包括:基于所述样本文本以及所述第二目标词,构建可视化矩阵,其中,所述可视化矩阵中的行和列均为所述样本文本所包括的分词,所述可视化矩阵中的元素用于标识所述元素所在行对应的分词对所在列对应分词的识别权重,或者用于标识所述元素所在列对应的分词对所在行对应分词的识别权重。
[0012]可选地,所述第二目标词的识别权重为零,所述可视化矩阵的对角线上元素的识别权重非零。
[0013]根据本专利技术实施例的另一个方面,提供了一种文本处理方法,包括:接收目标文本;将所述目标文本输入目标转换器模型,得到所述目标文本的识别结果,其中,所述目标转换器模型采用多组样本数据进行训练得到,所述多组样本数据包括:样本文本,对样本文本加入掩码的目标文本,以及所述样本文本对应的可视化矩阵,所述可视化矩阵用于标识对所述样本文本所包括的分词进行识别时其它分词的可见性。
[0014]根据本专利技术实施例的另一个方面,提供了一种文本处理方法,包括:在交互界面上显示数据输入控件;响应于所述数据输入控件,接收多组样本数据,其中,所述多组样本数据包括样本文本;在所述交互界面上显示目标文本,其中,所述目标文本为对所述样本文本中的第一目标词添加掩码后得到的;在所述交互界面上对从所述样本文本中查找到的第二目标词进行高亮显示;响应于对模型训练控件的操作,在所述交互界面上显示模型训练结果,其中,所述模型训练结果用于标识目标转换器模型,所述目标转换器模型采用所述目标文本以及所述样本文本所包括的分词的识别权重进行机器训练得到,所述第二目标词的识别权重小于除所述第二目标词之外的其它分词的识别权重。
[0015]根据本专利技术实施例的另一个方面,提供了一种文本处理装置,包括:第一获取模块,用于获取多组样本数据,其中,所述多组样本数据包括样本文本;第一添加模块,用于对所述样本文本中的第一目标词添加掩码,得到目标文本;第一查找模块,用于从所述样本文本中查找到第二目标词;第一标注模块,用于对所述样本文本所包括的分词标注识别权重,其中,所述第二目标词的识别权重小于除所述第二目标词之外的其它分词的识别权重;第一训练模块,用于采用所述目标文本以及所述样本文本所包括的分词的识别权重进行机器训练,得到目标转换器模型。
[0016]根据本专利技术实施例的另一个方面,提供了一种文本处理装置,包括:第一接收模块,用于接收目标文本;第一处理模块,用于将所述目标文本输入目标转换器模型,得到所述目标文本的识别结果,其中,所述目标转换器模型采用多组样本数据进行训练得到,所述多组样本数据包括:样本文本,对样本文本加入掩码的目标文本,以及所述样本文本对应的可视化矩阵,所述可视化矩阵用于标识对所述样本文本所包括的分词进行识别时其它分词的可见性。
[0017]根据本专利技术实施例的另一个方面,提供了一种文本处理装置,包括:第一显示模块,用于在交互界面上显示数据输入控件;第二接收模块,用于响应于所述数据输入控件,
接收多组样本数据,其中,所述多组样本数据包括样本文本;第二显示模块,用于在所述交互界面上显示目标文本,其中,所述目标文本为对所述样本文本中的第一目标词添加掩码后得到的;第三显示模块,用于在所述交互界面上对从所述样本文本中查找到的第二目标词进行高亮显示;第四显示模块,用于响应于对模型训练控件的操作,在所述交互界面上显示模型训练结果,其中,所述模块训练结果用于标识目标转换器模型,所述目标转换器模型采用所述目标文本以及所述样本文本所包括的分词的识别权重进行机器训练得到,所述第二目标词的识别权重小于除所述第二目标词之外的其它分词的识别权重。
[0018]根据本专利技术实施例的另一个方面,提供了一种计算机可读存储介质,所述计算机可读存储介质包括存储的程序,其中,在所述程序运行时控制所述计算机可读存储介质所在设备执行上述任意一项所述的文本处理方法。
[0019]本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本处理方法,其特征在于,包括:获取多组样本数据,其中,所述多组样本数据包括样本文本;对所述样本文本中的第一目标词添加掩码,得到目标文本;从所述样本文本中查找到第二目标词;对所述样本文本所包括的分词标注识别权重,其中,所述第二目标词的识别权重小于除所述第二目标词之外的其他分词的识别权重;采用所述目标文本以及所述样本文本所包括的分词的识别权重进行机器训练,得到目标转换器模型。2.根据权利要求1所述的方法,其特征在于,从所述样本文本中查找到第二目标词之前,还包括:获取多组验证数据,其中,所述多组验证数据包括验证文本;基于所述多组验证数据包括的验证文本,确定所述第二目标词。3.根据权利要求2所述的方法,其特征在于,基于所述多组验证数据包括的验证文本,确定所述第二目标词,包括:对所述多组验证数据所包括的验证文本分别进行分词处理,得到多个分词;分别统计所述多个分词的出现次数;基于所述多个分词的出现次数,确定候选目标词;基于所述候选目标词,确定所述第二目标词。4.根据权利要求3所述的方法,其特征在于,所述基于所述候选目标词,确定所述第二目标词,包括:在所述多组验证数据包括的所述验证文本中对所述候选目标词进行掩码操作,得到验证目标文本;采用预定转换器模型对所述验证目标文本进行预测,得到第一预测结果,并基于所述多组验证数据对应的第一预测结果,统计所述多组验证数据的第一准确率;采用所述预定转换器模型对所述验证文本进行预测,得到第二预测结果,并基于所述多组验证数据对应的第二预测结果,统计所述多组验证数据的第二准确率;基于所述第一准确率和第二准确率,确定所述第二目标词。5.根据权利要求4所述的方法,其特征在于,所述基于所述第一准确率和第二准确率,确定所述第二目标词,包括:比较所述第一准确率和所述第二准确率,并在所述第一准确率高于所述第二准确率的情况下,确定所述候选目标词为所述第二目标词。6.根据权利要求1至5中任一项所述的方法,其特征在于,所述对所述样本文本所包括的分词标注识别权重包括:基于所述样...

【专利技术属性】
技术研发人员:王存翔罗福莉李炎洋许润昕黄松芳黄非
申请(专利权)人:阿里巴巴中国有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1