文本处理方法、计算机可读存储介质及计算机设备技术

技术编号：33063915 阅读：56 留言：0更新日期：2022-04-15 09:53

本发明专利技术公开了一种文本处理方法、计算机可读存储介质及计算机设备。其中，该方法包括：获取多组样本数据，其中，多组样本数据包括样本文本；对样本文本中的第一目标词添加掩码，得到目标文本；从样本文本中查找到第二目标词；对样本文本所包括的分词标注识别权重，其中，第二目标词的识别权重小于除第二目标词之外的其他分词的识别权重；采用目标文本以及样本文本所包括的分词的识别权重进行机器训练，得到目标转换器模型。本发明专利技术解决了相关技术中预训练语言模型在文本中知识学习能力差的技术问题。问题。问题。

全部详细技术资料下载

【技术实现步骤摘要】
文本处理方法、计算机可读存储介质及计算机设备

[0001]本专利技术涉及文本处理
，具体而言，涉及一种文本处理方法、计算机可读存储介质及计算机设备。

技术介绍

[0002]预训练语言模型（Pre
‑
trained language models, PLM）用于从文本中获取通用知识。
[0003]相关技术中，用于对文本进行处理的预训练语言模型有多种，包括：预训练的语言表征模型（Bidirectional Encoder Representation from Transformers，BERT）、RoBERTa和生成式预训练模型（Generate Pre
‑
Training Model，GPT），等等。这些预训练语言模型虽然能够大幅度提高许多自然语言处理任务的性能，但存在预训练语言模型在文本中知识学习能力差的问题。
[0004]针对上述的问题，目前尚未提出有效的解决方案。

技术实现思路

[0005]本专利技术实施例提供了一种文本处理方法、计算机可读存储介质及计算机设备，以至少解决相关技术中预训练语言模型在文本中知识学习能力差的技术问题。
[0006]根据本专利技术实施例的一个方面，提供了一种文本处理方法，包括：获取多组样本数据，其中，所述多组样本数据包括样本文本；对所述样本文本中的第一目标词添加掩码，得到目标文本；从所述样本文本中查找到第二目标词；对所述样本文本所包括的分词标注识别权重，其中，所述第二目标词的识别权重小于除所述第二目标词之...

【技术保护点】

【技术特征摘要】
1.一种文本处理方法，其特征在于，包括：获取多组样本数据，其中，所述多组样本数据包括样本文本；对所述样本文本中的第一目标词添加掩码，得到目标文本；从所述样本文本中查找到第二目标词；对所述样本文本所包括的分词标注识别权重，其中，所述第二目标词的识别权重小于除所述第二目标词之外的其他分词的识别权重；采用所述目标文本以及所述样本文本所包括的分词的识别权重进行机器训练，得到目标转换器模型。2.根据权利要求1所述的方法，其特征在于，从所述样本文本中查找到第二目标词之前，还包括：获取多组验证数据，其中，所述多组验证数据包括验证文本；基于所述多组验证数据包括的验证文本，确定所述第二目标词。3.根据权利要求2所述的方法，其特征在于，基于所述多组验证数据包括的验证文本，确定所述第二目标词，包括：对所述多组验证数据所包括的验证文本分别进行分词处理，得到多个分词；分别统计所述多个分词的出现次数；基于所述多个分词的出现次数，确定候选目标词；基于所述候选目标词，确定所述第二目标词。4.根据权利要求3所述的方法，其特征在于，所述基于所述候选目标词，确定所述第二目标词，包括：在所述多组验证数据包括的所述验证文本中对所述候选目标词进行掩码操作，得到验证目标文本；采用预定转换器模型对所述验证目标文本进行预测，得到第一预测结果，并基于所述多组验证数据对应的第一预测结果，统计所述多组验证数据的第一准确率；采用所述预定转换器模型对所述验证文本进行预测，得到第二预测结果，并基于所述多组验证数据对应的第二预测结果，统计所述多组验证数据的第二准确率；基于所述第一准确率和第二准确率，确定所述第二目标词。5.根据权利要求4所述的方法，其特征在于，所述基于所述第一准确率和第二准确率，确定所述第二目标词，包括：比较所述第一准确率和所述第二准确率，并在所述第一准确率高于所述第二准确率的情况下，确定所述候选目标词为所述第二目标词。6.根据权利要求1至5中任一项所述的方法，其特征在于，所述对所述样本文本所包括的分词标注识别权重包括：基于所述样...

【专利技术属性】
技术研发人员：王存翔，罗福莉，李炎洋，许润昕，黄松芳，黄非，
申请(专利权)人：阿里巴巴中国有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人