一种基于bert模型的文本数据处理方法及装置制造方法及图纸

技术编号：37580580 阅读：11 留言：0更新日期：2023-05-15 07:55

本发明专利技术公开了一种基于bert模型的文本数据处理方法及装置，通过完形填空任务和上下句关系判断任务，将获取到用户聊天数据进行bert模型的预训练，获得文本预训练模型，挖掘bert模型的语义理解能力，使得bert模型能够学习用户聊天数据的规律，为文本类型的识别奠定了基础。将获得的带标签文本数据集输入到文本预训练模型中进行微调训练，继而根据生成的文本识别模型对待测文本数据进行文本类型识别。本发明专利技术基于完形填空任务和上下句关系判断任务，充分挖掘bert模型的语义理解能力，使得生成的文本识别模型具有泛化能力，能够准确判断意思相近的文本，并归为同一文本类型，有利于提高文本类型识别的准确性。本类型识别的准确性。本类型识别的准确性。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于bert模型的文本数据处理方法及装置

[0001]本专利技术涉及自然语言处理领域，尤其涉及一种基于bert模型的文本数据处理方法及装置。

技术介绍

[0002]随着信息化时代的快速发展，用户经常会受到违规异常文本的骚扰。因此，需要对违规异常文本进行识别和拦截。现有技术通常通过正则匹配，谐音匹配，文字组合，文本黑名单等方式对用户违规异常文本进行拦截，通过在数据库中存储异常文本的关键词汇，并对发送中的文本进行词汇匹配，在异常文本关键词汇匹配成功时，对发送中的文本进行拦截；
[0003]但现有的拦截技术人力成本大，需要花费非常大的精力维护拦截语料库；但由于只能通过识别字体是否相似来判断异常文本，不仅难以拦截更换了其它同音或同形状字体的异常文本，而且也容易错误拦截字体相似但没有异常的文本，从而导致异常文本的识别准确率很低。
[0004]因此，亟需文本数据处理策略，来解决异常文本的识别准确率很低的问题。

技术实现思路

[0005]本专利技术实施例提供一种基于bert模型的文本数据处理方法及装置，以提高异常文本的识别准确率。
[0006]为了解决上述问题，本专利技术一实施例提供一种基于bert模型的文本数据处理方法，包括：
[0007]获取若干用户聊天数据；
[0008]通过完形填空任务和上下句关系判断任务，基于所述若干用户聊天数据对Bert模型进行预训练，获得文本预训练模型；
[0009]根据所述若干用户聊天数据，获得若干带标签的文本数据集；
[0...

【技术保护点】

【技术特征摘要】
1.一种基于bert模型的文本数据处理方法，其特征在于，包括：获取若干用户聊天数据；通过完形填空任务和上下句关系判断任务，基于所述若干用户聊天数据对Bert模型进行预训练，获得文本预训练模型；根据所述若干用户聊天数据，获得若干带标签的文本数据集；基于所述文本数据集，对所述文本预训练模型进行微调训练，获得文本识别模型；在获取待测文本数据时，通过所述文本识别模型对所述待测文本进行文本类型的识别。2.根据权利要求1所述的基于bert模型的文本数据处理方法，其特征在于，所述通过所述文本识别模型对所述待测文本进行文本类型的识别，具体为：所述文本识别模型包括：向量化层、transformer网络层和分类网络层；所述文本识别模型的向量化层对所述待测文本进行向量化操作，获得文本向量；将所述文本向量传输到所述文本识别模型的transformer网络层中，获得若干文字注意力权重向量；将所述若干文字注意力权重向量输入到所述文本识别模型的分类网络层，获得每个文字的单位向量；将每个文字的单位向量分别输入到预设的概率函数中，计算获得每个文字的若干类别概率；根据所述若干类别概率，获得所述待测文本的文本类型。3.根据权利要求1所述的基于bert模型的文本数据处理方法，其特征在于，所述完形填空任务，包括：根据随机概率算法，对每个用户聊天数据中预设数量的文字进行遮掩，获得每个用户聊天数据对应的文本遮掩数据；将每个文本遮掩数据输入到bert模型中进行遮掩文本识别，获得文本遮掩数据对应的猜测答案；计算每个文本遮掩数据的猜测答案和遮掩原答案之间的匹配度，对匹配度进行判断：当匹配度小于第一匹配值时，根据匹配度更新bert模型的参数，并基于更新后的bert模型的参数再次对本次用户聊天数据进行完形填空任务的操作；当匹配度大于等于第一匹配值时，对下一组用户聊天数据进行完形填空任务的操作，直到所有用户聊天数据的猜测答案和遮掩原答案之间的匹配度大于等于第一匹配值后，结束完形填空任务。4.根据权利要求1所述的基于bert模型的文本数据处理方法，其特征在于，所述上下句关系判断任务，包括：根据随机概率算法，对所述若干用户聊天数据进行顺序调整，获得若干上下句随机数据集；其中，所述上下句随机数据集包括：上下句集合和上下句集合对应的连贯结果；将每个所述上下句随机数据集分别输入到bert模型中进行上下句关系判断，获得每个所述上下句随机数据集的判断结果；对每个上下句随机数据集的连贯结果和判断结果进行比较：若不一致，则更新ber...

【专利技术属性】
技术研发人员：舒伟，郭曼丽，刁新强，
申请(专利权)人：广州仰望星空云科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人