文本处理方法、装置、终端设备及存储介质制造方法及图纸

技术编号：38262508 阅读：11 留言：0更新日期：2023-07-27 10:21

本发明专利技术公开了一种文本处理方法、装置、终端设备及存储介质，该方法包括：获取文本标注数据；通过基于预训练语言模型的样本筛选方法对文本标注数据进行过滤筛选，以对过滤筛选后的样本数据进行标注，得到标注样本，所述基于预训练语言模型的样本筛选方法是通过语义规则和基于双向编码的相似度计算模型来筛选数据。基于语义规则和双向编码相似度计算的预训练语言模型来筛选数据，可以提升标注样本质量，选出有代表性的样本，剔除异常或质量差的样本对模型的影响，提升模型准确率；此外，可以减少标注样本量，过滤重复、冗余样本，节约标注成本，减少标注资源浪费，提升了标注效率。提升了标注效率。提升了标注效率。

全部详细技术资料下载

【技术实现步骤摘要】
文本处理方法、装置、终端设备及存储介质

[0001]本专利技术涉及人工智能
，尤其涉及一种文本处理方法、装置、终端设备及存储介质。

技术介绍

[0002]随着人工智能的普及，各行业需要处理大量的图像识别、语音识别、文本识别工作，以提升服务水平，增强客户体验。目前若要新增一个识别场景，数据标注则变得尤为重要，优质的标注数据能提升智能模型的识别准确率，更快速地标注过程能提升模型交付效率，以便更快速准确地响应业务需要。
[0003]然而，对于模型的训练，标注样本的数量和质量至关重要，标注的代表样本太少、质量低都可能使得模型识别不准确，而标注样本太多且重复、冗余，不仅会导致标注效率下降，而且无法提升模型识别准确率，极大地浪费标注成本。

技术实现思路

[0004]本专利技术的主要目的在于提供一种文本处理方法、装置、终端设备及存储介质，旨在提升模型识别准确率的同时，降低标注成本，提升文本标注效率。
[0005]为实现上述目的，本专利技术实施例提供一种文本处理方法，所述方法包括以下步骤：
[0006]获取文本标注数据；
[0007]通过基于预训练语言模型的样本筛选方法对所述文本标注数据进行过滤筛选，以对过滤筛选后的样本数据进行标注，得到标注样本，所述基于预训练语言模型的样本筛选方法是通过语义规则和基于双向编码的相似度计算模型来筛选数据。
[0008]可选地，所述通过基于预训练语言模型的样本筛选方法对所述文本标注数据进行过滤筛选的步骤包括：
[0009]根据预设的...

【技术保护点】

【技术特征摘要】
1.一种文本处理方法，其特征在于，所述方法包括以下步骤：获取文本标注数据；通过基于预训练语言模型的样本筛选方法对所述文本标注数据进行过滤筛选，以对过滤筛选后的样本数据进行标注，得到标注样本，所述基于预训练语言模型的样本筛选方法是通过语义规则和基于双向编码的相似度计算模型来筛选数据。2.根据权利要求1所述的方法，其特征在于，所述通过基于预训练语言模型的样本筛选方法对所述文本标注数据进行过滤筛选的步骤包括：根据预设的语义规则从所述文本标注数据中筛选过滤掉无需标注的数据，得到待标注样本数据；将所述待标注样本数据与存储在ES数据库服务中的标准问题进行检索，得到检索到的相似文本数据；将所述待标注样本数据与检索到的相似文本数据，输入至预设的相似度计算模型，计算得到相似度得分；若所述相识度得分高于设置的样本过滤阈值，则过滤掉该样本数据；否则，保留该样本数据，得到需要标注的样本数据。3.根据权利要求1所述的方法，其特征在于，所述通过基于预训练语言模型的样本筛选方法对所述文本标注数据进行过滤筛选的步骤之前还包括：训练得到相似度计算模型，具体包括：获取语义相似的数据样本集；加载预训练语言模型，所述预训练语言模型为Transformer
‑
XL模型进行训练得到的上下文预测模型；冻结所述预训练语言模型的迁移层网络结构的权值，并初始化输入层网络结构的权值，获得待训练网络模型；采用所述数据样本集对所述待训练网络模型进行训练，获得训练好的相似度计算模型。4.根据权利要求3所述的方法，其特征在于，所述采用所述数据样本集对所述待训练网络模型进行训练，获得训练好的相似度计算模型的步骤包括：通过所述待训练网络模型对所述数据样本集中的文本信息转化为语义向量；将所述语义向量作为输入，将是否相似的标签的概率值作为输出，通过双向编码的自回归分类模型构建分类场景损失函...

【专利技术属性】
技术研发人员：董家林，刘奕君，罗林欣，文俊杰，郑桂东，
申请(专利权)人：招商银行股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人