文本处理方法、装置、终端设备及存储介质制造方法及图纸

技术编号:38262508 阅读:11 留言:0更新日期:2023-07-27 10:21
本发明专利技术公开了一种文本处理方法、装置、终端设备及存储介质,该方法包括:获取文本标注数据;通过基于预训练语言模型的样本筛选方法对文本标注数据进行过滤筛选,以对过滤筛选后的样本数据进行标注,得到标注样本,所述基于预训练语言模型的样本筛选方法是通过语义规则和基于双向编码的相似度计算模型来筛选数据。基于语义规则和双向编码相似度计算的预训练语言模型来筛选数据,可以提升标注样本质量,选出有代表性的样本,剔除异常或质量差的样本对模型的影响,提升模型准确率;此外,可以减少标注样本量,过滤重复、冗余样本,节约标注成本,减少标注资源浪费,提升了标注效率。提升了标注效率。提升了标注效率。

【技术实现步骤摘要】
文本处理方法、装置、终端设备及存储介质


[0001]本专利技术涉及人工智能
,尤其涉及一种文本处理方法、装置、终端设备及存储介质。

技术介绍

[0002]随着人工智能的普及,各行业需要处理大量的图像识别、语音识别、文本识别工作,以提升服务水平,增强客户体验。目前若要新增一个识别场景,数据标注则变得尤为重要,优质的标注数据能提升智能模型的识别准确率,更快速地标注过程能提升模型交付效率,以便更快速准确地响应业务需要。
[0003]然而,对于模型的训练,标注样本的数量和质量至关重要,标注的代表样本太少、质量低都可能使得模型识别不准确,而标注样本太多且重复、冗余,不仅会导致标注效率下降,而且无法提升模型识别准确率,极大地浪费标注成本。

技术实现思路

[0004]本专利技术的主要目的在于提供一种文本处理方法、装置、终端设备及存储介质,旨在提升模型识别准确率的同时,降低标注成本,提升文本标注效率。
[0005]为实现上述目的,本专利技术实施例提供一种文本处理方法,所述方法包括以下步骤:
[0006]获取文本标注数据;
[0007]通过基于预训练语言模型的样本筛选方法对所述文本标注数据进行过滤筛选,以对过滤筛选后的样本数据进行标注,得到标注样本,所述基于预训练语言模型的样本筛选方法是通过语义规则和基于双向编码的相似度计算模型来筛选数据。
[0008]可选地,所述通过基于预训练语言模型的样本筛选方法对所述文本标注数据进行过滤筛选的步骤包括:
[0009]根据预设的语义规则从所述文本标注数据中筛选过滤掉无需标注的数据,得到待标注样本数据;
[0010]将所述待标注样本数据与存储在ES数据库服务中的标准问题进行检索,得到检索到的相似文本数据;
[0011]将所述待标注样本数据与检索到的相似文本数据,输入至预设的相似度计算模型,计算得到相似度得分;
[0012]若所述相识度得分高于设置的样本过滤阈值,则过滤掉该样本数据;否则,保留该样本数据,得到需要标注的样本数据。
[0013]可选地,所述通过基于预训练语言模型的样本筛选方法对所述文本标注数据进行过滤筛选的步骤之前还包括:
[0014]训练得到相似度计算模型,具体包括:
[0015]获取语义相似的数据样本集;
[0016]加载预训练语言模型,所述预训练语言模型为Transformer

XL模型进行训练得到
的上下文预测模型;
[0017]冻结所述预训练语言模型的迁移层网络结构的权值,并初始化输入层网络结构的权值,获得待训练网络模型;
[0018]采用所述数据样本集对所述待训练网络模型进行训练,获得训练好的相似度计算模型。
[0019]可选地,所述采用所述数据样本集对所述待训练网络模型进行训练,获得训练好的相似度计算模型的步骤包括:
[0020]通过所述待训练网络模型对所述数据样本集中的文本信息转化为语义向量;
[0021]将所述语义向量作为输入,将是否相似的标签的概率值作为输出,通过双向编码的自回归分类模型构建分类场景损失函数,采用Transformer

XL模型作为向量特征提取表示,训练分类模型,获得训练好的相似度计算模型。
[0022]可选地,所述方法还包括:
[0023]对过滤筛选后的样本数据进行标注,得到标注样本;
[0024]基于所述标注样本进行识别模型的训练,得到训练后的识别模型。
[0025]可选地,所述方法还包括:
[0026]应用识别模型到对应的场景,对待识别对象进行识别。
[0027]本专利技术还提出一种文本处理方法,所述方法包括以下步骤:
[0028]获取待识别对象;
[0029]将所述待识别对象输入至预先构建的识别模型中进行识别,得到识别结果,所述识别模型基于预先标注的标注样本进行模型训练得到,所述标注样本是通过基于预训练语言模型的样本筛选方法对预先采集的文本标注数据进行过滤筛选后标注得到,所述基于预训练语言模型的样本筛选方法是通过语义规则和基于双向编码的相似度计算模型来筛选数据。
[0030]本专利技术还提出一种文本处理装置,所述文本处理装置包括:
[0031]获取模块,用于获取文本标注数据;
[0032]过滤筛选模块,用于通过基于预训练语言模型的样本筛选方法对所述文本标注数据进行过滤筛选,以对过滤筛选后的样本数据进行标注,得到标注样本,所述基于预训练语言模型的样本筛选方法是通过语义规则和基于双向编码的相似度计算模型来筛选数据。
[0033]本专利技术还提出一种终端设备,所述终端设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如上所述的文本处理方法。
[0034]本专利技术还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的文本处理方法。
[0035]本专利技术实施例提出的文本处理方法、装置、终端设备及存储介质,获取文本标注数据;通过基于预训练语言模型的样本筛选方法对所述文本标注数据进行过滤筛选,以对过滤筛选后的样本数据进行标注,得到标注样本,所述基于预训练语言模型的样本筛选方法是通过语义规则和基于双向编码的相似度计算模型来筛选数据。由此,基于语义规则和双向编码相似度计算的预训练语言模型来筛选数据,可以提升标注样本质量,选出有代表性的样本,剔除异常或质量差的样本对模型的影响,提升模型准确率;此外,可以减少标注样
本量,过滤重复、冗余样本,节约标注成本,减少标注资源浪费。从而在训练出满足业务需求模型的同时,降低了标注成本,提升了标注效率。
附图说明
[0036]图1为本专利技术文本处理装置所属终端设备的功能模块示意图;
[0037]图2为本专利技术文本处理方法一示例性实施例的流程示意图;
[0038]图3为本专利技术实施例中通过基于预训练语言模型的样本筛选方法对文本标注数据进行过滤筛选的流程示意图;
[0039]图4为本专利技术文本处理方法另一示例性实施例的流程示意图;
[0040]图5为本专利技术实施例中训练相似度计算模型的具体流程示意图;
[0041]图6为本专利技术文本处理方法再一示例性实施例的流程示意图;
[0042]图7为本专利技术文本处理方法又一示例性实施例的流程示意图;
[0043]图8为本专利技术实施例中文本处理方法的整体细化流程示意图;
[0044]图9为本专利技术文本处理方法又一示例性实施例的流程示意图。
[0045]本专利技术目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
[0046]应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。
[0047]本专利技术实施例的主要解决方案是:获取文本标注数据;通过基于预训练语言模型的样本筛选方法本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本处理方法,其特征在于,所述方法包括以下步骤:获取文本标注数据;通过基于预训练语言模型的样本筛选方法对所述文本标注数据进行过滤筛选,以对过滤筛选后的样本数据进行标注,得到标注样本,所述基于预训练语言模型的样本筛选方法是通过语义规则和基于双向编码的相似度计算模型来筛选数据。2.根据权利要求1所述的方法,其特征在于,所述通过基于预训练语言模型的样本筛选方法对所述文本标注数据进行过滤筛选的步骤包括:根据预设的语义规则从所述文本标注数据中筛选过滤掉无需标注的数据,得到待标注样本数据;将所述待标注样本数据与存储在ES数据库服务中的标准问题进行检索,得到检索到的相似文本数据;将所述待标注样本数据与检索到的相似文本数据,输入至预设的相似度计算模型,计算得到相似度得分;若所述相识度得分高于设置的样本过滤阈值,则过滤掉该样本数据;否则,保留该样本数据,得到需要标注的样本数据。3.根据权利要求1所述的方法,其特征在于,所述通过基于预训练语言模型的样本筛选方法对所述文本标注数据进行过滤筛选的步骤之前还包括:训练得到相似度计算模型,具体包括:获取语义相似的数据样本集;加载预训练语言模型,所述预训练语言模型为Transformer

XL模型进行训练得到的上下文预测模型;冻结所述预训练语言模型的迁移层网络结构的权值,并初始化输入层网络结构的权值,获得待训练网络模型;采用所述数据样本集对所述待训练网络模型进行训练,获得训练好的相似度计算模型。4.根据权利要求3所述的方法,其特征在于,所述采用所述数据样本集对所述待训练网络模型进行训练,获得训练好的相似度计算模型的步骤包括:通过所述待训练网络模型对所述数据样本集中的文本信息转化为语义向量;将所述语义向量作为输入,将是否相似的标签的概率值作为输出,通过双向编码的自回归分类模型构建分类场景损失函...

【专利技术属性】
技术研发人员:董家林刘奕君罗林欣文俊杰郑桂东
申请(专利权)人:招商银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1