一种文本识别方法和相关装置制造方法及图纸

技术编号:39730926 阅读:11 留言:0更新日期:2023-12-17 23:34
本申请实施例公开了一种文本识别方法和相关装置,可应用自然语言处理

【技术实现步骤摘要】
一种文本识别方法和相关装置


[0001]本申请涉及人工智能
,特别是涉及一种文本识别方法和相关装置


技术介绍

[0002]随着计算机技术的不断发展,文本识别技术应用范围越来越广

文本识别也可以称为文本审核,主要是对网络上的文本进行审核,可以通过自然语言处理技术,对文本进行分析和识别,以便后续可以对文本进行审核

过滤等操作,从而判断文本是否符合规范

真实

准确等,保证互联网的规范性和安全性

[0003]相关技术中,一般将文本识别视为分类任务,旨在将文本分为不同的类别,然后针对每个类别训练对应的分类模型

由于识别标准不同,文本会被细分为不同的类别,从而需要对应训练不同的分类模型

以识别不良信息为例,不良信息可以是由于炫富

暴力

谩骂

低俗等各种各样原因导致,不同原因导致的不良信息均会被视为不同的分类任务,需要训练不同的分类模型进行识别,如训练一个识别炫富类别文本的分类模型

一个识别暴力类别文本的分类模型等

[0004]上述文本识别的方式,会针对不同的识别标准分别训练得到不同的分类模型,而且一个分类模型只能识别一个分类任务,导致线上推理成本较高,且灵活性较差


技术实现思路

[0005]为了解决上述技术问题,本申请提供了一种文本识别方法和相关装置,用于降低线上推理成本,提高文本识别的灵活性

[0006]本申请实施例公开了如下技术方案:
[0007]一方面,本申请实施例提供一种文本识别方法,所述方法包括:
[0008]获取待识别文本;
[0009]确定所述待识别文本和第一数据示例之间的语义相似度,并将符合第一预设条件的语义相似度对应的第一数据示例确定为第一相似数据示例,所述第一数据示例与识别标准具有第一对应关系,所述识别标准用于标识文本所属的文本类别的特征,所述第一数据示例为符合与其具有所述第一对应关系的识别标准的文本;
[0010]根据所述第一对应关系,确定所述第一相似数据示例对应的目标识别标准;
[0011]基于所述目标识别标准,通过文本识别模型对所述待识别文本进行识别,得到所述待识别文本的文本类别,所述文本识别模型为能够理解上下文语义的模型

[0012]另一方面,本申请实施例提供一种文本识别装置,所述装置包括:获取单元

确定单元和识别单元;
[0013]所述获取单元,用于获取待识别文本;
[0014]所述确定单元,用于确定所述待识别文本和第一数据示例之间的语义相似度,并将符合第一预设条件的语义相似度对应的第一数据示例确定为第一相似数据示例,所述第一数据示例与识别标准具有第一对应关系,所述识别标准用于标识文本所属的文本类别的
特征,所述第一数据示例为符合与其具有所述第一对应关系的识别标准的文本;
[0015]所述确定单元,还用于根据所述第一对应关系,确定所述第一相似数据示例对应的目标识别标准;
[0016]所述识别单元,用于基于所述目标识别标准,通过文本识别模型对所述待识别文本进行识别,得到所述待识别文本的文本类别,所述文本识别模型为能够理解上下文语义的模型

[0017]另一方面,本申请实施例提供一种计算机设备,所述计算机设备包括处理器以及存储器:
[0018]所述存储器用于存储计算机程序,并将所述计算机程序传输给所述处理器;
[0019]所述处理器用于根据所述计算机程序中的指令执行上述方面所述的方法

[0020]另一方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质用于存储计算机程序,所述计算机程序用于执行上述方面所述的方法

[0021]另一方面,本申请实施例提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中

计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述方面所述的方法

[0022]由上述技术方案可以看出,为了不再针对每个文本类别分别训练分类模型,不再使用分类模型识别文本的文本类别,而是使用能够理解上下文语义的文本识别模型

由于该文本识别模型能够基于上下文语义理解不同文本类别分别对应的识别标准,该识别标准用于标识文本类别的特征,故文本识别模型能够利用不同的识别标准识别待识别文本的文本类别

为了扩大该文本识别模型的使用范围,降低线上推理成本,可以预先构建多种识别标准以便后续使用

由于识别标准的数量非常多,为了进一步提升文本识别的灵活性,设计了自动匹配适合待识别文本使用的目标识别标准

具体地,为每个识别标准配置第一数据示例,第一数据示例是符合识别标准描述的文本类别的特征的文本

在获取待识别文本后,计算待识别文本和每个第一数据示例之间的语义相似度,并将符合第一预设条件的语义相似度对应的第一数据示例确定为第一相似数据示例,第一相似数据示例与待识别文本的语义相似度较高,故基于第一数据示例与识别标准具有的第一对应关系,可以确定第一相似数据示例对应的目标识别标准,该目标识别标准是待识别文本适用的识别标准,通过文本识别模型能够识别待识别文本在目标识别标准下对应的文本类别

[0023]由此,基于语义相似度为待识别文本自动匹配其适用的目标识别标准,并通过能够理解上下文语义的文本识别模型,基于目标识别标准识别待识别文本的文本类别

可以通过预先构建多种识别标准扩大文本识别模型的适用范围,使得一个文本识别模型可以识别多种文本类别的文本,提高文本识别模型使用的灵活性,降低其线上推理成本

此外,为待识别文本自动匹配其可适用的目标识别标准,可以进一步提高文本识别模型使用的灵活性,提高用户的体验感

附图说明
[0024]为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本
申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图

[0025]图1为本申请实施例提供的一种文本识别方法的应用场景架构图;
[0026]图2为本申请实施例提供的一种文本识别方法的流程示意图;
[0027]图3为本申请实施例提供的一种初始文本识别模型的训练示意图;
[0028]图4为本申请实施例提供的一种确定文本类别的示意图;
[0029]图5为本申本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种文本识别方法,其特征在于,所述方法包括:获取待识别文本;确定所述待识别文本和第一数据示例之间的语义相似度,并将符合第一预设条件的语义相似度对应的第一数据示例确定为第一相似数据示例,所述第一数据示例与识别标准具有第一对应关系,所述识别标准用于标识文本所属的文本类别的特征,所述第一数据示例为符合与其具有所述第一对应关系的识别标准的文本;根据所述第一对应关系,确定所述第一相似数据示例对应的目标识别标准;基于所述目标识别标准,通过文本识别模型对所述待识别文本进行识别,得到所述待识别文本的文本类别,所述文本识别模型为能够理解上下文语义的模型
。2.
根据权利要求1所述的方法,其特征在于,所述方法还包括:确定所述待识别文本和第二数据示例之间的语义相似度,并将符合第二预设条件的语义相似度对应的第二数据示例确定为第二相似数据示例,所述第二数据示例为被错误识别文本类型的文本;所述基于所述目标识别标准,通过文本识别模型对所述待识别文本进行识别,得到所述待识别文本的文本类别,包括:基于所述目标识别标准和所述第二相似数据示例,通过所述文本识别模型对所述待识别文本进行识别,得到所述待识别文本的文本类别
。3.
根据权利要求2所述的方法,其特征在于,所述识别标准与识别任务具有第二对应关系,所述识别任务用于标识文本类别,所述第二数据示例与所述识别任务具有第三对应关系;若所述第二相似数据示例的数量为多个,则所述基于所述目标识别标准和所述第二相似数据示例,通过所述文本识别模型对所述待识别文本进行识别,得到所述待识别文本的文本类别,包括:根据所述第二对应关系,确定所述目标识别标准对应的目标识别任务;根据所述第三对应关系,确定多个所述第二相似数据示例分别对应的候选识别任务;根据所述目标识别任务和多个所述候选识别任务,从多个所述第二相似数据示例中确定目标相似数据示例,所述目标相似数据示例对应的候选识别任务与所述目标识别任务相同;基于所述目标识别标准和所述目标相似数据示例,通过所述文本识别模型对所述待识别文本进行识别,得到所述待识别文本的文本类别
。4.
根据权利要求1所述的方法,其特征在于,所述识别标准与识别任务具有第二对应关系,所述识别任务用于标识文本类别,所述方法还包括:获取所述待识别文本所属的目标识别任务;所述根据所述第一对应关系,确定所述第一相似数据示例对应的目标识别标准,包括:根据所述第一对应关系,确定所述第一相似数据示例对应的多个待定识别标准;根据所述第二对应关系,从多个所述待定识别标准中确定所述目标识别任务对应的目标识别标准
。5.
根据权利要求1所述的方法,其特征在于,所述识别标准与识别任务具有第二对应关系,所述识别任务用于标识文本类别,所述方法还包括:
获取所述待识别文本所属的目标识别任务;根据所述第二对应关系,确定所述目标识别任务对应的多个待定识别标准;所述确定所述待识别文本和第一数据示例之间的语义相似度,并将符合第一预设条件的语义相似度对应的第一数据示例确定为第一相似数据示例,包括:根据所述第一对应关系,确定所述待定识别标准对应的第一待定数据示例;确定所述待识别文本和所述第一待定数据示例之间的语义相似度,并将符合所述第一预设条件的语义相似度对应的第一待定数据示例确定为第一相似数据示例
。6.
根据权利要求1所述的方法,其特征在于,所述基于所述目标识别标准,通过文本识别模型对所述待识别文本进行识别,得到所述待识别文本的文本类别,包括:根据所述待识别文本和所述目标识别标准,生成第一提示问题模板,所述第一提示问题模板用于指示所述文本识别模型生成得到所述待识别文本的文本类别的识别理由;根据所述第一提示问题模板,通过所述文本识别模型对所述待识别文本进行识别,得到所述待识别文本的文本类别和所述识别理由
。7.
根据权利要求1所述的方法,其特征在于,若所述待识别文本的数据量大于预设数量阈...

【专利技术属性】
技术研发人员:李丽丽陈曦刘庆斌张明昊
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1