【技术实现步骤摘要】
一种文本识别方法和相关装置
[0001]本申请涉及人工智能
,特别是涉及一种文本识别方法和相关装置
。
技术介绍
[0002]随着计算机技术的不断发展,文本识别技术应用范围越来越广
。
文本识别也可以称为文本审核,主要是对网络上的文本进行审核,可以通过自然语言处理技术,对文本进行分析和识别,以便后续可以对文本进行审核
、
过滤等操作,从而判断文本是否符合规范
、
真实
、
准确等,保证互联网的规范性和安全性
。
[0003]相关技术中,一般将文本识别视为分类任务,旨在将文本分为不同的类别,然后针对每个类别训练对应的分类模型
。
由于识别标准不同,文本会被细分为不同的类别,从而需要对应训练不同的分类模型
。
以识别不良信息为例,不良信息可以是由于炫富
、
暴力
、
谩骂
、
低俗等各种各样原因导致,不同原因导致的不良信息均会被视为不同的分类任务,需要训练不同的分类模型进行识别,如训练一个识别炫富类别文本的分类模型
、
一个识别暴力类别文本的分类模型等
。
[0004]上述文本识别的方式,会针对不同的识别标准分别训练得到不同的分类模型,而且一个分类模型只能识别一个分类任务,导致线上推理成本较高,且灵活性较差
。
技术实现思路
[0005]为了解决上述技术问题,本申请提供了一种文本识别方法和相关装 ...
【技术保护点】
【技术特征摘要】
1.
一种文本识别方法,其特征在于,所述方法包括:获取待识别文本;确定所述待识别文本和第一数据示例之间的语义相似度,并将符合第一预设条件的语义相似度对应的第一数据示例确定为第一相似数据示例,所述第一数据示例与识别标准具有第一对应关系,所述识别标准用于标识文本所属的文本类别的特征,所述第一数据示例为符合与其具有所述第一对应关系的识别标准的文本;根据所述第一对应关系,确定所述第一相似数据示例对应的目标识别标准;基于所述目标识别标准,通过文本识别模型对所述待识别文本进行识别,得到所述待识别文本的文本类别,所述文本识别模型为能够理解上下文语义的模型
。2.
根据权利要求1所述的方法,其特征在于,所述方法还包括:确定所述待识别文本和第二数据示例之间的语义相似度,并将符合第二预设条件的语义相似度对应的第二数据示例确定为第二相似数据示例,所述第二数据示例为被错误识别文本类型的文本;所述基于所述目标识别标准,通过文本识别模型对所述待识别文本进行识别,得到所述待识别文本的文本类别,包括:基于所述目标识别标准和所述第二相似数据示例,通过所述文本识别模型对所述待识别文本进行识别,得到所述待识别文本的文本类别
。3.
根据权利要求2所述的方法,其特征在于,所述识别标准与识别任务具有第二对应关系,所述识别任务用于标识文本类别,所述第二数据示例与所述识别任务具有第三对应关系;若所述第二相似数据示例的数量为多个,则所述基于所述目标识别标准和所述第二相似数据示例,通过所述文本识别模型对所述待识别文本进行识别,得到所述待识别文本的文本类别,包括:根据所述第二对应关系,确定所述目标识别标准对应的目标识别任务;根据所述第三对应关系,确定多个所述第二相似数据示例分别对应的候选识别任务;根据所述目标识别任务和多个所述候选识别任务,从多个所述第二相似数据示例中确定目标相似数据示例,所述目标相似数据示例对应的候选识别任务与所述目标识别任务相同;基于所述目标识别标准和所述目标相似数据示例,通过所述文本识别模型对所述待识别文本进行识别,得到所述待识别文本的文本类别
。4.
根据权利要求1所述的方法,其特征在于,所述识别标准与识别任务具有第二对应关系,所述识别任务用于标识文本类别,所述方法还包括:获取所述待识别文本所属的目标识别任务;所述根据所述第一对应关系,确定所述第一相似数据示例对应的目标识别标准,包括:根据所述第一对应关系,确定所述第一相似数据示例对应的多个待定识别标准;根据所述第二对应关系,从多个所述待定识别标准中确定所述目标识别任务对应的目标识别标准
。5.
根据权利要求1所述的方法,其特征在于,所述识别标准与识别任务具有第二对应关系,所述识别任务用于标识文本类别,所述方法还包括:
获取所述待识别文本所属的目标识别任务;根据所述第二对应关系,确定所述目标识别任务对应的多个待定识别标准;所述确定所述待识别文本和第一数据示例之间的语义相似度,并将符合第一预设条件的语义相似度对应的第一数据示例确定为第一相似数据示例,包括:根据所述第一对应关系,确定所述待定识别标准对应的第一待定数据示例;确定所述待识别文本和所述第一待定数据示例之间的语义相似度,并将符合所述第一预设条件的语义相似度对应的第一待定数据示例确定为第一相似数据示例
。6.
根据权利要求1所述的方法,其特征在于,所述基于所述目标识别标准,通过文本识别模型对所述待识别文本进行识别,得到所述待识别文本的文本类别,包括:根据所述待识别文本和所述目标识别标准,生成第一提示问题模板,所述第一提示问题模板用于指示所述文本识别模型生成得到所述待识别文本的文本类别的识别理由;根据所述第一提示问题模板,通过所述文本识别模型对所述待识别文本进行识别,得到所述待识别文本的文本类别和所述识别理由
。7.
根据权利要求1所述的方法,其特征在于,若所述待识别文本的数据量大于预设数量阈...
【专利技术属性】
技术研发人员:李丽丽,陈曦,刘庆斌,张明昊,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。