文本识别方法、模型训练方法、装置、设备和存储介质制造方法及图纸

技术编号：43445560 阅读：19 留言：0更新日期：2024-11-27 12:49

本申请公开了一种文本识别方法、模型训练方法、装置、设备和存储介质。获取对比文本、目标文本和目标文本分类信息；将对比文本、目标文本和目标文本分类信息进行预处理，得到文本序列；将文本序列输入目标模型，得到目标标签序列，目标标签序列至少包含目标文本相对于对比文本的文本关联标签、文本分类标签和文本主体信息；其中，目标模型基于样本文本序列对应的输出结果与样本标签序列进行对比训练得到，样本文本序列由样本对比文本、样本目标文本和样本目标文本分类信息进行预处理得到，样本标签序列包括样本目标文本相对于样本对比文本的样本关联标签、样本文本分类标签和样本文本主体信息。以此，可通过单个模型执行同一文本的多个识别任务。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及计算机，具体涉及一种文本识别方法、模型训练方法、装置、设备和存储介质。

技术介绍

1、人工智能(artificial intelligence，ai)已应用于广泛领域，其所涉及的技术可包含计算机视觉、语音处理、自然语言处理等，其中，自然语言处理技术在文本语义理解的应用方向上具有深远的意义。例如，可以识别文本与其他文本之间的关联程度，识别该文本的主体信息，以及分析该文本的情感属性等，因此，可利用文本语义理解来完成不同类型的文本识别任务。

2、为了完成文本对应的多种类型的文本识别任务，相关技术针对每个类型的文本识别任务分别构建对应的模型，以通过构建的不同模型分别完成每种类型的文本识别任务。

3、在对相关技术的研究和实践过程中，本申请的专利技术人发现相关技术在通过不同的模型分别完成文本的每种类型的文本识别任务时，对于同一文本存在关联的多种类型的文本识别任务，由于不同的模型之间在进行信息传导时会产生误差，容易降低模型的识别准确性，影响了用户的体验。

技术实现思路

...

【技术保护点】

1.一种文本识别方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述将所述文本序列输入目标模型，得到目标标签序列，包括：

3.根据权利要求2所述的方法，其特征在于，所述目标模型包括编码层，所述对所述文本序列中每个字符进行语义增强表示，得到字符向量序列，包括：

4.根据权利要求3所述的方法，其特征在于，所述目标模型还包括与所述编码层连接的双向记忆网络层，所述将每个字符表示向量与所述字符向量序列在双向传播中的特征进行融合和转换处理，得到每个字符表示向量对应的标签评分序列，包括：

5.根据权利要求4所述的方法，其特征在于，所述...

【技术特征摘要】

1.一种文本识别方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述将所述文本序列输入目标模型，得到目标标签序列，包括：

3.根据权利要求2所述的方法，其特征在于，所述目标模型包括编码层，所述对所述文本序列中每个字符进行语义增强表示，得到字符向量序列，包括：

5.根据权利要求4所述的方法，其特征在于，所述目标模型还包括与所述双向记忆网络层连接的分类层，所述基于每个标签评分序列中的多个标签类别和每个标签类别对应的标签评分，确定目标标签路径，包括：

6.根据权利要求5所述的方法，其特征在于，所述根据所述每个候选标签路径中指示的每个标签类别的标签评分和相邻的标签类别之间的类别转移关系，计算每个候选标签路径的路径评分，包括：

7.根据权利要求1所述的方法，其特征在于，所述将所述对比文本、目标文本和目标文本分类信息进行预处理，得到文本序列...

【专利技术属性】
技术研发人员：李俊琪，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人