文本识别方法及装置、电子设备、存储介质制造方法及图纸

技术编号：36101134 阅读：14 留言：0更新日期：2022-12-28 13:59

本申请实施例提供一种文本识别方法，包括：获取待识别文本；通过文本语义提取模型，提取所述待识别文本中的多个局部文本信息，以及所述多个局部文本信息之间的语义特征，得到文本语义向量；对所述文本语义向量进行识别处理，得到所述待识别文本中的目标文本。本申请实施例同时还提供一种文本识别装置、电子设备、存储介质。存储介质。存储介质。

全部详细技术资料下载

【技术实现步骤摘要】
文本识别方法及装置、电子设备、存储介质

[0001]本申请涉及自然语言处理
，尤其涉及一种文本识别方法及装置、电子设备、存储介质。

技术介绍

[0002]自然语言处理(Natural Language Processing，NLP)是人工智能的一个子领域。在NLP的众多研究方向中，信息抽取(Information Extraction，IE)一直是一项热门的研究课题。信息抽取指的是从一段文本中识别并抽取出时间、地域等信息。如此，可以及时掌握相关事件(主要是负面事件)的动态，及时做好舆情监控，用户预警等相关工作，无论对于政府还是企业，都是至关重要的。
[0003]目前，针对信息抽取常用的模型大多基于长短期记忆(Long Short
‑
TermMemory，LSTM)，例如Bilstm
‑
CRF模型和Bert
‑
Bilstm
‑
CRF模型，是将长文本截取或者针对长文本提取出摘要信息，减少模型输入的长度，然后基于序列标注模型进行信息抽取。但由于长文本截取或者提取摘要信息会造成信息缺失，导致抽取到的信息较为片面，影响信息抽取的准确率。

技术实现思路

[0004]有鉴于此，本申请实施例提供了一种文本识别方法及装置、设备、存储介质。
[0005]本申请实施例提供一种文本识别方法，该方法包括：
[0006]获取待识别文本；
[0007]通过文本语义提取模型，提取所述待识别文本中的多个局部文本信息，以及所述多...

【技术保护点】

【技术特征摘要】
1.一种文本识别方法，其特征在于，所述方法包括：获取待识别文本；通过文本语义提取模型，提取所述待识别文本中的多个局部文本信息，以及所述多个局部文本信息之间的语义特征，得到文本语义向量；对所述文本语义向量进行识别处理，得到所述待识别文本中的目标文本。2.根据权利要求1所述的方法，其特征在于，所述文本语义提取模型包括：双向转换编码表示子模型和增强型空洞卷积子模型；所述通过文本语义提取模型，提取所述待识别文本中的多个局部文本信息，以及所述多个局部文本信息之间的语义特征，得到文本语义向量，包括：通过双向转换编码表示子模型提取所述待识别文本中的多个局部文本信息，以及所述多个局部文本信息之间的语义特征，得到含有语义特征的序列向量；通过增强型空洞卷积子模型对所述序列向量进行局部语义特征提取，得到所述文本语义向量。3.根据权利要求2所述的方法，其特征在于，所述通过双向转换编码表示子模型提取所述待识别文本中的多个局部文本信息，以及所述多个局部文本信息之间的语义特征，得到含有语义特征的序列向量，包括：通过所述双向转换编码表示子模型提取所述待识别文本中的所述多个局部文本信息，得到文本序列；随机选择所述文本序列中的部分词进行语义特征表示，得到语义特征序列；对所述语义特征序列进行特征提取，得到所述序列向量。4.根据权利要求2所述的方法，其特征在于，所述通过增强型空洞卷积子模型对所述序列向量进行局部语义特征提取，得到所述文本语义向量，包括：通过所述增强型空洞卷积子模型对所述序列向量进行特征提取，得到目标特征向量；通过所述增强型空洞卷积子模型对所述序列向量进行分类特征提取，得到分类特征向量；对所述目标特征向量和所述分类特征向量进行拼接处理，得到所述文本语义向量。5.根据权利要求1
‑
4中任一项所述的方法，其特征在于，所述对所述文本语义向量进行识别处理，得到所述待识别文本中的目标文本，包括：通过条件随机场模型对所述文本语义向量进行...

【专利技术属性】
技术研发人员：陈敬，
申请(专利权)人：中国移动通信集团有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人