文本识别方法及装置、电子设备、存储介质制造方法及图纸

技术编号:36101134 阅读:14 留言:0更新日期:2022-12-28 13:59
本申请实施例提供一种文本识别方法,包括:获取待识别文本;通过文本语义提取模型,提取所述待识别文本中的多个局部文本信息,以及所述多个局部文本信息之间的语义特征,得到文本语义向量;对所述文本语义向量进行识别处理,得到所述待识别文本中的目标文本。本申请实施例同时还提供一种文本识别装置、电子设备、存储介质。存储介质。存储介质。

【技术实现步骤摘要】
文本识别方法及装置、电子设备、存储介质


[0001]本申请涉及自然语言处理
,尤其涉及一种文本识别方法及装置、电子设备、存储介质。

技术介绍

[0002]自然语言处理(Natural Language Processing,NLP)是人工智能的一个子领域。在NLP的众多研究方向中,信息抽取(Information Extraction,IE)一直是一项热门的研究课题。信息抽取指的是从一段文本中识别并抽取出时间、地域等信息。如此,可以及时掌握相关事件(主要是负面事件)的动态,及时做好舆情监控,用户预警等相关工作,无论对于政府还是企业,都是至关重要的。
[0003]目前,针对信息抽取常用的模型大多基于长短期记忆(Long Short

TermMemory,LSTM),例如Bilstm

CRF模型和Bert

Bilstm

CRF模型,是将长文本截取或者针对长文本提取出摘要信息,减少模型输入的长度,然后基于序列标注模型进行信息抽取。但由于长文本截取或者提取摘要信息会造成信息缺失,导致抽取到的信息较为片面,影响信息抽取的准确率。

技术实现思路

[0004]有鉴于此,本申请实施例提供了一种文本识别方法及装置、设备、存储介质。
[0005]本申请实施例提供一种文本识别方法,该方法包括:
[0006]获取待识别文本;
[0007]通过文本语义提取模型,提取所述待识别文本中的多个局部文本信息,以及所述多个局部文本信息之间的语义特征,得到文本语义向量;
[0008]对所述文本语义向量进行识别处理,得到所述待识别文本中的目标文本。
[0009]在上述实施例的基础上,本申请实施例还提供一种文本识别装置,该装置包括:获取模块,提取模块和识别模块,其中,
[0010]所述获取模块,用于获取待识别文本;
[0011]所述提取模块,用于通过文本语义提取模型,提取所述待识别文本中的多个局部文本信息,以及所述多个局部文本信息的语义特征,得到文本语义向量;
[0012]所述识别模块,用于对所述文本语义向量进行识别处理,得到所述待识别文本中的目标文本。
[0013]在上述实施例的基础上,本申请实施例还提供一种电子设备,该电子设备包括处理器和用于存储能够在处理器上运行的计算机程序的存储器;
[0014]其中,所述处理器用于运行所述计算机程序时,执行上述实施例中所述方法的步骤。
[0015]在上述实施例的基础上,本申请实施例还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行实现上述实施例中所述方法的步骤。
[0016]本申请实施例所提供的文本识别方法,通过获取待识别文本;利用文本语义提取模型,提取待识别文本中的多个局部文本信息,以及多个局部文本信息之间的语义特征,得到文本语义向量;对文本语义向量进行识别处理,得到待识别文本中的目标文本。如此,通过构建文本语义提取模型,使得截断后的待识别文本的上下文关系更加紧密,避免了由于长文本截取或者提取摘要信息造成的信息缺失,提高了信息抽取的准确率。
附图说明
[0017]图1为本申请实施例提供的一种文本识别方法的流程示意图;
[0018]图2为本申请实施例提供的另一种文本识别方法的流程示意图;
[0019]图3为本申请实施例提供的一种文本识别方法中BERT子模型的结构示意图;
[0020]图4为本申请实施例提供的一种文本识别方法中EDC子模型的结构示意图;
[0021]图5为本申请实施例提供的一种文本识别方法中多任务协同学习的流程示意图;
[0022]图6为本申请实施例提供的一种文本识别装置的结构示意图;
[0023]图7为本申请实施例提供的电子设备的实体示意图。
具体实施方式
[0024]为了能够更加详尽地了解本申请实施例的特点与
技术实现思路
,下面结合附图对本申请实施例的实现进行详细阐述,所附附图仅供参考说明之用,并非用来限定本申请实施例。
[0025]除非另有定义,本申请实施例所使用的所有的技术和科学术语与属于本申请的
的技术人员通常理解的含义相同。本申请实施例中所使用的术语只是为了描述本申请实施例的目的,不是旨在限制本申请。
[0026]众所周知,在自然语言处理(Natural Language Processing,NLP)的众多研究方向中,信息抽取(Information Extraction,IE)一直是一项热门的研究课题。地域提取是信息抽取的一项基本任务,旨在通过从文本信息中抽取出相关事件发生的地域信息,其在很多自然语言处理应用中已经成为不可或缺的步骤。
[0027]本申请旨在从新闻文本中识别出地名信息并确定对应事件所属地点,进而准确识别新闻事件发生地点。基于新闻文本识别事件的地域信息,及时掌握事件(主要是负面事件)的发生地点,做好舆情监控。
[0028]相关技术提出的识别方法大多是基于长短期记忆(Long Short

TermMemory,LSTM),例如,Bilstm

CRF模型和Bert

Bilstm

CRF模型等,其不足之处在于新闻文本较长时,模型顺序解码所需的时间就越长,因此,如何从长文本中快速提取新闻事件相关地域信息是相关技术提出的识别方法目前面临的主要问题。此外,由于新闻文本中出现的地域信息可能是不完整的,如“界首”,其可能是“江苏省扬州市界首镇”,也可能是“安徽省阜阳市界首市”,因此如何进行准确的地域补全是新闻地域提取任务面临的第二个问题。最后,新闻文本中提取的地域信息可能会有多个,如何从多个地域信息中确定出新闻事件相关的地域信息是地域提取任务面临的第三个问题。
[0029]针对以上问题,相关技术目前大致有以下几种方案:
[0030]针对如何从长文本中快速提取新闻事件相关地域信息的问题,相关技术目前常用的方法如Bilstm

CRF模和Bert

Bilstm

CRF模型,其原理是采用相应策略减少模型输入的
长度,例如,长文本截取或者针对新闻长文本提取摘要信息,之后基于序列标注模型进行地域信息提取。其不足之处在于,新闻长文本的截断或者摘要方式会造成新闻文本地域信息的损失,导致最后获得的地域信息较为片面。同时,由于LSTM的特殊性,整个模型在训练及预测时只能串行,无法并行加速,加上最后基于CRF选取全局最优解,模型的整体耗时较长。
[0031]针对如何进行地域补全的问题,相关技术目前常用的实现方法都是引入外部地域词典,基于最大匹配算法(Maximum Matching)或者其他算法进行地域补全。其不足之处在于,基于外部地域词典引入的地域补全方法简单粗暴,当遇到某一个地域词在外部地域词典中涉及的省、市、县,街道多次出现时,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本识别方法,其特征在于,所述方法包括:获取待识别文本;通过文本语义提取模型,提取所述待识别文本中的多个局部文本信息,以及所述多个局部文本信息之间的语义特征,得到文本语义向量;对所述文本语义向量进行识别处理,得到所述待识别文本中的目标文本。2.根据权利要求1所述的方法,其特征在于,所述文本语义提取模型包括:双向转换编码表示子模型和增强型空洞卷积子模型;所述通过文本语义提取模型,提取所述待识别文本中的多个局部文本信息,以及所述多个局部文本信息之间的语义特征,得到文本语义向量,包括:通过双向转换编码表示子模型提取所述待识别文本中的多个局部文本信息,以及所述多个局部文本信息之间的语义特征,得到含有语义特征的序列向量;通过增强型空洞卷积子模型对所述序列向量进行局部语义特征提取,得到所述文本语义向量。3.根据权利要求2所述的方法,其特征在于,所述通过双向转换编码表示子模型提取所述待识别文本中的多个局部文本信息,以及所述多个局部文本信息之间的语义特征,得到含有语义特征的序列向量,包括:通过所述双向转换编码表示子模型提取所述待识别文本中的所述多个局部文本信息,得到文本序列;随机选择所述文本序列中的部分词进行语义特征表示,得到语义特征序列;对所述语义特征序列进行特征提取,得到所述序列向量。4.根据权利要求2所述的方法,其特征在于,所述通过增强型空洞卷积子模型对所述序列向量进行局部语义特征提取,得到所述文本语义向量,包括:通过所述增强型空洞卷积子模型对所述序列向量进行特征提取,得到目标特征向量;通过所述增强型空洞卷积子模型对所述序列向量进行分类特征提取,得到分类特征向量;对所述目标特征向量和所述分类特征向量进行拼接处理,得到所述文本语义向量。5.根据权利要求1

4中任一项所述的方法,其特征在于,所述对所述文本语义向量进行识别处理,得到所述待识别文本中的目标文本,包括:通过条件随机场模型对所述文本语义向量进行...

【专利技术属性】
技术研发人员:陈敬
申请(专利权)人:中国移动通信集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1