文本识别方法及装置制造方法及图纸

技术编号:36430421 阅读:12 留言:0更新日期:2023-01-20 22:42
本申请提供文本识别方法及装置,其中所述文本识别方法包括:获取待识别文本和待识别文本的文本标识;基于文本标识在文本识别模板库中查询待识别文本对应的目标文本识别模板;在未查询到目标文本识别模板的情况下,接收针对待识别文本的可视化标记操作;基于可视化标记操作生成目标文本识别模板;根据目标文本识别模板提取待识别文本的目标文本信息,并将目标文本识别模板添加至文本识别模板库。本方法通过设置文本识别模板库,在模板库中未查询到识别模板时,由用户通过可视化标记操作,创建对应的文本识别模板,再进行文本识别,解决了待识别文本类型众多且数量众多而带来的识别慢的问题,节省了人力物力,提高了待识别文本的识别效率。识别效率。识别效率。

【技术实现步骤摘要】
文本识别方法及装置


[0001]本申请涉及文本识别
,特别涉及文本识别方法。本申请同时涉及文本识别装置,一种计算设备,以及一种计算机可读存储介质。

技术介绍

[0002]自然语言处理是计算机科学领域与人工智能领域中的一个重要方向,它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法,对文本中的内容进行识别提取,是自然语言处理领域的一个重要分支,可以通过深度学习技术解决自然语言处理领域的各个技术问题。
[0003]在一些领域,通常会处理一些格式固定的文件,从文件的内容中提取出需要的信息并进行保存,但是在一些场景下,固定格式的文件数量庞大,而且种类繁多,目前是通过人工处理的方式处理文件,将信息从文件中提取出来,十分耗费人力物力。目前也开发了通过计算机配合识别文本的方式,但是目前通过计算机识别文本的方式通常是全文提取,这对于仅需要其中某些信息的场景而言,就会有太多冗余信息,也需要耗费人力物力对识别的内容进行删减。
[0004]因此,亟需一种更为快捷便利的方式从较为固定格式的文件中提取相关的文本内容。

技术实现思路

[0005]有鉴于此,本申请实施例提供了文本识别方法。本申请同时涉及文本识别装置,一种计算设备,以及一种计算机可读存储介质,以解决现有技术中存在的上述问题。
[0006]根据本申请实施例的第一方面,提供了一种文本识别方法,包括:
[0007]获取待识别文本和所述待识别文本的文本标识;
[0008]基于所述文本标识在文本识别模板库中查询所述待识别文本对应的目标文本识别模板;
[0009]在未查询到所述目标文本识别模板的情况下,接收针对所述待识别文本的可视化标记操作;
[0010]基于所述可视化标记操作生成所述目标文本识别模板;
[0011]根据所述目标文本识别模板提取所述待识别文本的目标文本信息,并将所述目标文本识别模板添加至所述文本识别模板库。
[0012]根据本申请实施例的第二方面,提供了一种文本识别装置,包括:
[0013]获取模块,被配置为获取待识别文本和所述待识别文本的文本标识;
[0014]查询模块,被配置为基于所述文本标识在文本识别模板库中查询所述待识别文本对应的目标文本识别模板;
[0015]接收模块,被配置为在未查询到所述目标文本识别模板的情况下,接收针对所述待识别文本的可视化标记操作;
[0016]生成模块,被配置为基于所述可视化标记操作生成所述目标文本识别模板;
[0017]识别模块,被配置为根据所述目标文本识别模板提取所述待识别文本的目标文本信息,并将所述目标文本识别模板添加至所述文本识别模板库。
[0018]根据本申请实施例的第三方面,提供了一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,所述处理器执行所述计算机指令时实现所述文本识别方法的步骤。
[0019]根据本申请实施例的第四方面,提供了一种计算机可读存储介质,其存储有计算机指令,该计算机指令被处理器执行时实现所述文本识别方法的步骤。
[0020]本申请提供的文本识别方法,获取待识别文本和所述待识别文本的文本标识;基于所述文本标识在文本识别模板库中查询所述待识别文本对应的目标文本识别模板;在未查询到所述目标文本识别模板的情况下,接收针对所述待识别文本的可视化标记操作;基于所述可视化标记操作生成所述目标文本识别模板;根据所述目标文本识别模板提取所述待识别文本的目标文本信息,并将所述目标文本识别模板添加至所述文本识别模板库。
[0021]本申请一实施例实现了通过设置了文本识别模板库,在文本识别模板中收集已经出现过的文本对应的识别模板,当有待识别文本需要识别时,先在文本识别模板库中查询是否有对应的文本识别模板,当未查询到时,可以由用户针对待识别文本通过可视化标记操作,创建对应的文本识别模板,再进行文本识别,同时将该文本识别模板进行保存,便于后续同类型的待识别文本识别,解决了待识别文本类型众多且数量众多而带来的识别慢的问题,节省了人力物力,提高了待识别文本的识别效率。
附图说明
[0022]图1是本申请一实施例提供的一种文本识别方法的流程图;
[0023]图2是本申请一实施例提供的可视化标记页面示意图;
[0024]图3是本申请一实施例提供的基于用户的标记的文本标记框生成的文本标识模板示意图;
[0025]图4是本申请一实施例提供的一种应用于商标官文的文本识别方法的处理流程图;
[0026]图5是本申请一实施例提供的一种文本识别装置的结构示意图;
[0027]图6是本申请一实施例提供的一种计算设备的结构框图。
具体实施方式
[0028]在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此本申请不受下面公开的具体实施的限制。
[0029]在本申请一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请一个或多个实施例。在本申请一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本申请一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
[0030]应当理解,尽管在本申请一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。取决于语境,如在此所使用的词语“如果”可以被解释成为“在
……
时”或“当
……
时”或“响应于确定”。
[0031]在文本处理领域中,识别文本的内容是我们经常会遇到的场景,即从文档中读取我们需要用到的内容,目前我们是通过扫描文档,或通过OCR识别去识别文档中的内容,但是目前通过OCR识别通常是扫描全文的内容,再从扫描的全文内容中筛选需要的信息。这就会造成许多资源的浪费,有时候处理的文档数量会非常多,也会进一步增加工作量。
[0032]基于此,在本申请中,提供了文本识别方法,本申请同时涉及文本识别装置,一种计算设备,以及一种计算机可读存储介质,在下面的实施例中逐一进行详细说明。
[0033]图1示出了根据本申请一实施例提供的一种文本识别方法的流程图,具体包括以下步骤:
[0034]步骤102:获取待识别文本和所述待识别文本的文本标识。
[0035]本申请提供的文本识别方法,应用的场景为大批量的文本处理场景,文本的格式众多,但是同一类型文本的格式较为固定,需要从文本中识别用户所需的内容信息,例如以官文识别系统为例,获取的官文可以是专利官文、商标官文等等,官文可以本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本识别方法,其特征在于,包括:获取待识别文本和所述待识别文本的文本标识;基于所述文本标识在文本识别模板库中查询所述待识别文本对应的目标文本识别模板;在未查询到所述目标文本识别模板的情况下,接收针对所述待识别文本的可视化标记操作;基于所述可视化标记操作生成所述目标文本识别模板;根据所述目标文本识别模板提取所述待识别文本的目标文本信息,并将所述目标文本识别模板添加至所述文本识别模板库。2.如权利要求1所述的方法,其特征在于,获取所述待识别文本的文本标识包括:扫描所述待识别文本的文本页面,获得所述待识别文本的文本条码;解析所述文本条码,获得所述待识别文本对应的文本标识。3.如权利要求1所述的方法,其特征在于,所述文本识别模板库中包括至少一个文本识别模板和每个文本识别模板对应的模板匹配表达式;基于所述文本标识在文本识别模板库中查询所述待识别文本对应的目标文本识别模板,包括:根据所述文本识别模板库中的模板匹配表达式与所述文本标识进行模板匹配;在匹配到所述文本标识对应的目标模板匹配表达式的情况下,确定所述目标模板匹配表达式对应的文本识别模板为所述待识别文本对应的目标文本识别模板;在未匹配到所述文本标识对应的目标模板匹配表达式的情况下,确定文本识别模板库中未查询到所述待识别文本对应的目标文本识别模板。4.如权利要求1所述的方法,其特征在于,接收针对所述待识别文本的可视化标记操作,包括:接收用户针对所述待识别文本的标记操作;基于所述标记操作在所述待识别文本中生成至少一个文本标记框。5.如权利要求4所述的方法,其特征在于,基于所述可视化标记操作生成所述目标文本识别模板,包括:根据所述至少一个文本标记框生成所述目标文本标识模板。6.如权利要求1所述的方法,其特征在于,所述方法还包括:在查询到所述目标文本识别模板的情况下,根据所述目标文本识别模板提取所述待识别文本的目标文本信息。7.如权利要求1或6所述的方法,其特征在于,所...

【专利技术属性】
技术研发人员:刘阳
申请(专利权)人:北京万合之众科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1