识别文本的方法、装置、设备及存储介质制造方法及图纸

技术编号:23558792 阅读:27 留言:0更新日期:2020-03-25 04:14
本申请涉及人工智能领域,提供一种识别文本的方法、装置、设备及存储介质,方法包括:根据行业类别对所收集的字词数据集进行分类,建立多个类别词库;根据业务类型对多个所述类别词库进行分类获得多个候选业务类型词库,根据优先级对多个候选业务类型词库进行排序,获得多个初始目标业务词库;通过预置的图像文本识别模型基于所述多个初始业务类型词库对目标图像进行识别处理,获得所述目标图像对应的文本预测结果和目标业务类型词库;在所述目标业务类型词库获取目标词,根据所述目标词建立数据结构树;在所述数据结构树中获取与所述目标词匹配度最高的词,将所述匹配度最高的词作为文本识别结果输出。采用本方案,能够提高文本识别的准确率。

Methods, devices, equipment and storage media for text recognition

【技术实现步骤摘要】
识别文本的方法、装置、设备及存储介质
本申请涉及场景文本检测领域,尤其涉及识别文本的方法、装置、设备及存储介质。
技术介绍
信息电子化时代,随着档案数字化、信息采集和证件录入等数据量大、录入繁琐的工作发展,对图像中的文字转换成文本格式的需求越来越大,OCR(光学字符识别)识别技术发展成为当今模式识别领域中最活跃的分支之一。目前的OCR文本识别中,通过对输入的文件进行扫描和识别以获取处理信息,对所述处理信息进行特征提取,根据所述特征获取文本识别信息,将所述文本识别信息与字词数据库中的字词进行匹配,并获取多个匹配值,以所述字词数据库中最大的匹配值对应的字词作为文本识别结果,并输出所述文本识别结果。由于是通过根据获取的处理信息的特征获取文本识别信息,将所述文本识别信息直接与统一的一个字词数据库中的字词进行匹配,以获取匹配度最大的字词作为文本识别结果,易造成所获取的文本识别信息在大范围的字词数据库的匹配中存在与专业术语、常用词组和领域专用语言等的匹配不对应的问题,从而导致所输出的文本识别结果不是输入的文件对应的业务场景所需的识别结果,因本文档来自技高网...

【技术保护点】
1.一种识别文本的方法,其特征在于,所述方法包括:/n根据行业类别对所收集的字词数据集进行分类,建立多个类别词库,计算多个所述类别词库中词的词频-逆文本频率指数TF-IDF值,并按照所述TF-IDF值从大到小分别设置多个所述类别词库对应的优先级;/n根据业务类型对多个所述类别词库进行分类,获得多个候选业务类型词库,根据所述优先级对所述多个候选业务类型词库进行排序,从经过排序的多个候选业务类型词库中选择所述优先级对应的所述TF-IDF值大于预设阈值的候选业务类型词库,获得多个初始业务类型词库;/n获取目标图像,通过预置的图像文本识别模型基于所述多个初始业务类型词库对所述目标图像进行识别处理,获得...

【技术特征摘要】
1.一种识别文本的方法,其特征在于,所述方法包括:
根据行业类别对所收集的字词数据集进行分类,建立多个类别词库,计算多个所述类别词库中词的词频-逆文本频率指数TF-IDF值,并按照所述TF-IDF值从大到小分别设置多个所述类别词库对应的优先级;
根据业务类型对多个所述类别词库进行分类,获得多个候选业务类型词库,根据所述优先级对所述多个候选业务类型词库进行排序,从经过排序的多个候选业务类型词库中选择所述优先级对应的所述TF-IDF值大于预设阈值的候选业务类型词库,获得多个初始业务类型词库;
获取目标图像,通过预置的图像文本识别模型基于所述多个初始业务类型词库对所述目标图像进行识别处理,获得所述目标图像对应的文本预测结果和目标业务类型词库;
从所述目标业务类型词库中获取所有与所述文本预测结果存在相同或相似部分的目标词,将所述目标词中任意一个词作为根节点,将所述目标词中除了所述根节点之外的其他词作为子节点,根据所述根节点和所述子节点建立数据结构树;
通过对所述数据结构树进行查询阈值分析,在所述数据结构树中获取与所述目标词匹配度最高的词,将所述匹配度最高的词作为文本识别结果输出。


2.根据权利要求1所述的方法,其特征在于,所述根据行业类别对所收集的字词数据集进行分类,建立多个类别词库,包括:
根据第一行业类别对所收集的字词数据集进行分类,建立第一类别词库;
根据第二行业类别对所述第一类别词库进行分类,建立第二类别子词库,其中,所述第二行业类别是所述第一行业类别的子类别;
根据第三行业类别,对所述第二类别子词库进行分类,建立第三类别子词库,其中,所述第三行业类别是所述第二行业类别的子类别;
通过所述第一类别词库、所述第二类别子词库和所述第三类别子词库,建立类别词库。


3.根据权利要求1所述的方法,其特征在于,所述获取目标图像,通过预置的图像文本识别模型基于所述多个初始业务类型词库对所述目标图像进行识别处理,获得所述目标图像对应的文本预测结果和目标业务类型词库,包括:
获取目标图像,通过所述预置的图像文本识别模型对所述目标图像进行图像识别处理获得第一特征信息,以及对所述目标图像进行文本识别处理获得第二特征信息,所述第一特征信息包括所述目标图像的整体构成部分的信息,所述第二特征信息包括所述目标图像的文本构成部分的信息;
分析并获取所述第一特征信息对应的第一业务类型,并根据所述第一业务类型从所述多个初始业务类型词库中获取第一目标业务类型词库,所述第一目标业务类型词库包括与所述第一业务类型对应和/或关联的多个词库;
对所述第二特征信息进行文本预测处理获得文本预测结果;
分析并获取所述文本预测结果对应的第二业务类型,并根据所述第二业务类型从所述多个初始业务类型词库中获取第二目标业务类型词库,所述第二目标业务类型词库包括与所述第二业务类型对应和/或关联的多个词库;
计算所述文本预测结果与所述第一目标业务类型词库的第一相似度,以及计算所述文本预测结果与所述第二目标业务类型词库的第二相似度;
比较所述第一相似度和所述第二相似度获得最大值的相似度,将所述最大值的相似度对应的第一目标业务类型词库或第二目标业务类型词库作为最终的目标业务类型词库。


4.根据权利要求1所述的方法,其特征在于,所述将所述目标词中任意一个词作为根节点,将所述目标词中除了所述根节点之外的其他词作为子节点,根据所述根节点和所述子节点建立数据结构树,包括:
遍历所述目标业务类型词库获取与所述文本预测结果存在相同或相似部分的多个目标词;
计算多个所述目标词与所述文本预测结果之间的多个相似度,比较多个所述相似度的值的大小,将值最大的相似度对应的目标词作为根节点;
按照多个所述相似度的值从大到小的顺序,将作为所述根节点之外的多个目标词依次作为子节点,并在所述子节点的连接线上标记所述子节点对应的相似度;
根据所述根节点和所述子节点,建立数据结构树。


5.根据权利要求1-4任一所述的方法,其特征在于,所述通过对所述数据结构树进行查询阈值分析,在所述数据结构树中获取与所述目标词匹配度最高的词,将所述匹配度最高的词作为文本识别结果输出,包括:
计算所述文本预测结果中的文本序列与所述根节点的编辑距离;
计算查询阈值,所述查询阈值不小于所述编辑距离与最大距离之差,所述查询阈值不大于所述编辑距离与所述最大距离之和,所述最大距离为所述数据结构树中返回的...

【专利技术属性】
技术研发人员:周罡
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1