词语识别方法及装置制造方法及图纸

技术编号:19012031 阅读:27 留言:0更新日期:2018-09-26 16:11
本发明专利技术的实施方式提供了一种词语识别方法,包括:对所述词语中的每个单字进行识别,并记录识别结果中置信度最高的前若干个识别的候选字及其对应的置信度;搜索每个常用词的各单字是否在所述词语的单字的候选字中出现,若出现,则记录该单字的在该常用词中的该候选字的置信度,若未出现,则将该字的置信度计为零;计算针对每个常用词的所述词语中各单字的平均置信度,作为该常用词的置信度;若置信度最高的常用词的置信度大于一阈值,则输出这个常用词作为该词语的识别结果,否则输出该词语的每个单字的置信度最高的候选字作为该词语的识别结果。通过使用常用词语的先验知识对词语进行识别,获得整个词语的置信度,降低了单个字识别的误差,提高了词语识别的准确率和效率。

【技术实现步骤摘要】
词语识别方法及装置
本专利技术的各实施方式涉及词语识别方法及装置。
技术介绍
在对词语进行光学字符识别时,通常先将词语通过各种拆分方法拆分为多个文字,然后对每个文字分别进行识别。这种方法一方面速度较慢,另一方面,可能某个文字区域不清晰或有残缺而导致该区域对应文字的识别不准确。而且,由于每个字的识别具有一定的错误概率,这使得整个词语的准确识别的概率就更低。
技术实现思路
鉴于上述原因,本专利技术提供一种词语识别方法及装置,其通过使用出现频率较高的常用词与要识别的词语进行比较,从而获得对词语较高的识别率。根据本专利技术的一个方面,提供一种词语识别方法,包括:对所述词语中的每个单字进行识别,并记录识别结果中置信度最高的前若干个识别的候选字及其对应的置信度;搜索每个常用词的各单字是否在所述词语的单字的候选字中出现,若出现,则记录该单字的在该常用词中的该候选字的置信度,若未出现,则将该字的置信度计为零;计算针对每个常用词的所述词语中各单字的平均置信度,作为该常用词的置信度;若置信度最高的常用词的置信度大于一阈值,则输出这个常用词作为该词语的识别结果,否则输出该词语的每个单字的置信度最高的候选字作为该词语的识别结果。根据本专利技术的另一方面,使用光学字符识别(OCR)对所述单字进行识别。根据本专利技术的另一方面,搜索每个常用词的各单字是否在所述词语的所有单字的所有候选字中出现。根据本专利技术的另一方面,当某个常用词中的某个单根据本专利技术的另一方面字中出现时,将不在该被识别的词语中的该单字的候选字中搜索该常用词中的其他单字。根据本专利技术的另一方面,仅搜索与被识别的词语字数相同的常用词。根据本专利技术的另一方面,搜索每个常用词的各单字是否在所述词语的与该常用词中相同位置的单字的候选字中出现。根据本专利技术的另一方面,提供一种词语识别装置,包括:单字识别单元,用于对所述词语中的每个单字进行识别,并记录识别结果中置信度最高的前若干个识别的候选字及其对应的置信度;常用词搜索单元,用于搜索每个常用词的各单字是否在所述词语的单字的候选字中出现,若出现,则记录该单字的在该常用词中的该候选字的置信度,若未出现,则将该字的置信度计为零;置信度计算单元,用于计算针对每个常用词的所述词语中各单字的平均置信度,作为该常用词的置信度;输出单元,若置信度最高的常用词的置信度大于一阈值,输出单元输出这个常用词作为该词语的识别结果,否则输出该词语的每个单字的置信度最高的候选字作为该词语的识别结果。根据本专利技术的另一方面,所述单字识别单元包括光学字符识别(OCR)引擎。根据本专利技术的另一方面,该常用词搜索单元被配置为搜索每个常用词的各单字是否在所述词语的所有单字的所有候选字中出现。根据本专利技术的另一方面,该常用词搜索单元被配置为当某个常用词中的某个单字在被识别的词语中的某个单字的候选字中出现时,将不在该被识别的词语中的该单字的候选字中搜索该常用词中的其他单字。根据本专利技术的另一方面,该常用词搜索单元被配置为仅搜索与被识别的词语字数相同的常用词。根据本专利技术的另一方面,该常用词搜索单元被配置为搜索每个常用词的各单字是否在所述词语的与该常用词中相同位置的单字的候选字中出现。通过使用常用词语的先验知识对词语进行识别,获得整个词语的置信度,降低了单个字识别的误差,提高了词语识别的准确率和效率。该词语识别方法和词语识别装置在名片等具有特定常用词的场合中的词语识别是特别有利的。附图说明当结合附图阅读下文对示范性实施方式的详细描述时,这些以及其他目的、特征和优点将变得显而易见,在附图中:图1是根据本专利技术优选实施例的词语识别方法的流程图;图2是适于用来实践本专利技术实施方式的词语识别装置的示意性框图;图3是用来实践本专利技术实施方式的移动终端的示意性框图。具体实施方式附图中的流程图和框图,图示了按照本专利技术各种实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,所述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。现在将仅通过示例性方式来详细地描述本专利技术的各种实施方式。图1是根据本专利技术优选实施例的一词语识别方法的流程图。该方法可典型地用于名片中的常用词的识别。该方法具体包括下列步骤:首先执行步骤S11,对所述词语中的每个单字进行识别,并记录识别结果中置信度最高的前若干个识别的候选字及其对应的置信度。优选可通过光学字符识别(OCR)对单个的字进行识别,光学字符识别是公知的字符识别技术,在此不再赘述。对每个单字可能识别出多个候选字,每个后候选字对应有其识别的置信度。记录其中每个单字置信度最高的前若干个候选字及其置信度,以备后面步骤使用。例如,假设要识别词语AB,假设取每个单字的置信度最高的前三个候选字,则首先使用OCR将AB中的单字A识别出A的置信度为0.9,识别为A’的置信度为0.4,识别为A”的置信度为0.2,将单字B识别为B的置信度为0.8,识别为B’的置信度为0.4,识别为B”的置信度为0.1,将这些数据进行记录。然后执行步骤S12,搜索每个常用词的各单字是否在所述词语的单字的候选字中出现,若出现,则记录该单字的在该常用词中的该候选字的置信度,若未出现,则将该字的置信度计为零。其中的常用词是使用概率较高的、需要对其进行非常准确的识别的一些词语。例如对于名片中的词语识别来说,该常用词可以是“姓名”、“电话”、“地址”等通常会在名片中出现的词语。可以通过建立一个常用词库来记录常用词,并且可以根据需要向该常用词库中增加或删除常用词。在第一优选实施方式中,搜索每个常用词的各单字是否在所述词语的所有单字的所有候选字中出现。假设要识别词语AB,则在搜索常用词库中的常用词AC时,先在A、A’、A”、B、B’和B”的集合中搜索是否出现AC中的A。显然,该集合中存在A,则记录该候选字A对应的置信度0.9。然后再在该集合中搜索是否出现AC中的C,显然,该集合中不存在C,因而将常用词AC中C对应的置信度设为零。优选地,当某个常用词中的某个单字在被识别的词语中的某个单字的候选字中出现时,将不在该被识别的词语中的该单字的候选字中搜索该常用词中的其他单字。如上例,当在上述集合中搜索到常用词AC中的A后,在搜索AC中的C时,将不再在A的候选字A、A’、A”中搜索,而仅在剩余的候选字B、B’和B”中进行搜索。因为对于被识别的词语中的A已经在常用词中找到对应的单字,那么A对应的其他候选字很大程度可能是被误识别的字或与该常用词无关的字,因而在搜索该常用词的其他单字时,无需再在该范围中进行搜索。这样,可以节约计算资源,提高常用词的搜索速度。当搜索完常用词AC后,再按照上述方法在上述集合中搜索常用词库中的其他常用词AB、AD、EB、AFG等中的各单字,并得本文档来自技高网...

【技术保护点】
1.一种词语识别方法,包括:S11:对词语中的每个单字进行识别,并分别记录识别结果中关于每个单字的置信度最高的前若干个识别的候选字及其对应的置信度;S12:搜索每个常用词的各单字是否在所述词语的单字的候选字中出现,若出现,则记录该单字的在该常用词中的该候选字的置信度,若未出现,则将该字的置信度计为零;S13:针对每个常用词,根据由步骤S12得到的该常用词中所有单字的置信度,计算该常用词中所有单字的置信度的均值,并将该均值作为该常用词的置信度;S14:若置信度最高的常用词的置信度大于一阈值,则输出这个常用词作为该词语的识别结果,否则输出该词语的每个单字的置信度最高的候选字作为该词语的识别结果。

【技术特征摘要】
1.一种词语识别方法,包括:S11:对词语中的每个单字进行识别,并分别记录识别结果中关于每个单字的置信度最高的前若干个识别的候选字及其对应的置信度;S12:搜索每个常用词的各单字是否在所述词语的单字的候选字中出现,若出现,则记录该单字的在该常用词中的该候选字的置信度,若未出现,则将该字的置信度计为零;S13:针对每个常用词,根据由步骤S12得到的该常用词中所有单字的置信度,计算该常用词中所有单字的置信度的均值,并将该均值作为该常用词的置信度;S14:若置信度最高的常用词的置信度大于一阈值,则输出这个常用词作为该词语的识别结果,否则输出该词语的每个单字的置信度最高的候选字作为该词语的识别结果。2.根据权利要求1所述的方法,其中,使用光学字符识别(OCR)对所述单字进行识别。3.根据权利要求1或2所述的方法,其中,搜索每个常用词的各单字是否在所述词语的所有单字的所有候选字中出现。4.根据权利要求3所述的方法,其中,当某个常用词中的某个单字在被识别的词语中的某个单字的候选字中出现时,将不在该被识别的词语中的该单字的候选字中搜索该常用词中的其他单字。5.根据权利要求1或2所述的方法,其中,仅搜索与被识别的词语字数相同的常用词。6.根据权利要求5所述的方法,其中,搜索每个常用词的各单字是否在所述词语的与该常用词中相同位置的单字的候选字中出现。7.一种词语识别装置,包括:单字识别单元,用于对词语中的每个单字进行识别,并分...

【专利技术属性】
技术研发人员:郑大念
申请(专利权)人:捷讯平和北京科技发展有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1