文本识别方法、装置、电子设备和可读存储介质制造方法及图纸

技术编号:28872998 阅读:43 留言:0更新日期:2021-06-15 23:06
本申请公开了一种文本识别方法、装置、电子设备和可读存储介质,其中文本识别方法包括将识别到的字符进行N种组合,获得字符组成的M个语句;确定M个语句中每个语句的语句流畅值;将M个语句进行分词,获得M个语句中每个语句包含的分词的分词分值;基于语句流畅值和分词分值显示M个语句中的目标语句;其中,M≤N,在对文本进行识别之后,通过对识别得到的字符进行组合,获得多个语句,确定每个语句的语句流畅值以及分词分值,根据每个语句的语句流畅值和分词分值从多个语句中筛选得到目标语句,使得筛选得到的目标语句更加符合语义,降低出现输出的语句与其实际书写的语句存在偏差的概率,提高文本识别的准确性。

【技术实现步骤摘要】
文本识别方法、装置、电子设备和可读存储介质
本申请涉及文本识别
,具体而言,涉及一种文本识别方法、一种文本识别装置、一种电子设备和一种可读存储介质。
技术介绍
相关技术中,根据书写场景的不同,文本的书写模式也不同,有的文字横向书写,有的文字纵向书写,有的文字按照从左到右的顺序书写,还有的文字按照从右到左的顺序书写。目前采用OCR(OpticalCharacterRecognition,光学字符识别)原理对书写的文字进行识别,只是按照固定的识别顺序进行识别并输出,导致输出的语句不符合语义,文字识别结果不正确,影响文字识别的准确性。申请内容本申请实施例提供了一种文本识别方法、文本识别装置、电子设备和可读存储介质,能够解决相关技术中只是按照固定的识别顺序进行识别并输出,导致输出的语句不符合语义,文字识别结果不正确,影响文字识别的准确性。为了解决上述技术问题,本申请是这样实现的:第一方面,本申请实施例提供了一种文本识别方法,包括:将识别到的字符进行N种组合,获得字符组成的M个语句;确定M个语句中每个语句的语句流畅值;将M个语句进行分词,获得M个语句中每个语句包含的分词的分词分值;基于语句流畅值和分词分值显示M个语句中的目标语句;其中,M≤N。第二方面,本申请实施例提供了一种文本识别装置,包括:组合单元,用于将识别到的字符进行N种组合,获得字符组成的M个语句;确定单元,用于确定M个语句中每个语句的语句流畅值;分词单元,用于将M个语句进行分词,获得M个语句中每个语句包含的分词的分词分值;显示单元,用于基于语句流畅值和分词分值显示M个语句中的目标语句;其中,M≤N。第三方面,本申请实施例提供了一种电子设备,包括处理器、存储器及存储在该存储器上并在处理器上运行的程序或指令,该程序或指令被处理器执行时实现如第一方面提供的文本识别方法的步骤。第四方面,本申请实施例提供了一种可读存储介质,可读存储介质上存储程序或指令,该程序或指令被处理器执行时实现如第一方面提供的文本识别方法的步骤。第五方面,本申请实施例提供了一种芯片,所述芯片包括处理器和通信接口,所述通信接口和所述处理器耦合,所述处理器用于运行程序或指令,实现如第一方面提供的文本识别方法的步骤。在本申请实施例中,在对文本进行识别之后,通过对识别得到的字符进行组合,获得多个语句,确定每个语句的语句流畅值以及分词分值,根据每个语句的语句流畅值和分词分值从多个语句中筛选得到目标语句,使得筛选得到的目标语句更加符合语义,降低出现输出的语句与其实际书写的语句存在偏差的概率,提高文本识别的准确性。附图说明图1是本申请实施例的文本识别方法的流程图之一;图2是本申请实施例的文本识别示意图之一;图3是相关技术方案中的文本识别结果示意图之一;图4是相关技术方案中的文本识别结果示意图之二;图5是本申请实施例的文本识别方法的流程图之二;图6是本申请实施例的文本识别方法的流程图之三;图7是本申请实施例的对语句流畅值进行加权的示意图;图8是本申请实施例的文本识别方法的示意图;图9是本申请实施例的文本识别方法的示意图;图10是本申请实施例的文本识别方法的流程图之四;图11是本申请实施例的文本识别装置的示意框图;图12是本申请实施例的电子设备结构示意框图之一;图13是本申请实施例的电子设备结构示意框图之二。具体实施方式为了能够更清楚地理解本申请的上述目的、特征和优点,下面结合附图和具体实施方式对本申请进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。在下面的描述中阐述了很多具体细节以便于充分理解本申请,但是,本申请还可以采用其他不同于在此描述的其他方式来实施,因此,本申请的保护范围并不受下面公开的具体实施例的限制。下面参照图1至图13描述根据本申请一些实施例的文本识别方法、文本识别装置、电子设备和可读存储介质。为了解决相关技术中的上述问题,在本申请的一个实施例中,图1示出了本申请实施例的文本识别方法的步骤流程图之一,如图1所示,文本识别方法包括:步骤102,将识别到的字符进行N种组合,获得字符组成的M个语句。在步骤102中,识别到的字符可以是通过对图像进行OCR识别所得到的结果,其中,OCR原理(OpticalCharacterRecognition)也即是光学字符识别,通过电子设备,例如扫描仪或者照相机等获取字符,检查纸上的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程。在其中一个实施例中,OCR识别所识别的对象可以是软件截图,也可以是传输或存储的照片。在其中一个实施例中,软件截图、输或存储的照片所包含的文字可以是打印的文字,也可以为手写的文字。可以为中文,也可以为英文或者其他外语等。在其中一个实施例中,对识别到中的字符进行N种组合,可以是对识别得到所有字符进行排列组合,以得到所有字符的序列,即得到M个语句。在其中一个实施例中,N的取值可以根据字符数量进行设定。在其中一个实施例中,M≤N,可以理解的是,在不同组合方式下,组合得到的语句有可能是相同的,故此,得到的语句数量M可能会小于N。步骤104,确定M个语句中每个语句的语句流畅值。在步骤104中,语句流畅值用于表征该语句的流畅程度,其具体数值与组合得到的语句的流畅程度成负相关,通常情况下,组合得到的语句越流畅,此时,语句流畅值越小。步骤106,将M个语句进行分词,获得M个语句中每个语句包含的分词的分词分值。在步骤106中,从另外一个维度对每个语句进行评分,具体地,使用分词模型对每个语句进行分词,并对分词得到的分词结果进行评分,对应语句越合理的情况下,分词后得到的分词分值越高。步骤108,基于语句流畅值和分词分值显示M个语句中的目标语句。在步骤108中,在确定每个语句的语句流畅值和分词分值之后,根据语句流畅值和分词分值对M个语句进行筛选,从而得到目标语句,在此过程中,由于语句流畅值用于表征语句的流畅程度,通过在语句流畅值的基础上引入用于表征语句的合理情况的分词分值,以便筛选得到符合语义的语句,确保显示的语句的准确性。在其中一个实施例中,目标语句的筛选是比较不同语句的语句流畅值以及比较不同语句的分词分值,从M个语句中筛选得到语句流畅值较小且分词分值较大的语句,来作为目标语句。在其中一个实施例中,考虑到上述目标语句的筛选需要比较两个参数,需要处理的数据量比较大,本申请实施例中,对分词分值取负值,通过比较不同语句所对应的和值(其中,和值为语句流畅值与取负值的分词分值的和),以将两个比较参数归一为单一参数,以此降低了语句筛选过程中所需要比较的数据量,进而提高了输出结果的效率。在其中一个实施例中,可以对M个语句所对应的和值按照由小到大的顺序进行本文档来自技高网...

【技术保护点】
1.一种文本识别方法,其特征在于,包括:/n将识别到的字符进行N种组合,获得所述字符组成的M个语句;/n确定所述M个语句中每个语句的语句流畅值;/n将所述M个语句进行分词,获得所述M个语句中每个语句包含的分词的分词分值;/n基于所述语句流畅值和分词分值显示所述M个语句中的目标语句;/n其中,M≤N。/n

【技术特征摘要】
1.一种文本识别方法,其特征在于,包括:
将识别到的字符进行N种组合,获得所述字符组成的M个语句;
确定所述M个语句中每个语句的语句流畅值;
将所述M个语句进行分词,获得所述M个语句中每个语句包含的分词的分词分值;
基于所述语句流畅值和分词分值显示所述M个语句中的目标语句;
其中,M≤N。


2.根据权利要求1所述的文本识别方法,其特征在于,所述将识别到的字符进行N种组合,获得所述字符组成的M个语句,包括:
将识别到的字符按照由左至右的顺序进行组合,以及按照由右至左的顺序进行组合,获得M1个语句;以及
将识别到的每一列字符按照由上至下的顺序进行组合,以及按照由下至上的顺序进行组合,获得M2个语句,其中,M1与M2的总和为M。


3.根据权利要求1所述的文本识别方法,其特征在于,所述确定所述M个语句中每个语句的语句流畅值,包括:
确定所述M个语句中每个语句中的每个字符在所述M个语句组成的语句集合中出现的概率值;
根据所述概率值以及所述M个语句中每个语句对应的字符数量,确定所述M个语句中每个语句的语句流畅值。


4.根据权利要求3所述的文本识别方法,其特征在于,所述根据所述概率值以及所述M个语句中每个语句对应的字符数量,确定所述M个语句中每个语句的语句流畅值之后,还包括:
获取所述M个语句中每个语句的权重值;
根据所述权重值对所述M个语句中每个语句中的语句流畅值进行修正。


5.根据权利要求1至3中任一项所述的文本识别方法,其特征在于,将所述M个语句进行分词,获得所述M个语句中每个语句包含的分词的分词分值,具体包括:
根据所述M个语句中每个语句包含的分词与目标词库中的字符匹配的数量确定M个语句中每个语句包含的分词的分词分值。


6.一种文本识别装置,其特征在于,包括:
组合单元,用于将识别到的字符进行N种组合,获得所述字符组...

【专利技术属性】
技术研发人员:佟禹
申请(专利权)人:维沃移动通信有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1