文本识别方法、装置、设备及计算机可读存储介质制造方法及图纸

技术编号:22364145 阅读:62 留言:0更新日期:2019-10-23 04:42
本申请提供一种文本识别方法、装置、设备及计算机可读存储介质。本申请实施例通过根据指定文本,获得所述指定文本的通用向量表达,进而,可以根据所述指定文本的通用向量表达,获得所述指定文本在至少一个视角中每个视角上的特定向量表达,使得能够根据所述通用向量表达和所述每个视角上的特定向量表达,获得所述指定文本的至少两个候选分类结果,并对所述至少两个候选分类结果进行融合处理,以获得所述指定文本的目标分类结果,无需人工参与,将人工设置成本降低为零,从而提高了文本识别的可靠性。

Text recognition method, device, equipment and computer readable storage medium

【技术实现步骤摘要】
文本识别方法、装置、设备及计算机可读存储介质
本申请涉及文本识别技术,尤其涉及一种文本识别方法、装置、设备及计算机可读存储介质。
技术介绍
当今互联网中信息丰富多彩,各种各样,有很多信息都可以对我们起到指导作用。例如,在消费领域,商品的一些评论信息等文本,可能会影响到消费者的消费决定。现有技术中,具体可以预先通过人工采集大量的倾向性词汇,以形成倾向性内容列表。利用这个倾向性内容列表,对待识别的文本,例如,万维网(WorldWideWeb,Web)页面中的词、句子等,进行匹配处理。若匹配出的内容特征满足指定阈值条件,则将所匹配的内容特征识别为具有某种倾向性例如,负面倾向性等的内容,进而进行基于倾向性的分析与处理。这种文本的识别处理的可靠性不高。
技术实现思路
本申请的多个方面提供一种文本识别方法、装置、设备及计算机可读存储介质,用以提高文本识别的可靠性。本申请的一方面,提供一种文本识别方法,包括:根据指定文本,获得所述指定文本的通用向量表达;根据所述指定文本的通用向量表达,获得所述指定文本在至少一个视角中每个视角上的特定向量表达;根据所述通用向量表达和所述每个视角上的特定向量表达,获得所述指定文本的至少两个候选分类结果;对所述至少两个候选分类结果进行融合处理,以获得所述指定文本的目标分类结果。本申请的另一方面,提供一种文本识别装置,包括:通用编码单元,用于根据指定文本,获得所述指定文本的通用向量表达;特定编码单元,用于根据所述指定文本的通用向量表达,获得所述指定文本在至少一个视角中每个视角上的特定向量表达;分类单元,用于根据所述通用向量表达和所述每个视角上的特定向量表达,获得所述指定文本的至少两个候选分类结果;融合单元,用于对所述至少两个候选分类结果进行融合处理,以获得所述指定文本的目标分类结果。本申请的另一方面,提供一种设备,所述设备包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上述一方面所提供的文本识别方法。本申请的另一方面,提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述一方面所提供的文本识别方法。由上述技术方案可知,本申请实施例通过根据指定文本,获得所述指定文本的通用向量表达,进而,可以根据所述指定文本的通用向量表达,获得所述指定文本在至少一个视角中每个视角上的特定向量表达,使得能够根据所述通用向量表达和所述每个视角上的特定向量表达,获得所述指定文本的至少两个候选分类结果,并对所述至少两个候选分类结果进行融合处理,以获得所述指定文本的目标分类结果,无需人工参与,将人工设置成本降低为零,从而提高了文本识别的可靠性。另外,采用本申请所提供的技术方案,通过多种视角对文本进行建模,能够更加充分地完成文本信息的表达,从而使得文本识别的结果更加准确。另外,采用本申请所提供的技术方案,通过在模型训练阶段,利用辅助的语言模型,来根据训练数据集中的训练数据的特征参数的值识别特征参数的重要性,并通过随机丢弃一些重要的特征参数来复制训练数据,来获得更多的训练数据,从而避免模型学习了过多的过强特征。另外,采用本申请所提供的技术方案,能够有效地提高用户的体验。【附图说明】为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1为本申请一实施例提供的文本识别方法的流程示意图;图2A为本申请另一实施例提供的文本识别装置的结构示意图;图2B为本申请另一实施例提供的文本识别装置的结构示意图;图3为适于用来实现本申请实施方式的示例性计算机系统/服务器12的框图。【具体实施方式】为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的全部其他实施例,都属于本申请保护的范围。需要说明的是,本申请实施例中所涉及的终端可以包括但不限于手机、个人数字助理(PersonalDigitalAssistant,PDA)、无线手持设备、平板电脑(TabletComputer)、个人电脑(PersonalComputer,PC)、MP3播放器、MP4播放器、可穿戴设备(例如,智能眼镜、智能手表、智能手环等)等。另外,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。本申请中的文本识别,可以定义为从非结构化的文本中提取指定的特征信息,例如,建议表达、情感表达等。与用户自己手动从所阅读的文档中收集到这些特征信息相比,对文本的自动识别,能够有效提高文本识别的效率。现有技术中,具体可以预先通过人工采集大量的倾向性词汇,以形成倾向性内容列表。利用这个倾向性内容列表,对待识别的文本,例如,Web页面中的词、句子等,进行匹配处理。若匹配出的内容特征满足指定阈值条件,则将所匹配的内容特征识别为具有某种倾向性例如,负面倾向性等的内容,进而进行基于倾向性的分析与处理。这种文本的识别处理的可靠性不高。基于上述,本申请提供一种文本识别方法,以提高文本识别的可靠性。图1为本申请一实施例提供的文本识别方法的流程示意图,如图1所示。101、根据指定文本,获得所述指定文本的通用向量表达。102、根据所述指定文本的通用向量表达,获得所述指定文本在至少一个视角中每个视角上的特定向量表达。103、根据所述通用向量表达和所述每个视角上的特定向量表达,获得所述指定文本的至少两个候选分类结果。104、对所述至少两个候选分类结果进行融合处理,以获得所述指定文本的目标分类结果。需要说明的是,101~104的执行主体的部分或全部可以为位于本地终端的应用,或者还可以为设置在位于本地终端的应用中的插件或软件开发工具包(SoftwareDevelopmentKit,SDK)等功能单元,或者还可以为位于网络侧服务器中的处理引擎,或者还可以为位于网络侧的分布式系统,本实施例对此不进行特别限定。可以理解的是,所述应用可以是安装在终端上的本地程序(nativeApp),或者还可以是终端上的浏览器的一个网页程序(webApp),本实施例对此不进行特别限定。这样,通过根据指定文本,获得所述指定文本的通用向量表达,进而,可以根据所述指定文本的通用向量表达,获得所述指定文本在至少一个视角中每个视角上的特定向量表达,使得能够根据所述通用向量表达和所述每个视角上的特定向量表达,获得所述指定文本的至少两个候选分类结果,并对所述至少两个候选分类结果进行融合处理,以获得所述指定文本的目标分类结果,无需人工参与,将人工设置成本降低为零,从而提高了文本识别的可靠性。本申请中,所涉及的指定文本中“指定”二字,并没有特殊含义,就是为了指本文档来自技高网...

【技术保护点】
1.一种文本识别方法,其特征在于,包括:根据指定文本,获得所述指定文本的通用向量表达;根据所述指定文本的通用向量表达,获得所述指定文本在至少一个视角中每个视角上的特定向量表达;根据所述通用向量表达和所述每个视角上的特定向量表达,获得所述指定文本的至少两个候选分类结果;对所述至少两个候选分类结果进行融合处理,以获得所述指定文本的目标分类结果。

【技术特征摘要】
1.一种文本识别方法,其特征在于,包括:根据指定文本,获得所述指定文本的通用向量表达;根据所述指定文本的通用向量表达,获得所述指定文本在至少一个视角中每个视角上的特定向量表达;根据所述通用向量表达和所述每个视角上的特定向量表达,获得所述指定文本的至少两个候选分类结果;对所述至少两个候选分类结果进行融合处理,以获得所述指定文本的目标分类结果。2.根据权利要求1所述的方法,其特征在于,所述视角包括时间视角、空间时间、注意力视角或者记忆视角。3.根据权利要求1所述的方法,其特征在于,所述根据所述指定文本的通用向量表达,获得所述指定文本在至少一个视角中每个视角上的特定向量表达,包括:根据所述指定文本的通用向量表达,利用所述每个视角所对应的语言模型,获得该视角上的特定向量表达。4.根据权利要求3所述的方法,其特征在于,所述根据所述指定文本的通用向量表达,利用所述每个视角所对应的语言模型,获得该视角上的特定向量表达之前,还包括:采用交叉验证方法,进行模型训练。5.根据权利要求4所述的方法,其特征在于,所述方法还包括:对用于所述模型训练的训练数据集中每个训练数据进行特征提取处理,以获得所述每个训练数据的特征参数的值;根据所述每个训练数据的特征参数的值,进行指定的特征参数的随机丢弃处理,以获得该训练数据的复制数据;将所述每个训练数据的复制数据,加入到所述训练数据集中。6.根据权利要求1~5一权利要求所述的方法,其特征在于,所述对所述至少两个候选分类结果进行融合处理,以获得所述指定文本的目标分类结果,包括:利用投票策略,对所述至少两个候选分类结果进行融合处理,以获得所述指定文本的目标分类结果。7.一种文本识别装置,其特征在于,包括:通用编码单元,用于根据指定文本,获得所述指定文本的通用向量...

【专利技术属性】
技术研发人员:刘佳祥王硕寰孙宇
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1