文本识别方法、装置、设备及计算机可读存储介质制造方法及图纸

技术编号：22364145 阅读：62 留言：0更新日期：2019-10-23 04:42

本申请提供一种文本识别方法、装置、设备及计算机可读存储介质。本申请实施例通过根据指定文本，获得所述指定文本的通用向量表达，进而，可以根据所述指定文本的通用向量表达，获得所述指定文本在至少一个视角中每个视角上的特定向量表达，使得能够根据所述通用向量表达和所述每个视角上的特定向量表达，获得所述指定文本的至少两个候选分类结果，并对所述至少两个候选分类结果进行融合处理，以获得所述指定文本的目标分类结果，无需人工参与，将人工设置成本降低为零，从而提高了文本识别的可靠性。

Text recognition method, device, equipment and computer readable storage medium

全部详细技术资料下载

【技术实现步骤摘要】
文本识别方法、装置、设备及计算机可读存储介质
本申请涉及文本识别技术，尤其涉及一种文本识别方法、装置、设备及计算机可读存储介质。
技术介绍
当今互联网中信息丰富多彩，各种各样，有很多信息都可以对我们起到指导作用。例如，在消费领域，商品的一些评论信息等文本，可能会影响到消费者的消费决定。现有技术中，具体可以预先通过人工采集大量的倾向性词汇，以形成倾向性内容列表。利用这个倾向性内容列表，对待识别的文本，例如，万维网(WorldWideWeb，Web)页面中的词、句子等，进行匹配处理。若匹配出的内容特征满足指定阈值条件，则将所匹配的内容特征识别为具有某种倾向性例如，负面倾向性等的内容，进而进行基于倾向性的分析与处理。这种文本的识别处理的可靠性不高。
技术实现思路
本申请的多个方面提供一种文本识别方法、装置、设备及计算机可读存储介质，用以提高文本识别的可靠性。本申请的一方面，提供一种文本识别方法，包括：根据指定文本，获得所述指定文本的通用向量表达；根据所述指定文本的通用向量表达，获得所述指定文本在至少一个视角中每个视角上的特定向量表达；根据所述通用向量表达和所述每个视角上的特定向量表达，获得所述指定文本的至少两个候选分类结果；对所述至少两个候选分类结果进行融合处理，以获得所述指定文本的目标分类结果。本申请的另一方面，提供一种文本识别装置，包括：通用编码单元，用于根据指定文本，获得所述指定文本的通用向量表达；特定编码单元，用于根据所述指定文本的通用向量表达，获得所述指定文本在至少一个视角中每个视角上的特定向量表达；分类单元，用于根据所述通用向量表达和所述每个...

【技术保护点】
1.一种文本识别方法，其特征在于，包括：根据指定文本，获得所述指定文本的通用向量表达；根据所述指定文本的通用向量表达，获得所述指定文本在至少一个视角中每个视角上的特定向量表达；根据所述通用向量表达和所述每个视角上的特定向量表达，获得所述指定文本的至少两个候选分类结果；对所述至少两个候选分类结果进行融合处理，以获得所述指定文本的目标分类结果。

【技术特征摘要】
1.一种文本识别方法，其特征在于，包括：根据指定文本，获得所述指定文本的通用向量表达；根据所述指定文本的通用向量表达，获得所述指定文本在至少一个视角中每个视角上的特定向量表达；根据所述通用向量表达和所述每个视角上的特定向量表达，获得所述指定文本的至少两个候选分类结果；对所述至少两个候选分类结果进行融合处理，以获得所述指定文本的目标分类结果。2.根据权利要求1所述的方法，其特征在于，所述视角包括时间视角、空间时间、注意力视角或者记忆视角。3.根据权利要求1所述的方法，其特征在于，所述根据所述指定文本的通用向量表达，获得所述指定文本在至少一个视角中每个视角上的特定向量表达，包括：根据所述指定文本的通用向量表达，利用所述每个视角所对应的语言模型，获得该视角上的特定向量表达。4.根据权利要求3所述的方法，其特征在于，所述根据所述指定文本的通用向量表达，利用所述每个视角所对应的语言模型，获得该视角上的特定向量表达之前，还包括：采用交叉验证方法，进行模型训练。5.根据权利要求4所述的方法，其特征在于，所述方法还包括：对用于所述模型训练的训练数据集中每个训练数据进行特征提取处理，以获得所述每个训练数据的特征参数的值；根据所述每个训练数据的特征参数的值，进行指定的特征参数的随机丢弃处理，以获得该训练数据的复制数据；将所述每个训练数据的复制数据，加入到所述训练数据集中。6.根据权利要求1～5一权利要求所述的方法，其特征在于，所述对所述至少两个候选分类结果进行融合处理，以获得所述指定文本的目标分类结果，包括：利用投票策略，对所述至少两个候选分类结果进行融合处理，以获得所述指定文本的目标分类结果。7.一种文本识别装置，其特征在于，包括：通用编码单元，用于根据指定文本，获得所述指定文本的通用向量...

【专利技术属性】
技术研发人员：刘佳祥，王硕寰，孙宇，
申请(专利权)人：北京百度网讯科技有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人