【技术实现步骤摘要】
文本识别方法及装置、计算机可读存储介质和电子设备
[0001]本申请涉及文本处理
,具体涉及一种文本识别方法及装置、计算机可读存储介质和电子设备。
技术介绍
[0002]专利文献主要包括技术问题、技术方案和技术功效三个部分。根据专利文献的技术功效部分可以对专利文献进行详细的分类。
[0003]目前,有利用专利的著录项目信息来识别功效文本,从而对专利文件进行分类的方法。但是专利的著录项目信息过于宽泛,不能准确的识别出功效文本,无法对专利文献进行详细的分类。现有技术中,为了提高识别功效文本的准确度,主要通过规则标引或人工标引的方式来确定功效文本。规则标引是通过识别具体的语法模式来确定功效文本,容易遗漏语法模式无法覆盖的其他表达,从而可能遗漏重要的专利信息,导致文本识别的准确性较低。人工标引虽然准确性较高,但是需要耗费大量的人力,导致文本识别的效率较低。
技术实现思路
[0004]有鉴于此,本申请实施例提供了一种文本识别方法及装置、计算机可读存储介质和电子设备,解决了文本识别不准确和效率低的问题。r/>[0005]第本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种文本识别方法,其特征在于,包括:基于待识别文本确定所述待识别文本对应的多个字符串,其中,所述多个字符串中相邻的所述字符串有部分重叠;对所述多个字符串进行词向量转化,得到多个词向量,其中,所述多个词向量与所述多个字符串呈一一对应关系;基于所述多个词向量生成所述多个词向量各自对应的词向量识别结果,其中,所述词向量识别结果为功效文本或非功效文本;以及基于所述多个词向量各自对应的词向量识别结果确定所述待识别文本的文本识别结果。2.根据权利要求1所述的文本识别方法,其特征在于,所述多个字符串的数量为M,M为大于1的正整数,所述基于所述待识别文本确定所述待识别文本对应的多个字符串,包括:基于所述待识别文本确定预设字符串长度的第1个字符串;以第N个字符串中的字符为第N+1个字符串的起点字符,基于所述预设字符串长度和预设分解步长分解所述待识别文本,得到所述第N+1个字符串,其中,N为大于或等于1,且小于M的正整数。3.根据权利要求1所述的文本识别方法,其特征在于,所述基于所述多个词向量各自对应的词向量识别结果确定所述待识别文本的文本识别结果,包括:采用投票机制,对所述多个词向量各自对应的词向量识别结果进行投票操作,确定所述待识别文本的所述文本识别结果。4.根据权利要求3所述的文本识别方法,其特征在于,所述采用投票机制,对所述多个词向量各自对应的所述词向量识别结果进行投票操作,确定所述待识别文本的所述文本识别结果,包括:基于所述待识别文本确定所述待识别文本对应的多个待识别单元,其中,所述待识别单元对应至少一个所述词向量;针对所述多个待识别单元中的每个待识别单元,采用所述投票机制,对所述待识别单元对应的词向量识别结果进行所述投票操作,确定所述待识别单元的所述文本识别结果;基于所述多个待识别单元各自对应的文本识别结果,确定所述待识别文本对应的文本识别结果。5.根据权利要求4所述的文本识别方法,其特征在于,所述待识别文本为专利文本,所述待识别单元包括所述专利文本中的句子、段落和文本模块中的至少一种;其中,所述文本模块包括摘要模块、权利要求书模块和说明书模块中的至少一种。6.根据权利要求4所述的文本识别方法,其特征在于,所述采用所述投票机制,对所述待识别单元对应的词向量识别结果进行所述投票操作,确定所述待识别单元的所述文本识别结果,包括:如果在所述待识别单元对应的词向量识别结果中,所述功效文本的数量大于或等于所述非功效文本的数量,确定所述待识别单元的所述文本识别结果为所述功效文本。7.根据权利要求1至6任一项所述的文本识别方法,其特征在于,所述基于所述多个词向量生成所述多个词向量各自对应的词向量识别结果,包括:利用功效识别模型,基于所述多个词向量生成所述多个词向量各自对应的词向量识别
结果,其中,所述功效识别模型用于基于输入的词向量生成所述输入的词向量对应的词向量识别结果。8.根据权利要求7所述的文本识别方法,其特征在于,在所述利用功效识别模型,基于所述多个词向量生成所述多个词向量各自对应的词向量识别结果之前,还包括:确定训练文本以及所...
【专利技术属性】
技术研发人员:李发科,王为磊,屠昶旸,张济徽,
申请(专利权)人:智慧芽信息科技苏州有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。