文本识别方法、装置、存储介质和电子设备制造方法及图纸

技术编号:26259798 阅读:22 留言:0更新日期:2020-11-06 17:54
本申请提供一种文本识别方法、装置、存储介质和电子设备,属于计算机技术领域,涉及人工智能和自然语言处理技术。本申请获取由两个语句组成的句对对应的词向量特征后,根据词向量特征得到句对对应的文本特征序列,然后根据各个分词对应的词向量特征元素的权重,将文本特征序列转换为所述句对对应的文本特征向量。由于分词对应的词向量特征元素的权重可以表征该分词对判定句对是否为排比句对的重要度,因此基于考虑各个分词对应的词向量特征元素的权重得到的句对对应的文本特征向量,确定该句对是否为排比句,可以提高识别结果的准确率,有利于准确识别文本中的排比句。

【技术实现步骤摘要】
文本识别方法、装置、存储介质和电子设备
本申请涉及计算机
,具体涉及一种文本识别方法、装置、存储介质和电子设备。
技术介绍
近年来,随着在线教育和网络课堂的普及,利用自然语言处理技术自动进行作文批改成为一项急需的技术。排比是一种非常常用的修辞手法,是作文批改的修辞维度评价指标的重要组成部分。排比句一般是由结构上相似、位置上临近、语气上一致的三个或三个以上的语句构成的一个长句。在写作中使用排比句,可使句子更加整齐和谐、更加朗朗上口,也能为整篇作文增辉。如果可以识别出作文中的排比句,有利于在文采维度对作文做出更准确的评价。因此,在利用自然语言处理技术自动进行作文批改的过程中,如何准确识别排比句是一个亟待解决的问题。
技术实现思路
为解决现有存在的技术问题,本申请实施例提供一种文本识别方法、装置、存储介质和电子设备,可以准确地识别出文本中的排比对,从而有利于准确识别文本中的排比句。为达到上述目的,本申请实施例的技术方案是这样实现的:第一方面,本申请实施例提供一种文本识别方法,包括:获取由两个语句组成的句对对应的词向量矩阵,并提取所述词向量矩阵的词向量特征;根据所述词向量特征,得到所述句对对应的文本特征序列;所述文本特征序列包括所述句对的每个语句包含的分词对应的词向量特征元素;根据各个分词对应的词向量特征元素的权重,将所述文本特征序列转换为所述句对对应的文本特征向量;所述分词对应的词向量特征元素的权重用于表征该分词对判定所述句对是否为排比句对的重要度;基于所述句对对应的文本特征向量,确定所述句对对应的句对识别结果;所述句对识别结果包括所述句对为排比句对或所述句对为非排比句对。第二方面,本申请实施例提供一种文本识别装置,包括:特征提取单元,用于获取由两个语句组成的句对对应的词向量矩阵,并提取所述词向量矩阵的词向量特征;特征处理单元,用于根据所述词向量特征,得到所述句对对应的文本特征序列;所述文本特征序列包括所述句对的每个语句包含的分词对应的词向量特征元素;根据各个分词对应的词向量特征元素的权重,将所述文本特征序列转换为所述句对对应的文本特征向量;所述分词对应的词向量特征元素的权重用于表征该分词对判定所述句对是否为排比句对的重要度;特征识别单元,用于基于所述句对对应的文本特征向量,确定所述句对对应的句对识别结果;所述句对识别结果包括所述句对为排比句对或所述句对为非排比句对。在一种可选的实施例中,所述特征提取单元,具体用于:根据所述句对中每个语句包含的分词的词向量,生成所述句对对应的词向量序列;根据所述句对中每个语句包含的分词的词性向量,生成所述句对对应的词性向量序列;将所述句对对应的词向量序列和词性向量序列进行拼接,得到所述句对对应的词向量矩阵;将所述词向量矩阵输入特征提取网络模型,得到所述词向量矩阵的词向量特征。在一种可选的实施例中,特征处理单元,具体用于:将所述词向量特征输入双向长短期记忆网络模型,得到所述双向长短期记忆网络模型输出的所述句对对应的文本特征序列;将所述文本特征序列输入多头注意力机制模型,得到所述多头注意力机制模型输出的所述句对对应的文本特征向量;所述多头注意力机制模型用于根据各个分词对应的词向量特征元素的权重,将所述文本特征序列转换为文本特征向量;所述双向长短期记忆网络模型和多头注意力机制模型为利用具有类别标签的训练样本进行训练得到的;其中,类别标签用于指明对应的训练样本为正样本或负样本,所述正样本为从排比句中抽取的两个语句组成的句对样本,所述负样本为随机获取的两个语句组成的句对样本。在一种可选的实施例中,所述特征提取网络模型包括多个卷积核宽度不同的卷积层;所述特征提取单元,具体用于:将所述词向量矩阵分别输入每个卷积层,得到每个卷积层输出的特征向量;将得到的所有特征向量进行拼接,获得所述词向量矩阵的词向量特征。在一种可选的实施例中,所述多头注意力机制模型包括多个具有不同网络参数的注意力子网络;所述特征处理单元,具体用于:将所述文本特征序列分别输入每个注意力子网络,并将所有注意力子网络的输出进行拼接,获得所述句对对应的文本特征向量。在一种可选的实施例中,所述特征识别单元,具体用于:基于所述句对对应的文本特征向量,确定所述句对为排比句对的概率;若所述句对为排比句对的概率大于或等于设定第一阈值,则确定所述句对为排比句对;或者,基于所述句对对应的文本特征向量,确定所述句对为非排比句对的概率;若所述句对为非排比句对的概率小于或等于设定第二阈值,且所述句对包含的语句满足预设排比条件,则确定所述句对为排比句对。在一种可选的实施例中,所述特征识别单元,具体用于:将所述句对对应的文本特征向量输入全连接层,并通过分类器对所述全连接层的输出进行分类,得到所述句对为排比句对的概率。在一种可选的实施例中,所述句对包含的语句满足的预设排比条件,包括如下条件中的部分或全部:所述句对中的每个语句包含的字符或分词的数量大于或等于设定数量;所述句对中的两个语句包含的字符的数量的差值小于或等于第一设定差值;所述句对中的两个语句包含的分词的数量的差值小于或等于第二设定差值;所述句对中的两个语句包含的标点符号的匹配率大于或等于设定匹配阈值;所述句对中的两个语句包含的分词的词性相似度大于或等于设定相似度值;对于两个语句中的共现词,各个共现词在两个语句中的位置之间的距离小于或等于设定距离值。在一种可选的实施例中,所述装置还包括数据获取单元,用于:根据指定的分隔符,将待识别文本分割为多个语句;依次将相邻的至少两个语句组成一个句对;所述特征识别单元,还用于:根据每个句对对应的句对识别结果,从所述待识别文本中抽取排比句。在一种可选的实施例中,所述装置还包括模型训练单元,用于:获取训练样本集,所述训练样本集中包括具有类别标签的句对样本;从所述训练样本集中抽取句对样本,并获取抽取的句对样本的词向量特征;将句对样本的词向量特征输入待训练的双向长短期记忆网络模型,得到句对样本对应的文本特征序列;将句对样本对应的文本特征序列输入多头注意力机制模型,得到句对样本对应的文本特征向量;通过分类器对句对样本对应的文本特征向量进行分类,得到句对样本的分类结果;根据句对样本的分类结果与句对样本的类别标签,确定损失值;根据损失值对双向长短期记忆网络模型和多头注意力机制模型的网络参数进行调整,直至所述损失值收敛至预设的期望值为止,得到已训练的双向长短期记忆网络模型和多头注意力机制模型。在一种可选的实施例中,所述模型训练单元,还可以用于:若所述句对样本包含的语句满足预设排比条件,将所述句对样本的类别标签设置为正样本;若所述句对样本包含的语句未满足预设排比条件,将所述句对样本的类别标签设本文档来自技高网...

【技术保护点】
1.一种文本识别方法,其特征在于,包括:/n获取由两个语句组成的句对对应的词向量矩阵,并提取所述词向量矩阵的词向量特征;/n根据所述词向量特征,得到所述句对对应的文本特征序列;所述文本特征序列包括所述句对的每个语句包含的分词对应的词向量特征元素;/n根据各个分词对应的词向量特征元素的权重,将所述文本特征序列转换为所述句对对应的文本特征向量;所述分词对应的词向量特征元素的权重用于表征该分词对判定所述句对是否为排比句对的重要度;/n基于所述句对对应的文本特征向量,确定所述句对对应的句对识别结果;所述句对识别结果包括所述句对为排比句对或所述句对为非排比句对。/n

【技术特征摘要】
1.一种文本识别方法,其特征在于,包括:
获取由两个语句组成的句对对应的词向量矩阵,并提取所述词向量矩阵的词向量特征;
根据所述词向量特征,得到所述句对对应的文本特征序列;所述文本特征序列包括所述句对的每个语句包含的分词对应的词向量特征元素;
根据各个分词对应的词向量特征元素的权重,将所述文本特征序列转换为所述句对对应的文本特征向量;所述分词对应的词向量特征元素的权重用于表征该分词对判定所述句对是否为排比句对的重要度;
基于所述句对对应的文本特征向量,确定所述句对对应的句对识别结果;所述句对识别结果包括所述句对为排比句对或所述句对为非排比句对。


2.根据权利要求1所述的方法,其特征在于,所述获取由两个语句组成的句对对应的词向量矩阵,并提取所述词向量矩阵的词向量特征,包括:
根据所述句对中每个语句包含的分词的词向量,生成所述句对对应的词向量序列;
根据所述句对中每个语句包含的分词的词性向量,生成所述句对对应的词性向量序列;
将所述句对对应的词向量序列和词性向量序列进行拼接,得到所述句对对应的词向量矩阵;
将所述词向量矩阵输入特征提取网络模型,得到所述词向量矩阵的词向量特征。


3.根据权利要求2所述的方法,其特征在于,所述特征提取网络模型包括多个卷积核宽度不同的卷积层;将所述词向量矩阵输入特征提取网络,得到所述词向量矩阵的词向量特征,包括:
将所述词向量矩阵分别输入每个卷积层,得到每个卷积层输出的特征向量;
将得到的所有特征向量进行拼接,获得所述词向量矩阵的词向量特征。


4.根据权利要求1所述的方法,其特征在于,根据所述词向量特征,得到所述句对对应的文本特征序列,包括:
将所述词向量特征输入双向长短期记忆网络模型,得到所述双向长短期记忆网络模型输出的所述句对对应的文本特征序列;
根据各个分词对应的词向量特征元素的权重,将所述文本特征序列转换为所述句对对应的文本特征向量,包括:
将所述文本特征序列输入多头注意力机制模型,得到所述多头注意力机制模型输出的所述句对对应的文本特征向量;所述多头注意力机制模型用于根据各个分词对应的词向量特征元素的权重,将所述文本特征序列转换为文本特征向量;
所述双向长短期记忆网络模型和多头注意力机制模型为利用具有类别标签的训练样本进行训练得到的;其中,类别标签用于指明对应的训练样本为正样本或负样本,所述正样本为从排比句中抽取的两个语句组成的句对样本,所述负样本为随机获取的两个语句组成的句对样本。


5.根据权利要求4所述的方法,其特征在于,所述多头注意力机制模型包括多个具有不同网络参数的注意力子网络;将所述文本特征序列输入多头注意力机制模型,得到所述句对对应的文本特征向量,包括:
将所述文本特征序列分别输入每个注意力子网络,并将所有注意力子网络的输出进行拼接,获得所述句对对应的文本特征向量。


6.根据权利要求1所述的方法,其特征在于,基于所述句对对应的文本特征向量,确定所述句对对应的句对识别结果,包括:
基于所述句对对应的文本特征向量,确定所述句对为排比句对的概率;若所述句对为排比句对的概率大于或等于设定第一阈值,则确定所述句对为排比句对;或者,
基于所述句对对应的文本特征向量,确定所述句对为非排比句对的概率;若所述句对为非排比句对的概率小于或等于设定第二阈值,且所述句对包含的语句满足预设排比条件,则确定所述句对为排比句对。


7.根据权利要求6所述的方法,其特征在于,基于所述句对对应的文本特征向量,确定所述句对为排比句对的概率,包括:
将所述句对对应的文本特征向量输入全连接层,并通过分类器对所述全连接层的输出进行分类,得到所述句对为排比句对的概率。


8.根据权利要求6所述的方法,其特征在于,所述句对包含的语句满足的预设排比条件,包括如下条件中的部分或全...

【专利技术属性】
技术研发人员:蔡晓凤关俊辉叶礼伟刘萌李超卢鑫鑫刘晓靖肖世伟孙朝旭张艺博滕达付贵周伟强王静崔立鹏曹云波
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1